WO2020189057A1 - 画像処理装置、画像処理方法、プログラム - Google Patents

画像処理装置、画像処理方法、プログラム Download PDF

Info

Publication number
WO2020189057A1
WO2020189057A1 PCT/JP2020/004030 JP2020004030W WO2020189057A1 WO 2020189057 A1 WO2020189057 A1 WO 2020189057A1 JP 2020004030 W JP2020004030 W JP 2020004030W WO 2020189057 A1 WO2020189057 A1 WO 2020189057A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
shot
main
main image
subject
Prior art date
Application number
PCT/JP2020/004030
Other languages
English (en)
French (fr)
Inventor
広志 池田
伸穂 池田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2021506221A priority Critical patent/JPWO2020189057A1/ja
Priority to US17/438,651 priority patent/US11800047B2/en
Priority to EP20774738.7A priority patent/EP3944610A4/en
Publication of WO2020189057A1 publication Critical patent/WO2020189057A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/268Signal distribution or switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2625Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of images from a temporal image sequence, e.g. for a stroboscopic effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/7921Processing of colour television signals in connection with recording for more than one processing mode

Definitions

  • This technology is related to image processing equipment, image processing methods, and programs, especially in the technical field of image switching.
  • images (shots) captured by multiple cameras are often switched according to the content of the scene being captured. This makes it possible to create realistic and interesting image contents.
  • Patent Document 1 discloses a technique for automatically selecting which captured image is to be used for captured images transmitted simultaneously from a plurality of cameras.
  • the switching of images (shots) in moving images is one of the important factors for maintaining the viewer's interest in the image. If one scene is too long or too short, the viewer may feel uncomfortable or may not be able to maintain their interest.
  • the appropriate time to continue a shot from one camera also depends on the content of the image in that shot. For this reason, it is difficult to automatically perform screen switching as performed by skilled switching staff. For example, in the case of automatic switching, the duration length of each shot becomes constant, which may make the image content uninteresting or unnatural.
  • the image processing apparatus has a main image selection unit that selects one image as the main image among a plurality of images, and a duration period for continuing the selected image selected by the main image selection unit as the main image.
  • the length is provided with a period setting unit for setting the length according to the image classification to which the selected image corresponds among the plurality of image classifications.
  • the main image is used for a certain period of time on the time axis by switching processing for real-time broadcasting, distribution, recording, transfer, etc. of image content having a length in the time axis direction such as a moving image or a still image slide show.
  • the image to be used For example, it is an image used as moving image content output for broadcasting or the like by switching processing.
  • the captured image of each camera becomes a plurality of images, and among them, the captured image by a certain camera currently output by the broadcast or the like is It corresponds to the main image referred to here.
  • an image of a certain cutout area currently output by broadcasting or the like among a plurality of images in which the cutout area is changed from the image captured by the camera also corresponds to the main image referred to here.
  • the duration length is selected next to the selected image by the main image selection unit among the plurality of images after the selected image is switched to the main image. It is considered that it is the length of the period until the other image is switched to the main image. For example, an image output as a broadcast image is switched so that the main image is sequentially switched. As an example of the duration length, in such a case, it is assumed that one image is adopted as the main image.
  • the image classification is determined based on the subject information of the image.
  • the image classification can be considered as a whole image, a leading role image, a supporting role image, a speaker image, or the like.
  • Such image classification may be preset for each image, or may be classified by user operation, or may be determined based on subject information.
  • the subject is determined by image analysis, and the corresponding image classification is determined.
  • the first period when the duration reaches the duration, or when a predetermined situation is detected and the duration of the current main image is shorter than the duration, the first period It is conceivable to include a switching control unit that controls switching the main image from the selected image to another image among the plurality of images when the length has passed. The main image may be switched to another image even if the duration set for the image currently the main image has not been reached.
  • the switching control unit changes the image classification of the image as the main image from the image classification when the image classification as the main image is selected by the main image selection unit.
  • the switching control unit sets the period setting unit when an image whose image classification is the main subject image occurs among the images that are not the main image. It is conceivable to control the switching of the main image to an image of the image classification indicating that it is the main subject image, provided that the first period length shorter than the duration length is passed.
  • the main subject image is an image including a specific person or the like who is a protagonist, an image including a person or the like (for example, a speaker) who is performing a main action in the imaging scene, or the like. For example, when the main subject changes, the image that is the image classification indicating that the main subject is included is different. Therefore, if the image classification indicates that an image different from the current main image includes the main subject, the main image may be switched regardless of the set duration length.
  • the main image selection unit may be used. It is conceivable to select an image of the image classification indicating that it is the whole image among the plurality of images as a new main image.
  • the whole image can be considered, for example, an image in which a scene is captured at the widest angle among a plurality of images.
  • the image may include a plurality of persons or the like, or an individual person or the like may appear relatively small.
  • the second period length is a period length set longer than the maximum value of the continuation period length set by the period setting unit, and is a period length that serves as a guideline for a period in which the entire image is not displayed.
  • the period length is such that it is better to display the entire image after the second period length has elapsed without displaying the entire image.
  • the image classification is an image classification including at least one of a main subject image, a sub-subject image, and an entire image.
  • the sub-subject image is an image including a person other than the main character or the like corresponding to the above-mentioned main subject image.
  • the duration length of the main subject image, the sub-subject image, and the entire image should be different from each other.
  • the period setting unit continues according to the image classification so that the main subject image has the longest duration and the entire image has the shortest duration. It is conceivable to set the period length.
  • the duration length is set so that the main subject image> the sub-subject image> the entire image.
  • the duration may be such that the main subject image> the entire image> the sub-subject image.
  • the main image selection unit uses processing according to a predetermined selection rule among a plurality of images other than the image as the main image, and then the main image selection unit. It is conceivable to select an image to be used as an image. The next main image may be randomly selected from all the images, but may be selected by providing a predetermined selection rule.
  • one of the processes according to the selection rule is that the image as the main subject image is not the main subject image and there is an image as another main subject image. In that case, it is conceivable that the process is to use it as a candidate for the next main image. If the current main subject image is not the main subject image, the viewer can select the main subject image as the main subject image without any discomfort.
  • one of the processes according to the selection rule is that the image as the main subject image is the main subject image and there is an image as another main subject image. In that case, it is conceivable that the process is to use it as a candidate for the next main image. If the current main image is the main subject image and there is another main subject image, the viewer can select it as the next main image without any discomfort.
  • one of the processes according to the selection rule is a process of excluding an image having the same image classification as the image as the main image from the candidates of the next main image. It is possible that there is. Prevent continuous images with the same image classification as the current one as the main image.
  • one of the processes according to the selection rule is to select an image including the same sub-subject as the subject of the image as the main image from the candidates of the next main image. It is possible that this is a process to exclude. Prevent continuous images with the same image classification as the current one as the main image.
  • one of the processes according to the selection rule is that the image as the main image is the entire image and as another image among the plurality of images. It is conceivable that this is a process of excluding the sub-subject image from the candidates of the next main image when there is a main subject image. Try not to display supporting characters as much as possible at the next timing after displaying the entire image.
  • the main image selection unit does not have an image that is a candidate for the next main image other than the entire image due to the processing according to the selection rule. May select the entire image as the next main image. If the selection rule is followed, it is possible that all images or all images except the entire image cannot be selected. In that case, the whole image is selected as the next main image.
  • the main image selection unit sets the next main image by the selection process in which the weight is added to each image among the candidate images to be the next main image. It is conceivable to select an image. To select the next main image, select all images as candidates in the lottery process, or set a predetermined selection rule to determine the image candidates to be selected, and then select the candidate images in the lottery process. To make a selection. At this time, a weighted lottery is performed.
  • the main image selection unit performs random lottery processing for the candidate image. It is conceivable to select the next main image with.
  • the selection rule if the main subject image does not exist in the candidate, the next main image is randomly selected.
  • one image to be the main image is selected from the plurality of images, and the duration length for continuing the selected selected image as the main image is set among the plurality of image classifications.
  • the program according to the present technology is a program that causes an information processing apparatus to execute the processing of the above image processing method.
  • an information processing device or a processor in an image pickup device, a switcher device, a general-purpose terminal device, or the like enables the technique of the present disclosure to be executed.
  • Equipment configuration applicable as an image processing device> ⁇ 2.
  • Function configuration example of image processing device> ⁇ 3.
  • Automatic control of shot switching> ⁇ 4.
  • Processing example of the first embodiment> ⁇ 5.
  • Processing example of the second embodiment> ⁇ 6. Summary and modification>
  • the "image” is an image as a moving image or a still image.
  • an image is captured by an imaging device, is subject to switching processing, and can be used for image content for broadcasting or the like. Is pointing to.
  • the image is an image of the entire image frame captured by the image pickup apparatus, an image of a region cut out (cropped) from the captured image, or the like, and is a whole or a part region of the image as a so-called camera shot. Therefore, the captured image that is the target of these switchings is called a "shot".
  • the "main image” is a period length on the time axis by switching processing for real-time broadcasting, distribution, recording, transfer, etc. of image content having a length in the time axis direction such as a moving image or a still image slide show.
  • the image (shot) used in That is, it is a shot that is selected in the switching process and is used as a moving image content that is output for broadcasting or the like.
  • One of the plurality of shots is sequentially selected and becomes the main image.
  • the “image classification” is a classification according to the subject of the shot or the image content determined by the camera work.
  • “main subject shot”, “supporting character shot”, and “whole shot” are given as the image classification of each shot.
  • leading shot and “speaker shot” are listed as subdivisions of "main subject shot”.
  • the "main subject shot” refers to a shot including a main subject (people, animals, scenes, etc.) in an event or the like being imaged. In a broad sense, it is a shot that includes a main subject (may include supporting characters, etc.), and in a narrow sense, it is a shot that includes only the main subject and its background. Regarding the processing of the present embodiment, either a broad sense or a narrow sense may be adopted.
  • the “main subject shot” includes a “leading shot” and a “speaker shot”.
  • the “leading shot” refers to, for example, a shot showing a person who is determined in advance as the leading role (such as a person who plays a leading role in an event or the like). For example, in the case of a concert by musician A, the shot showing Mr. A is the leading shot.
  • a "speaker shot” is a shot of the person speaking at that time.
  • “Supporting character shot” refers to a shot that includes a subject (people, animals, scenes, etc.) that is not the main subject in the event being imaged. For example, in the case of a concert by musician A, a shot showing Mr. A's back musician is a supporting shot.
  • the "whole shot” is, for example, a shot that shows the event as a whole. For example, among multiple shots, take the widest angle image, the image with the largest number of people as the subject, the image with the smallest size of the person as the subject, the stage, etc. in the state closest to the front. An image or the like may be determined as an entire shot.
  • the image processing apparatus as the embodiment of the present disclosure can be realized in various devices. First, the devices to which the technology of the present disclosure can be applied will be described.
  • FIG. 1 is an example in which the mobile terminal 2 has a function as an image processing device of the present technology.
  • the mobile terminal 2 is a device such as a smartphone or a tablet device. Shots VD1, VD2, VD3, and VD4 as moving images being captured are transmitted from one imaging device 1 to the mobile terminal 2.
  • shots VD1, VD2, VD3, and VD4 as moving images being captured are transmitted from one imaging device 1 to the mobile terminal 2.
  • shots VD1, VD2, VD3, and VD4 as moving images being captured are transmitted from one imaging device 1 to the mobile terminal 2.
  • the term "shot VD" will be used when these plurality of shots are collectively referred to without distinction, or when a certain shot without particular limitation is referred to.
  • the communication between the image pickup device 1 and the mobile terminal 2 is performed by, for example, wired communication or wireless communication (for example, short-range wireless communication).
  • (CS) is added as a subscript to the shot VD1, which indicates that the image is an image of the entire angle of view captured.
  • (CR) is added as a subscript to the shots VD2, VD3, and VD4, which indicates that the image is cropped from the image of the entire angle of view captured. That is, the imaging device 1 captures an event or the like, outputs the captured image itself as a shot VD1, and outputs a crop image obtained by cutting out a predetermined region from the captured image as shots VD2, VD3, VD4.
  • the subscripts "(CS)” and “(CR)” are also attached in FIGS. 2, 3 and 4.
  • the mobile terminal 2 of FIG. 1 sequentially selects shots VD1, VD2, VD3, and VD4 supplied from the imaging device 1 by switching processing to generate moving image content CT, and performs transmission output, display output, recording, uploading, and the like. Can be done. It is assumed that only the shot VD1 is transmitted from the image pickup apparatus 1, and that the shot VD2, VD3, and VD4 are generated from the shot VD1 in the mobile terminal 2 and then the switching process is performed.
  • FIG. 2 shows an example in which a plurality of image pickup devices 1 are used and the switcher 3 has a function as an image processing device of the present technology.
  • the switcher 3 is a device that performs switching for selecting an output image (main image) for a plurality of input images. For example, normally, the operator manually performs the switching operation, but it is assumed that the automatic switching is performed by providing the function of the present embodiment.
  • shots VD1, VD2, and VD3 are transmitted from the three image pickup devices 1 to the switcher 3, respectively.
  • Each imaging device 1 outputs an image itself that captures an event or the like as one shot.
  • Each imaging device 1 transmits a moving image as a shot VD to the switcher 3 by, for example, wired communication or wireless communication.
  • the switcher 3 can sequentially switch shots VD1, VD2, VD3, and VD4 by switching processing to generate moving image content CT, and perform transmission output, display output, recording, uploading, and the like.
  • FIG. 3 is an example in which a plurality of imaging devices are used and the computer device 5 has a function as an image processing device of the present technology.
  • the computer device 5 is, for example, a personal computer or the like. However, it may be the above-mentioned mobile terminal 2.
  • shots VD1, VD2, and VD3 as crop images are transmitted from one of the three imaging devices 1, respectively.
  • shots VD4 and VD5, which are images themselves of events and the like, are transmitted from the remaining two image pickup devices 1, respectively.
  • the communication between the imaging device 1 and the computer device 5 is performed by, for example, wired communication or wireless communication (for example, short-range wireless communication).
  • the computer device 5 can sequentially switch shots VD1, VD2, VD3, VD4, and VD5 by switching processing to generate moving image content CT, and can perform transmission output, display output, recording, uploading, and the like.
  • FIG. 4 shows an example in which the cloud switcher 4 that communicates with the image pickup device 1 via the network 6 has a function as an image processing device of the present technology.
  • the network 6 includes, for example, the Internet, LAN (Local Area Network), VPN (Virtual Private Network), intranet, extranet, satellite communication network, CATV (Community Antenna TeleVision) communication network, telephone line network, mobile communication. Various forms such as nets are assumed.
  • the image pickup apparatus 1 transmits shots VD1, VD2, and VD3 as crop images to the cloud switcher 4 via the network 6, respectively.
  • the cloud switcher 4 sequentially switches shots VD1, VD2, and VD3 by switching processing to generate moving image content CT, and transmits and outputs the moving image content CT via the network 6.
  • FIG. 5 shows an example in which the image pickup apparatus 1 has a function as an image processing apparatus of the present technology.
  • the image pickup apparatus 1 generates a plurality of shot VDs (for example, VD1, VD2, VD3) by performing imaging and internal cropping processing. Then, automatic switching processing is performed on the plurality of shots VD1, VD2, and VD3 to generate and output a moving image content CT.
  • VDs for example, VD1, VD2, VD3
  • the image pickup device 1 includes a lens system 11, an image sensor unit 12, a camera signal processing unit 13, a recording control unit 14, a display unit 15, an output unit 16, an operation unit 17, a camera control unit 18, and a memory unit. 19. It has a driver unit 22.
  • the lens system 11 includes a lens such as a cover lens, a zoom lens, and a focus lens, and an aperture mechanism. Light from the subject (incident light) is guided by the lens system 11 and focused on the image sensor unit 12.
  • the image sensor unit 12 includes, for example, an image sensor 12a (imaging element) such as a CMOS (Complementary Metal Oxide Semiconductor) type or a CCD (Charge Coupled Device) type.
  • image sensor 12a imaging element
  • CMOS Complementary Metal Oxide Semiconductor
  • CCD Charge Coupled Device
  • CDS Correlated Double Sampling
  • AGC Automatic Gain Control
  • ADC Automatic Gain Control
  • the image pickup signal as digital data is output to the camera signal processing unit 13 and the camera control unit 18 in the subsequent stage.
  • the camera signal processing unit 13 is configured as an image processing processor by, for example, a DSP (Digital Signal Processor) or the like.
  • the camera signal processing unit 13 performs various signal processing on the digital signal (image image signal) from the image sensor unit 12. For example, as a camera process, the camera signal processing unit 13 performs preprocessing, simultaneous processing, YC generation processing, resolution conversion processing, codec processing, and the like.
  • the captured image signal from the image sensor unit 12 is clamped to clamp the black levels of R, G, and B to a predetermined level, and correction processing between the color channels of R, G, and B is performed.
  • a color separation processing is performed so that the image data for each pixel has all the color components of R, G, and B.
  • demosaic processing is performed as color separation processing.
  • YC generation process a luminance (Y) signal and a color (C) signal are generated (separated) from the image data of R, G, and B.
  • the resolution conversion process the resolution conversion process is executed on the image data subjected to various signal processing.
  • coding processing and file generation for recording and communication are performed on the image data subjected to the above various processing. For example, processing as stream image data to be output as a moving image, generation of an image file for recording a moving image, and the like are performed.
  • the camera signal processing unit 13 can also generate stream image data generated by cutting out the original captured image.
  • the audio processing system is not shown in FIG. 6, it actually has an audio recording system and an audio processing system, and the stream image data and the image file for recording include audio data together with image data as a moving image. May also be included.
  • the recording control unit 14 records and reproduces, for example, a recording medium using a non-volatile memory.
  • the recording control unit 14 performs a process of recording an image file such as moving image data or still image data, a thumbnail image, or the like on a recording medium, for example.
  • the actual form of the recording control unit 14 can be considered in various ways.
  • the recording control unit 14 may be configured as a flash memory built in the image pickup device 1 and a write / read circuit thereof, or a recording medium that can be attached to and detached from the image pickup device 1, such as a memory card (portable flash memory, etc.). ) May be in the form of a card recording / playback unit that performs recording / playback access. Further, it may be realized as an HDD (Hard Disk Drive) or the like as a form built in the image pickup apparatus 1.
  • HDD Hard Disk Drive
  • the display unit 15 is a display unit that displays various displays to the imager, and is, for example, a display such as a liquid crystal panel (LCD: Liquid Crystal Display) or an organic EL (Electro-Luminescence) display arranged in the housing of the image pickup device 1. It is used as a display panel or viewfinder depending on the device.
  • the display unit 15 causes various displays to be executed on the display screen based on the instruction of the camera control unit 18. For example, the display unit 15 displays a reproduced image of image data read from the recording medium by the recording control unit 14.
  • the display unit 15 is supplied with image data of the captured image whose resolution has been converted by the camera signal processing unit 13 for display, and the display unit 15 is based on the image data of the captured image in response to an instruction from the camera control unit 18. May be displayed. As a result, a so-called through image (subject monitoring image), which is an captured image during composition confirmation, is displayed. Further, the display unit 15 causes various operation menus, icons, messages, etc., that is, display as a GUI (Graphical User Interface) to be executed on the screen based on the instruction of the camera control unit 18.
  • GUI Graphic User Interface
  • the output unit 16 performs data communication, network communication, etc. with an external device by wire or wirelessly. For example, transmission and output of captured image data (for example, a stream image signal as a moving image) processed by the camera signal processing unit 13 is performed to an external information processing device, display device, recording device, playback device, or the like.
  • the output unit 16 includes the mobile terminal 2, the switcher 3, the computer device 5, the cloud switcher 4, and the like illustrated in FIGS. 1, 2, 3, and 4 as examples of realizing the image processing device. A process of transmitting a shot VD as a moving image currently being captured is performed to the device.
  • the operation unit 17 collectively shows input devices for the user to perform various operation inputs. Specifically, the operation unit 17 shows various controls (keys, dials, touch panels, touch pads, etc.) provided in the housing of the image pickup apparatus 1. The operation unit 17 detects the user's operation, and the signal corresponding to the input operation is sent to the camera control unit 18.
  • the camera control unit 18 is composed of a microcomputer (arithmetic processing device) provided with a CPU (Central Processing Unit).
  • the memory unit 19 stores information and the like used for processing by the camera control unit 18.
  • the illustrated memory unit 19 comprehensively shows, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a flash memory, and the like.
  • the memory unit 19 may be a memory area built in the microcomputer chip as the camera control unit 18, or may be configured by a separate memory chip.
  • the camera control unit 18 controls the entire image pickup apparatus 1 by executing a program stored in the ROM of the memory unit 19, the flash memory, or the like.
  • the camera control unit 18 controls the shutter speed of the image sensor unit 12, gives instructions for various signal processes in the camera signal processing unit 13, captures and records operations according to user operations, reproduces recorded image files, and lenses. It controls the operation of each necessary part regarding the operation of the lens system 11 such as zoom, focus, and aperture adjustment in the lens barrel, and the operation of the user interface.
  • the RAM in the memory unit 19 is used for temporarily storing data, programs, and the like as a work area for various data processing of the CPU of the camera control unit 18.
  • the ROM and flash memory (non-volatile memory) in the memory unit 19 include an OS (Operating System) for the CPU to control each unit, content files such as image files, application programs for various operations, and firmware. It is used for memory of etc.
  • the driver unit 22 is provided with, for example, a motor driver for the zoom lens drive motor, a motor driver for the focus lens drive motor, a motor driver for the diaphragm mechanism motor, and the like. These motor drivers apply a drive current to the corresponding driver in response to an instruction from the camera control unit 18, to move the focus lens and zoom lens, open and close the diaphragm blades of the diaphragm mechanism, and the like.
  • FIG. 7 shows the configuration of the information processing device 70 that functions as the image processing device of the present embodiment.
  • the mobile terminal 2 and the computer device 5 are configured as the information processing device 70.
  • the switcher 3, the cloud switcher 4, and the like can also function as the image processing device of the present embodiment by having the same configuration as the information processing device 70.
  • the CPU 71 of the information processing apparatus 70 executes various processes according to a program stored in the ROM 72 or a program loaded from the storage unit 79 into the RAM 73.
  • the RAM 73 also appropriately stores data and the like necessary for the CPU 71 to execute various processes.
  • the CPU 71, ROM 72, and RAM 73 are connected to each other via a bus 74.
  • An input / output interface 75 is also connected to the bus 74.
  • An input unit 76 including an operator and an operation device is connected to the input / output interface 75.
  • various controls and operation devices such as a keyboard, mouse, keys, dial, touch panel, touch pad, and remote controller are assumed.
  • the user's operation is detected by the input unit 76, and the signal corresponding to the input operation is interpreted by the CPU 71.
  • a display unit 77 made of an LCD or an organic EL panel and an audio output unit 78 made of a speaker or the like are connected to the input / output interface 75 as one or a separate body.
  • the display unit 77 is a display unit that performs various displays, and is composed of, for example, a display device provided in the housing of the information processing device 70, a separate display device connected to the information processing device 70, or the like.
  • the display unit 77 executes the display of various images for image processing, moving images to be processed, and the like on the display screen based on the instruction of the CPU 71. Further, the display unit 77 displays various operation menus, icons, messages, etc., that is, as a GUI (Graphical User Interface) based on the instruction of the CPU 71.
  • GUI Graphic User Interface
  • a storage unit 79 composed of a hard disk, a solid-state memory, or the like, or a communication unit 80 composed of a modem or the like may be connected to the input / output interface 75.
  • the communication unit 80 performs communication processing via a transmission line such as the Internet, and performs communication with various devices by wired / wireless communication, bus communication, or the like.
  • a drive 82 is also connected to the input / output interface 75, if necessary, and a removable recording medium 81 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately mounted.
  • the drive 82 can read data files such as image files and various computer programs from the removable recording medium 81.
  • the read data file is stored in the storage unit 79, and the image and sound included in the data file are output by the display unit 77 and the sound output unit 78. Further, the computer program or the like read from the removable recording medium 81 is installed in the storage unit 79 as needed.
  • the software for processing as the image processing device of the present disclosure can be installed via network communication by the communication unit 80 or a removable recording medium 81.
  • the software may be stored in the ROM 72, the storage unit 79, or the like in advance.
  • the image processing device of the present embodiment is realized by, for example, the CPU 71 of the information processing device 70 being provided with the functional configuration of FIG. 8 by software (application program).
  • the information processing device 70 functions as the image processing device of the present embodiment by including at least the main image selection unit 31 and the period setting unit 32. Further, the information processing device 70 (or CPU 71) may further include a switching control unit 33. Further, the information processing device 70 (or CPU 71) may include all or a part of the subject recognition unit 34, the shot analysis unit 35, the crop processing unit 36, and the monitor display control unit 37.
  • the mobile terminal 2 of FIG. 1 and the computer device 5 of FIG. 3 have the configuration of the information processing device 70 of FIG. 7, and the CPU 71 has the functional configuration of FIG. 8 to function as the image processing device of the present embodiment. ..
  • the switcher 3 of FIG. 2 and the cloud switcher 4 of FIG. 4 have a configuration corresponding to FIG. 7 (or at least a configuration corresponding to the CPU 71), and the CPU 71 is provided with the functional configuration of FIG. It functions as an image processing device in the form of.
  • the image pickup apparatus 1 functions as an image processing apparatus as shown in FIG. 5, for example, the camera signal processing unit 13 or the camera control unit 18 of FIG. 6 is provided with the functional configuration of FIG. 8 to provide the image processing of the present embodiment. Functions as a device.
  • the image processing device of the present embodiment realized in this way is a device that automatically switches and outputs a plurality of shot VDs obtained by, for example, one or a plurality of image pickup devices 1.
  • a plurality of shot VDs obtained by, for example, one or a plurality of image pickup devices 1.
  • one of a plurality of shot VDs is sequentially selected as the main image, and the shot VDs are switched and output according to the selection.
  • the video stream by the plurality of shot VDs that are sequentially switched constitutes, for example, the moving image content CT as a live video.
  • the image processing device of the present embodiment "generates a switching timing" to keep the purpose and production purpose of the content, or the viewer from getting bored, and “switching the output image (main image)” suitable for the content. By performing "selection of)", it is possible to produce higher quality video content.
  • the main image selection unit 31 shown in FIG. 8 is a function of selecting one image as the main image from the plurality of shot VDs. That is, a process of selecting an appropriate shot is performed as the next shot VD to be used in the moving image content.
  • the period setting unit 32 sets the duration length for continuing the shot VD selected by the main image selection unit 31 as the main image according to the image classification to which the selected shot VD among the plurality of image classifications corresponds. It is a function to do.
  • the duration length means that one shot VD selected by the main image selection unit 31 is switched to the main image, and then the main image is changed to another shot VD selected by the main image selection unit 31. It is the length of the period (time length) until it is switched. That is, the period setting unit 32 sets the duration for each shot VD selected for the main image.
  • the switching control unit 33 is a function of switching the main image according to the duration period set by the period setting unit 32. That is, the shot VD as the main image is continued as the main image for the time indicated by the duration set for the shot VD, and then the switching operation for switching to the next shot VD is controlled.
  • the switching control unit 33 also determines the switching timing of the main image. For example, the switching control unit 33 determines the switching timing when the current main image reaches the duration length. Further, the switching control unit 33 monitors the image classification PD of each shot VD, and may determine the switching timing according to, for example, a change in the image classification of the shot VD which is currently the main image. Further, the switching control unit 33 may determine the switching timing according to the user operation.
  • the subject recognition unit 34 is a function of performing processing such as image analysis on the image of the shot VD and recognizing the subject in the shot VD. For example, a process of detecting and tracking a subject may be performed by face detection, person detection, posture estimation, or the like. In addition, face identification (identification of an individual) may be performed to recognize who the subject is (whether or not it is an important subject such as a protagonist). In addition, a process of detecting a speaker from the movement of the mouth detected by the face part detection may be performed. The processing of the subject recognition unit 34 does not necessarily have to be performed in the image processing device. In addition, the subject recognition unit 34 may perform subject recognition processing for determining the area to be cropped.
  • the shot analysis unit 35 is a function of extracting shot information from the recognition result of the subject recognition unit 34 and determining the image classification of the shot VD.
  • the shot information is supposed to be information about who is in the picture, composition (arrangement), camera work, and the like.
  • the subject information about who is in the image is, for example, a subject that is large in the image.
  • the composition (arrangement) information is information for distinguishing bird's-eye shots, pulls (full shots, knee shots), leaning shots (waist shots, bust shots, up shots), and the shot VD is the so-called Hinomaru composition, divided into three parts. Information such as the rule of thirds, which corresponds to the type of composition or subject arrangement.
  • the composition information includes the size of the subject in the shot VD image.
  • the camera work information is information indicating the camera work itself such as fixing, following, panning, zooming, and dolly.
  • the shot analysis unit 35 classifies all shot VDs into a main subject shot (leading character shot / speaker shot), a supporting character shot, an overall shot (a large number of shots or a front shot), and the like. It is conceivable that the determination of image classification based on such shot information is performed based on machine learning. Further, the entire shot may be determined based on conditions such as the frontmost image, the most pulled image, and the image with the largest number of subjects, or may be specified based on a user's specification. For example, when an image pickup apparatus 1 that always takes an image by pulling from the front of the subject is arranged, the shot VD by the image pickup apparatus 1 may be set by the user as always being an entire shot. The processing of the subject recognition unit 34 does not necessarily have to be performed in the image processing device.
  • FIG. 9 shows an example of image classification of shot VD.
  • FIG. 9 illustrates the image contents at a certain point in time as shots VD1, VD2, and VD3.
  • the shots VD1, VD2, and VD3 are assumed to be shot VDs imaged by, for example, three imaging devices 1.
  • the shot VD1 is a shot in which the whole is taken by "pulling" from the front of the live stage, and corresponds to the "whole shot”.
  • the shot VD2 is a shot in which the pianist is taken “close” from the image pickup device 1 located behind the stage from the pianist.
  • the shot VD including this pianist is determined to be a "leading shot” or a "main subject shot” based on, for example, face recognition and personal recognition. For example, by learning the face of the protagonist in advance, the shot VD that captures a specific individual can be determined as the protagonist shot.
  • the shot VD3 is a shot taken by the guitarist from the image pickup device 1 on the side of the stage. Since this is a shot of a subject that is not the main character, it will be judged as a "supporting character shot”.
  • the crop processing unit 36 performs a process of cutting out a part of a region from one captured image to generate one shot VD. For example, it is a process of cutting out each subject person from the whole image showing four people and generating a shot VD as four crop images.
  • the processing of the crop processing unit 36 does not necessarily have to be performed in the image processing apparatus.
  • FIG. 10 is an example of an image assuming that one imaging device 1 captures an interview scene and broadcasts the image.
  • the shot VD1 in this case is an image in which the image pickup apparatus 1 captures the entire image from the front of the interview scene.
  • the four regions indicated by the crop frame CRW are cropped to be shots VD2, VD3, VD4, and VD5, respectively.
  • the crop processing unit 36 is a function of performing a process of cutting out a part of one image in this way to generate a crop image.
  • the image classification by the shot analysis unit 35 in the case of FIG. 10 will also be described.
  • the shot VD1 in FIG. 10 is a shot taken by pulling the whole from the front of the interview scene, and corresponds to the “whole shot”.
  • Shot VD2 is an image of one of the interviewees, but at this point, the person in this image is the speaker.
  • the shot VD2 is determined to be the current "speaker shot” or "main subject shot”.
  • the shot VD determined to be a speaker shot will be changed each time the speaker changes. Since the shot VD3 is a shot of a person other than the speaker, it is determined to be a "supporting character shot” at this point. Later, when this person speaks, this shot VD3 is determined to be a "speaker shot” or a "main subject shot”.
  • the monitor display control unit 37 of FIG. 8 is a function of, for example, a display unit 77 or the like for controlling the display of a monitor screen for switching operation.
  • FIG. 11 shows an example of the monitor screen.
  • the monitor screen for example, the screen is divided into a plurality of areas and necessary images are displayed.
  • the shot VD currently output as the main image MP is displayed in the upper right corner of the screen.
  • a plurality of shots VD1, VD2, VD3 ... Input as switching targets are displayed in a relatively small area.
  • the shot VD scheduled to be output as the next main image MP may be displayed on the upper left of the screen.
  • the user operator
  • the user can check the status of the switching operation on this monitor screen.
  • manual switching may be temporarily enabled during automatic switching.
  • the screen example of FIG. 11 is merely an example, and the configuration and display contents of the monitor screen are not limited to this.
  • n shots VD (VD1, VD2 ... VDn) are input to the image processing device.
  • the case where n shot VDs are input to the image processing device means that a plurality of shot VDs are input from one or a plurality of image pickup devices 1 as shown in FIGS. 1, 2, 3, and 4. Is.
  • Each shot VD is processed for subject recognition in the shot by the subject recognition unit 34. Then, based on the subject recognition result, the shot analysis unit 35 determines the image classification of each shot VD.
  • the image classification PD (PD1, PD2 ... PDn) of each shot VD is supplied to the main image selection unit 31 (when the term "image classification PD" collectively refers to each image classification of a plurality of shot VDs. Use).
  • the main image selection unit 31 selects the shot VD to be the next main image MP based on the image classifications PD1, PD2 ... PDn of each shot VD. A specific processing example of shot selection will be described later.
  • the period setting unit 32 sets the duration of the shot VD selected by the main image selection unit 31 as the next main image MP based on the classification information PD.
  • N shot VDs (VD1, VD2 ... VDn) are supplied to the switching unit 40 and switched. That is, one of shots VD1, VD2 ... VDn is selected by the switching unit 40 and output as the current main image MP.
  • the switching control unit 33 determines the switching timing by the switching determination process, and controls the switching operation of the switching unit 40 at the switching timing. That is, the switching control unit 33 controls the switching unit 40 so that the shot VD selected by the main image selection unit 31 is output as the main image MP for the duration set by the period setting unit 32. Further, the switching control unit 33 also causes the main image selection unit 31 to perform processing according to the switching timing for such switching control. For example, it is monitored whether or not the duration of the current main image MP reaches the duration length Tx set by the period setting unit, and the processing of the main image selection unit 31 and the period setting unit 32 is performed accordingly. To do.
  • the switching control unit 33 can execute not only switching control based on the processing of the main image selection unit 31 and the period setting unit 32 described above, but also interrupt switching control by, for example, a user operation.
  • the switching control unit 33 can control the switching unit 40 so that the shot VD instructed by the user is immediately output as the main image MP in response to the input of the user's manual operation information SS.
  • the switching control unit 33 can control the switching unit 40 so as to immediately output the shot VD corresponding to the designated image classification as the main image MP according to the designation of the image classification PD of the user.
  • the switching control unit 33 monitors the image classification PD determined by the shot analysis unit 35 for each current shot VD, for example, a change in the image classification of the shot VD which is the current main image MP, and other The switching timing may be determined according to the image classification of the shot VD.
  • FIG. 13 shows an example in which the function of the crop processing unit 36 is added.
  • the image processing device when switching is performed by the image pickup device 1 as shown in FIG. 5, when crop processing is performed internally, or when a shot supplied from the image pickup device 1 is performed as shown in FIGS. 1, 2, 2, 3 and 4.
  • the image processing device further crops to increase the number of shots.
  • the subject recognition unit 34 performs subject recognition processing on the shot VD1.
  • the subject recognition process in this case also includes a process of determining an area to be cropped. For example, it is assumed that the face area of the subject person, the whole body area, the bust-up area, and the like are determined.
  • the crop processing unit 36 uses the recognition result of the subject recognition unit 34 to cut out an appropriate region from each frame.
  • the cropped images are, for example, shots VD2 ... VDn, respectively.
  • the image classification of the shot VD1 which is the whole image of the crop source and the shot VD2 ... VDn which is the crop image are determined by the shot analysis unit 35, respectively.
  • the image classification PDs (PD1, PD2 ... PDn) of each shot VD are supplied to the main image selection unit 31.
  • the main image selection unit 31 selects the shot VD to be the main image MP next based on the image classification PD1, PD2 ... PDn of each shot VD.
  • the period setting unit 32 sets the duration of the shot VD selected by the main image selection unit 31 as the next main image MP based on the classification information PD.
  • Each of n shot VDs (VD1, VD2 ... VDn) is supplied to the switching unit 40 and switched. Similar to the case of FIG. 12, the switching control unit 33 performs switching control based on the processing of the main image selection unit 31 and the period setting unit 32, and performs switching control according to the user operation.
  • FIG. 12 a combined processing flow of FIGS. 12 and 13 is assumed, such that some shot VDs (for example, shots VD1 and VD2) are cropped shot VDs as described in FIG. To.
  • shots VD1 and VD2 are cropped shot VDs as described in FIG. To.
  • the first comparative example and the second comparative example of FIG. 14 show an example of switching operation when the present embodiment is not used.
  • the horizontal direction of the figure indicates the time axis, and shows a state in which shots VD1, VD2, VD3, and VD4 are sequentially switched and output as the main image MP on the time axis as one moving image content.
  • shot VD1 is always a whole shot
  • shot VD2 is always a leading shot
  • shots VD3 and VD4 are always supporting shots.
  • the image classification of each shot VD may be fixed. Therefore, such a situation is assumed here.
  • the image classification of each shot VD is not always fixed.
  • the first comparative example is an example in which each shot VD is regularly and sequentially selected.
  • the duration length at which one shot VD is output as the main image MP is fixed as the time Tf.
  • As a simple process of automatic switching it is conceivable to output each shot VD in order by time Tf in this way, and by such a process, it is possible to create video content that effectively utilizes each shot VD. ..
  • the moving image content can be enriched as content rather than simply continuously capturing one entire screen.
  • the images are always switched regularly in a specific order, which makes the video feel boring to the viewer.
  • the second comparative example is an example in which the selection order of each shot VD is randomized.
  • the selection order of each shot VD is randomized.
  • the duration length at which each shot VD is output is set to a fixed time Tf, the content is eventually bored by the viewer. This is because when the shot switching timing is periodic, the viewer tends to gradually lose the tendency to feel the tension and dynamics of the moving image.
  • randomly selecting shot VDs it may be difficult to reflect the purpose of moving image content production. For example, if you want to create video content featuring a certain musician as the main character, but if you select randomly, the video will show only the supporting characters, or the main characters and supporting characters of each member will be displayed almost evenly. Sometimes.
  • FIG. 15 shows a first example and a second example of the moving image content CT realized by the switching operation of the embodiment.
  • the first example is an example in which the duration length is different depending on the image classification. That is, the duration is set to time Ta for the whole shot, time Tb for the leading shot, and time Tc for the supporting shot. In this example, Tb>Tc> Ta. It may be Tb>Ta> Tc. That is, the duration of the leading shot is maximized. For supporting shots and overall shots, make sure that either one has the shortest duration. As an example, the duration is 8 seconds for the leading shot, 6 seconds for the supporting shot, 4 seconds for the whole shot, and so on.
  • the shot VDs selected by the main image selection unit 31 are sequentially output as the main image MP by the duration length set according to the image classification PD of the shot VDs. That is, the shot VD1 is first continued for the time Ta, then the shot VD2 is continued for the time Tb, then the shot VD4 is continued for the time Tc, and so on. Further, the selection by the main image selection unit 31 is neither in order nor completely random. The shot VD to be output as the main image MP is selected next, reflecting a predetermined selection rule described later.
  • the selection rules make it easier for the protagonist shot to be selected as the main image MP, and by lengthening the duration, the protagonist subject is fully featured, and the viewer is given a good sense of tension when switching scenes. Video is realized.
  • the second example is an example in which more dynamic moving image content is realized by further changing the switching timing (in other words, the duration of the main image MP). That is, in this second example, it is the first example that Tb>Tc> Ta or Tb>Ta> Tc for the time Ta of the whole shot, the time Tb of the leading role shot, and the time Tc of the supporting role shot as the duration length.
  • Tb>Tc> Ta or Tb>Ta> Tc for the time Ta of the whole shot
  • Tb of the leading role shot the time Tc of the supporting role shot
  • Tc of the supporting role shot as
  • the duration length is 3.5 to 4 seconds for the whole shot, 4 to 6 seconds for the supporting shot, 6 to 8 seconds for the leading shot, and so on.
  • the duration length of the protagonist shot is such that the times Tb1, Tb2, and Tb3 are randomly set between 6 seconds and 8 seconds. The same applies to supporting shots and overall shots. As a result, the periodicity of the shot VD switching timing becomes thinner, and the moving image tends to have a tense feeling.
  • Tb>Tc> Ta or Tb>Ta> Tc does not necessarily have to be maintained.
  • the overall shot may be between 3 and 5 seconds
  • the supporting shot may be between 4 and 6 seconds
  • the leading shot may be between 5 and 8 seconds, and so on.
  • Processing example of the first embodiment> For example, a processing example of the first embodiment of the image processing apparatus that realizes the switching operation as described in the first example and the second example will be described with reference to FIGS. 16, 17, and 18. Each process will be described, for example, as being performed by the CPU 71 of FIG. 7 having the function of FIG. That is, as shown in FIGS. 1, 2, 2, 3, and 4, the image processing device is an example realized in a mobile terminal 2, a computer device 5, a switcher 3, a cloud switcher 4, and the like.
  • the image processing device of the present embodiment is built in the image pickup device 1 as shown in FIG. 5, it is considered that the following processing is performed by the camera signal combination processing unit 13 or the camera control unit 18 of FIG. good.
  • FIG. 16 shows the processing performed at each frame timing (or intermittent frame timing) of the image supplied as the shot VD.
  • the CPU 71 increments the counters TM1 and TM2 in step S101.
  • the counter TM1 is a counter for monitoring the duration length of the current main image MP.
  • the counter TM2 is a counter for monitoring the period during which the entire shot is not output.
  • step S102 the CPU 71 performs subject recognition processing by the function of the subject recognition unit 34 described above for each of the input shot VDs.
  • step S103 the CPU 71 performs shot analysis by the function of the shot analysis unit 35 described above. That is, the image classification is determined for each shot VD.
  • step S104 the CPU 71 performs a switching determination process by the function of the switching control unit 33 described above. This is a process for determining whether or not it is currently the timing for switching the main image MP.
  • the switching determination process is shown in FIG.
  • the CPU 71 compares the duration length Tx set for the shot VD set as the current main image MP in step S201 with the time measured by the counter TM1. If TM1 ⁇ Tx, the CPU 71 determines that it is not the switching timing at present, and turns off the switching flag Fc in step S203. If TM1 ⁇ Tx, the CPU 71 currently determines that the switching timing has been reached, and turns on the switching flag Fc in step S202.
  • step S104 of FIG. 16 When the process of step S104 of FIG. 16 is performed as shown in FIG. 17, the CPU 71 branches the process with reference to the switching flag Fc in step S105. If the switching flag Fc is off, it is determined in step S107 that the shot VD of the current main image MP is maintained as the main image MP as it is. In reality, the switching control unit 33 does not control the switching of the switching unit 40.
  • step S105 the CPU 71 proceeds to step S106 to perform shot selection processing. Specifically, the main image selection unit 31 selects the shot VD to be output as the next main image MP, the period setting unit 32 sets the duration length Tx of the shot VD, and the switching control unit 33 switches the switching unit 40. Take control.
  • step S301 the CPU 71 compares the counter TM2 with the second period length T2.
  • the counter TM2 is reset when the main image MP is switched from the whole shot to the shot VD of another image classification, so that the counter TM2 counts the time of the interval of the whole shot.
  • the CPU 71 proceeds from step S301 to S305 and selects the whole shot as the next main image MP. This is a determination to the effect that the entire shot is about to be inserted when the time during which the entire shot is not output exceeds, for example, 30 seconds. If there are multiple overall shots, it is conceivable to make a random selection among them.
  • step S302 the CPU 71 proceeds from step S301 to S302 and selects the next main image MP according to a predetermined selection rule.
  • an exclusion shot that is not suitable for the next main image MP is determined. For example, it is assumed that there is a selection rule that "a shot that is the same as or equivalent to the shot of the current main image" is not selected as the next main image MP. In this case, the "same shot” refers to the shot VD currently regarded as the main image MP.
  • the “equivalent shot” refers to, for example, a shot of the same subject as the shot VD currently regarded as the main image MP, a shot of the same angle and angle of view, a shot of the same size and composition, and the like. Such shot VDs are excluded from the selection candidates because they do not change in the moving image even if they are switched.
  • the shot VD that is not determined to be an exclusion shot in step S302 becomes a candidate shot that is next selected as the main image MP.
  • step S303 the CPU 71 confirms whether or not there is a shot VD other than the entire shot among the candidate shot VDs. If only the whole shot remains as a candidate, the CPU 71 selects the whole shot as the next main image MP in step S305.
  • the CPU 71 When there is a shot VD other than the whole shot (when all the candidates are shots other than the whole shot, or when some of the candidates are all shots and there is also a shot VD other than the whole shot), the CPU 71 performs step S304. Proceed to, and the shot VD to be the next main image MP is selected from the candidates in the lottery process. In this case, any of the shot VD that is a candidate for the whole shot, the main subject shot (leading role shot, speaker shot), or the supporting role shot is selected by a random lottery.
  • the CPU 71 sets the duration length Tx as the main image MP in step S306 according to the image classification of the selected shot VD. For example, as in the first example of FIG. 15, the duration length Tx according to the image classification is used. Alternatively, as in the second example, the duration length Tx of this time is set within the time range according to the image classification.
  • step S307 the CPU 71 resets the counter TM1. This is for monitoring the duration length Tx of the next main image MP (see step S201 in FIG. 17).
  • step S308 the CPU 71 confirms whether or not it is the end timing of the entire shot. That is, it is confirmed whether or not the current shot is a shot other than the whole shot, and the shot VD selected in step S304 this time, that is, the next main image MP is an image classification other than the whole shot. Then, the process is branched according to the result. When this time is the timing when the whole shot is switched to the shot VD of another image classification, the CPU 71 proceeds to step S309 and resets the counter TM2. This is for monitoring the time of the whole shot interval (see step S301).
  • step S310 the CPU 71 performs switching control of the switching unit 40 by the function of the switching control unit 33. That is, switching control is performed so that the shot VD selected in step S304 or S305 is set as the main image MP.
  • switching control unit 33 performs switching control of the switching unit 40 immediately or at the timing of the next frame as an interrupt process corresponding to the user operation. It is good to set it to. This point is the same in the following second embodiment.
  • processing example of the second embodiment is an example in which a finer selection rule is used according to the main character shot, the supporting character shot, the whole shot, and the like. Further, the processing example of the second embodiment is also a processing example in which switching is performed not only at the timing based on the set duration length Tx but also at another timing.
  • step S104 of FIG. 16 is shown in FIG. 19
  • step S106 is shown in FIG. 20 for explanation.
  • FIGS. 19 and 20 the same steps are assigned to the same processes as those in FIGS. 18 and 19.
  • step S210 the CPU 71 performs a process of comparing the counter TM1 with the first period length T1.
  • processing is performed to the effect that the image MP is not switched for at least 3 seconds (continues as the main image MP). That is, if TM1 ⁇ T1 in step S210, the CPU 71 assumes that the current main image MP is not continued for the period length T1 (for example, it has not been 3 seconds since the main image MP), and the state of the main image MP is changed as it is.
  • the switching flag Fc is turned off in step S203. As a result, switching is not performed (see step S107 in FIG. 16).
  • step S210 switching of the main image MP is allowed. Therefore, the CPU 71 proceeds to step S211.
  • step S211 the CPU 71 confirms whether or not a certain shot VD that is not the speaker shot is currently set as the main image MP and there is another speaker shot. If the current main image MP is not a speaker shot and there is another speaker shot, the CPU 71 proceeds to step S202 and turns on the switching flag Fc.
  • the CPU 71 proceeds from steps S211 to S212. Then, the CPU 71 confirms whether or not the image classification PD of the shot VD, which is currently regarded as the main image MP, has changed.
  • the subject of the shot VD judged to be a speaker shot stops talking, or when the main character goes from the stage to the backstage in the shot VD that captures the main character, it is judged as a "main subject shot”.
  • the shot VD that has been made may no longer correspond to the main subject shot.
  • the image classification PD changes from the supporting role shot to the leading role shot.
  • the CPU 71 proceeds from step S212 to S213, and measures the duration length Tx set for the shot VD as the current main image MP and the counter TM1. Compare the time being done. If TM1 ⁇ Tx, the CPU 71 determines that it is not the switching timing at present, and turns off the switching flag Fc in step S203. If TM1 ⁇ Tx, the CPU 71 currently determines that the switching timing has been reached, and turns on the switching flag Fc in step S202.
  • the switching timing is set according to the circumstances such as the change in the shot content and the change in the speaker, in addition to the switching timing according to the duration length Tx.
  • the process of FIG. 16 proceeds to the shot selection in step S106.
  • the CPU 71 first compares the counter TM2 with the period length T2 in step S301 of FIG. That is, as in FIG. 18, this is a process for preventing the interval time of the entire shot from becoming too long. If TM2 ⁇ T2, the CPU 71 proceeds from steps S301 to S326 and selects the whole shot as the next main image MP, assuming that the period during which the whole shot is not output becomes longer (for example, more than 30 seconds).
  • step S321 the CPU 71 proceeds from step S301 to S321 and selects the next main image MP according to a predetermined selection rule.
  • step S321 an exclusion shot that is not suitable for the next main image MP is determined.
  • the following selection rule is used. -Do not select "a shot that is the same as or equivalent to the shot of the current main image" as the next main image MP.-If the current main image is a side role shot, select "a shot of the same subject as the shot of the current main image".
  • step S321 if there are shots corresponding to these in each current shot VD, the CPU 71 excludes them from the candidates for the next main image MP.
  • the shots that are not excluded are the candidate shots that are then selected as the main image MP.
  • the CPU 71 After selecting the excluded shot, the CPU 71 confirms in step S322 whether or not there is a shot VD other than the entire shot among the candidate shot VDs. If only the whole shot remains as a candidate, the CPU 71 selects the whole shot as the next main image MP in step S326.
  • step S323 it is determined whether or not the main subject shot (protagonist shot or speaker shot) exists among the candidates. If the main subject shot does not exist among the candidates, the CPU 71 proceeds to step S325 and selects a shot VD as the next main image MP from the candidates in the lottery process. In this case, either the whole shot or the supporting shot, which is a candidate shot VD, is selected by a random lottery.
  • step S324 selects a shot VD as the next main image MP from the candidates according to a weighted selection rule for each shot. For example, a shot is selected from the candidate shot VDs according to the following selection rule. -If there is a speaker shot, select the speaker shot. -When there are important subject shots and supporting character shots, the selection of important subjects and supporting characters is stochastically selected so as to be a certain ratio (for example, 5 to 1). -If there are shots of the same image classification, select them randomly. You may preferentially select the shot size and the number of subjects. -If there are no shots that can be selected, select the entire shot.
  • the weighted selection is performed so that the speaker shot has the highest priority and the protagonist shot has the second priority.
  • the CPU 71 sets the duration length Tx as the main image MP in step S306 according to the image classification of the selected shot VD. For example, as in the first example of FIG. 15, the duration length Tx according to the image classification is used. Alternatively, as in the second example, the duration length Tx of this time is set within the time range according to the image classification.
  • the CPU 71 resets the counter TM1 in step S307, confirms whether or not it is the end timing of the entire shot in step S308, and this time changes from the entire shot to the shot VD of another image classification.
  • the CPU 71 proceeds to step S309 and resets the counter TM2.
  • the CPU 71 performs switching control of the switching unit 40 by the function of the switching control unit 33. That is, switching control is performed so that the shot VD selected in steps S324, S325, or S326 is set as the main image MP.
  • FIG. 16 By performing the processing of FIG. 16 including the processing of FIGS. 19 and 20 at each frame timing, for example, switching as shown in FIG. 15 is realized.
  • the speaker changes due to, for example, an interview relay according to the determination in step S211 in FIG. 19 and steps S323 and S324 in FIG. 20, regardless of the duration length Tx.
  • the main image MP is quickly switched to the speaker shot. That is, the most important subject can be set as the main image MP at an appropriate timing. If the intention of the shot VD (subject, state of the subject) has changed (such as when the protagonist has fallen to the back of the stage), the image content will be unintended if it is left as it is, but the step in FIG.
  • the main image MP is quickly switched to another shot VD regardless of the duration length Tx.
  • step S210 the period length T1 (for example, 3 seconds) is at least. ), The current main image MP is continued. As a result, the image content does not look bad like switching in a hurry. This also contributes to the improvement of the content quality of the image content.
  • step S321 Although five selection rules (rules for shots excluded from candidates) in step S321 are listed, it is not necessary to use all of them. Further, a selection rule for excluded shots other than those five selection rules may be used. Further, in step S324, four selection rules for performing weighted selection are listed, but all of them may not be used. Moreover, you may use the selection rule for weighted selection other than those four selection rules.
  • the image processing apparatus of the embodiment includes a main image selection unit 31 that selects one shot VD as the main image MP among a plurality of shot (image) VDs (S301 to S306 in FIG. 18 and S301 in FIG. 20). From S326). Further, the image processing device sets the duration length Tx of continuing the shot VD (selected image) selected by the main image selection unit 31 as the main image MP to the image to which the shot VD selected from the plurality of image classifications corresponds. A period setting unit 32 for setting according to the classification is provided (S306).
  • the duration length Tx which is the main image MP
  • the duration length Tx can be variably set according to the image content, for example, the whole shot, the main subject shot such as the main character or the speaker, the supporting character shot, etc., as the video content to be broadcast or recorded.
  • the duration length Tx is determined according to the image classification, so that the occurrence of unnatural switching can be reduced.
  • the processing after the switching of the main image MP that is, the image content in which the selected shot VD is continuous is assumed to be output as, for example, a real-time broadcast image, but the present invention is not limited to this.
  • the moving image after switching may be recorded on a recording medium, displayed on a display device, or uploaded to a predetermined server via a network such as the Internet.
  • the selection information of the main image MP according to the time axis of the moving image is used as metadata, and recording, transfer, etc. are performed together with the image of each shot VD, and the same switching can be performed later using the metadata. May be good.
  • the metadata and each shot VD are transferred to the editing device, and as re-editing, a part or all of the metadata as the selection information of the main image MP is updated, and the moving image by different switching is used while using the first switching. You may want to generate content.
  • this technology can also be applied to the selection of a still image as the main image MP.
  • a plurality of still images may be displayed as a slide show, broadcast output, upload, or the like.
  • the duration of the main image MP that is, the time during which the still image is displayed, according to the image classification of the content of the still image, the viewer's interest is more than a simple slide show at regular intervals. There is a possibility that a slide show that complements the image can be realized.
  • the shot VD is selected and switched in step S106 when the switching flag Fc is turned on, which reflects the status of each shot VD at the time of switching. You can select a shot.
  • the switching flag Fc is not turned on, the next shot VD to be the main image MP is selected, and when the switching flag Fc is turned on, the next shot VD selected is selected. You may switch to. This reduces the processing load when switching shots.
  • the image classification of shots is not limited to the examples of "main subject shot (leading character shot, speaker shot)", “supporting character shot”, and "whole shot”.
  • the subclassification of the main subject shots may be more diverse, for example, a speaker shot, a first protagonist shot, a second protagonist shot, and the like.
  • image classifications such as a first supporting role shot and a second supporting role shot may be provided for each supporting role.
  • image classifications such as a commentary shot pointing to a commentary screen, a standard screen shot pointing to a fixed screen such as a title shot, a landscape shot pointing to a landscape without people, and an interrupt shot occurring in a special situation may be provided.
  • the duration length Tx is the other image selected as the next selected image by the main image selection unit 31 among the plurality of images after one image which is the selected image is switched to the main image MP. Is the length of time until it is switched to the main image MP.
  • the main character shot, the speaker shot, the supporting character shot, the whole shot, etc. are captured in the broadcast image or the like. It is distributed according to the target and broadcasting intention. This allows shot VD switching that is not unnatural or boring.
  • the duration length according to the image classification may be fixed or variable.
  • the main subject shot is 8 seconds
  • the supporting shot is 4 seconds
  • the whole shot is 6 seconds
  • the main subject shot is 8 seconds
  • the supporting shot is 6 seconds
  • the whole shot is 4 seconds, etc., depending on the image classification.
  • the speaker shot may be set to 8.5 seconds
  • the protagonist shot may be set to 7.5 seconds, and so on.
  • supporting shots are in the range of 2 to 4 seconds
  • overall shots are in the range of 4 to 6 seconds
  • main subject shots are in the range of 6 to 8 seconds, and so on. Good. By doing so, the timing of switching shot VDs is diversified, and automatic switching that does not bore the viewer can be promoted.
  • the image classification of the shot VD is determined based on the subject information of the shot VD.
  • image classifications such as whole shots, speaker shots, leading role shots, and supporting role shots may be preset for each shot VD, or may be classified by user operation, or may be determined based on subject information.
  • the subject is determined by image analysis, and the corresponding image classification is determined.
  • the image processing apparatus includes a switching control unit 33 that switches the main image MP according to the duration length Tx set by the period setting unit 32 (S310). .. Then, the switching control unit 33 detects the predetermined situation, and even if the duration of the current main image MP does not reach the duration length Tx set by the period setting unit 32, the duration length T1 is shorter than the duration length Tx. (S210), control is performed to switch the main image MP to another shot VD (S211, S212, S202, S310). In this way, depending on the situation, it is better to switch the shot VD output as the main image MP urgently by providing a case of switching to another shot VD even when the duration length Tx has not been reached. Can correspond to.
  • the main image MP is not switched until the period length T1 set as the minimum period length that is short to some extent is reached. This prevents a certain shot VD from being immediately switched to another shot VD after being set as the main image MP. Switching shot VDs in too short a time can give the viewer an unnatural feeling or appear to be an inconvenient image, which reduces the quality of the broadcast image or video content. I try not to do anything.
  • the duration length Tx when the image classification of the shot VD, which is the main image MP, is changed from the image classification when the shot VD is selected as the main image MP by the main image selection unit 31, the duration length Tx.
  • An example of controlling switching of the main image MP to another image is given on condition that the shorter period length T1 has elapsed (S212 and S202 in FIG. 19).
  • the image classification of the shot VD selected as the main image MP may change. For example, in a shot VD that captures the protagonist on the stage, the protagonist goes down to the back of the stage and the protagonist no longer exists. In such a case, if the current main image MP is continued as it is, an unintended image may continue in broadcasting or the like, or the viewer may feel that the image is unnatural.
  • the main image MP is switched to another shot VD even if the set duration length has not been reached. This ensures that a natural main image output and an appropriate main image output are performed.
  • the main image MP is not switched until the period length T1 is reached so that after a certain shot VD is set as the main image MP, it is not immediately switched to another shot VD. We try not to cause unnatural feeling or quality deterioration.
  • a period length T1 shorter than the duration length Tx has elapsed.
  • An example of controlling the switching of the main image MP to the shot VD whose image classification is the speaker shot is given on condition that the image is displayed (S211 and S202 in FIG. 19 and S324 in FIG. 20).
  • a speaker is suitable as a main image MP, but when a certain person (Mr. A) is regarded as a speaker and becomes a main image MP, another person (Mr. B) becomes a speaker. , It is unnatural if the image of Mr. A is left as the main image MP.
  • the image of Mr. B is switched to.
  • the main image MP is not switched until the period length T1 is reached.
  • a certain shot VD is set as the main image MP, it is prevented from being switched to another shot VD immediately, and an unnatural feeling or quality deterioration occurs due to the image switching in too short a time. I try not to.
  • the image classification is the whole shot.
  • the existing shot VD is selected as the new main image MP (S301, S305 in FIG. 18, S301, S326 in FIG. 20).
  • the whole shot can give the viewer a big picture of the event. That is, it is easy for the viewer to grasp the content and situation of the event by seeing the whole shot. For example, in an interview event as shown in FIG. 10, the situation of the interview can be easily conveyed by the whole shot, and in the music live event as shown in FIG. 9, the situation of the live music and the performance situation can be easily understood by the viewer by the whole shot. Therefore, the entire shot is set as the main image MP at a certain interval with the period length T2 as a guide. As a result, the image content can be easily transmitted to the viewer.
  • the counter TM2 for determining the period length T2 is reset starting from the time when the entire shot is switched to another shot in step S308, so that the counter TM2
  • the value of is the elapsed time from when the entire shot is no longer the main image MP.
  • the value of the counter TM2 may be the elapsed time from the time when the entire shot becomes the main image MP at the end. That is, in step S308, it may be determined whether or not the shot has been switched to the whole shot, and the counter TM2 may be reset in step S309.
  • the period obtained by subtracting the period as the main image MP of the entire shot (for example, the duration length Tx) from the value of the counter TM2 is the period during which the entire shot is not the main image MP.
  • the period length T2 may be set appropriately.
  • one image is selected from a plurality of images classified into an image classification including at least one of a main subject shot (main subject image), a supporting role shot (sub-subject image), and an entire shot (overall image). Select as MP.
  • an example of setting the duration length Tx according to the image classification of the main subject shot, the supporting character shot, and the whole shot is given.
  • the duration length Tx may be set according to the image classification of the speaker shot, the leading role shot, the supporting role shot, and the whole shot.
  • Typical shots in the case of an event or the like are classified into whole shots, main subject shots such as the leading role and the speaker, and supporting role shots other than the leading role and the speaker.
  • the duration length is set according to the image classification so that the main subject shot has the longest duration length Tx and the whole shot or the supporting character shot has the shortest duration length Tx. ..
  • the duration length should be main subject shot> supporting character shot> overall shot. Since the main subject shot is the image that the viewer wants to appeal most, the duration length Tx is lengthened. The whole shot (so-called “pull” image) is important to convey the image to be imaged, so it is desirable to select it frequently, but the length of one duration Tx can be shortened accordingly. Often desirable. By switching according to these settings, it becomes possible to output an image that the viewer does not get tired of, even though it is automatically controlled. Further, for example, the duration length Tx may be set in the order of main subject shot> whole shot> supporting character shot. For example, in the case of a moving image production intention to make the leading role stand out, it is suitable to shorten the supporting role shot.
  • a shot VD to be the main image MP is selected next by using a process according to a predetermined selection rule from a plurality of shot VDs other than the shot to be the main image MP.
  • a process according to a predetermined selection rule from a plurality of shot VDs other than the shot to be the main image MP.
  • the exclusion shot is determined according to the selection rule, and the shot VD to be the next main image MP is selected in steps S312 to S316 with the shots not excluded as candidates.
  • step S304 is randomly selected, but since it is a random lottery after the excluded shots are removed according to the selection rule, it is different from the random selection from all shot VDs. A selection that is suitable in terms of content and is not fixed will be made. Further, in the example of FIG. 20, by using the weighted selection rule of step S324, shot selection is performed more in line with the moving image production intention. Further, also in this step S324, by using a random lottery such as "when there are shots of the same image classification, they are randomly selected", the selection is suitable in terms of content and is not fixed. Will also be done.
  • One of the processes according to the selection rule of the embodiment is that when the shot VD which is the main image MP is not the main subject shot and there is a shot VD as another main subject shot, it is next.
  • This process was used as a candidate for the main image MP of. If the current main image MP is a supporting role shot or a whole shot and is not the main subject shot, the main subject shot can be selected as the main image MP without any discomfort to the viewer. It is appropriate to leave it as a candidate. Therefore, the shot VD that is suitable for the moving image configuration to be the main image MP next is selected. Specifically, other main subject shots when the current main image MP is a supporting shot or a whole shot are not excluded from the selection target in step S321 of FIG. 20.
  • One of the processes according to the selection rule of the embodiment is that when the shot VD which is the main image MP is the main subject shot and there is a shot VD as another main subject shot, it is next. This process was used as a candidate for the main image MP of. Even if the current shot VD is the main subject shot, if there is another main subject shot, it will be a natural selection for the viewer even if it is the main image MP, so leave it as a candidate for selection of the main image MP. Is appropriate. Specifically, in step S321 of FIG. 20, the shot is not excluded from the selection candidates.
  • the other main subject shots are other than "shots that are the same as or equivalent to the shots of the current main image", “shots of the same subject as the shots of the current main image”, and “speaker shots when there is a speaker shot”. This is because it does not correspond to "shot”.
  • the other main subject shot is easily selected as the next shot in step S324, so that the main subject shot can be selected relatively frequently. Especially in this case, it becomes an effective switching rule even when there are a plurality of protagonists or when the speaker changes.
  • One of the processes according to the selection rule of the embodiment is a process of excluding a shot VD having the same image classification as the shot VD currently regarded as the main image MP from the candidates of the next main image MP.
  • a shot equal to or equivalent to the shot of the current main image and "a shot of the same subject as the shot of the current main image when the current main image is a supporting character shot” are Exclude from selection.
  • One of the processes according to the selection rule of the embodiment is to select the shot VD including the same sub-subject (for example, supporting character) as the subject of the shot VD currently regarded as the main image MP from the candidates of the next main image MP. It is said that it is a process to exclude. Specifically, in step S321 of FIG. 20, as "a shot equal to or equivalent to the shot of the current main image” or "a shot of the same subject as the shot of the current main image when the current main image is a supporting character shot". The image in which the supporting character is shown is excluded from the candidates for the next main image MP.
  • a supporting role shot when the current main image MP is a whole shot, and another supporting role shot when the current main image MP is a supporting role shot should not be regarded as the next main image MP. To. This prevents the same supporting subject from continuing. This has the meaning of avoiding an image in which the viewer easily mistakes the supporting role as the leading role.
  • One of the processes according to the selection rule of the embodiment is that when the shot VD currently regarded as the main image MP is the entire shot and there is a main subject image as another image, the sub-subject image is set to the next main subject image. It is assumed that the process is to exclude from the image MP candidates. In other words, try not to display supporting characters as much as possible at the next timing after displaying the whole shot. Specifically, in step S321 of FIG. 20, "a supporting role shot when the current main image is a whole shot and there is another leading role shot” is excluded from the candidates for the next main image MP. This makes it less likely that you will switch to a supporting shot after the whole shot. In other words, it is possible to switch to a supporting role shot only when the main subject shot does not exist. Viewers tend to recognize the subject that appears next to the entire shot as the protagonist. Therefore, a supporting role shot is output next to the whole shot to prevent a situation in which the supporting role is mistaken for the leading role.
  • the whole shot is selected as the next main image MP. (S303 and S305 in FIG. 18, S322 and S326 in FIG. 20). For example, as a result of selecting the excluded shots in steps S302 and S321, depending on the selection rule, if all shot VDs are not candidates, or all shots VDs except all shots are selected. It is assumed that it is not a candidate. In such a case, the whole shot is selected as the next main image MP. This is because the whole shot is a shot that does not give the viewer any misunderstanding or confusion, and is a shot that you want to insert as much as possible.
  • a shot to be the next main image MP is selected by a weighted selection process from the shots to be the next main image MP.
  • step S324 when a plurality of shot VDs are candidates as the next main image MP, the next main image MP is processed based on a selection rule weighted according to the image classification of the candidate shot VDs. It was decided to select. For example, weighting is performed according to the speaker shot, the leading role shot, the supporting role shot, and the whole shot. This makes it easier to select, for example, a speaker shot or a protagonist shot. Furthermore, the priority is different between the protagonist shot and the speaker shot. If there is a speaker shot, the speaker shot is given priority.
  • weighting is not limited to the one according to the image classification.
  • the image content it is conceivable to perform weighting according to various factors such as the number of subjects, the subject size (up image or whole body image, etc.), image brightness, and color tendency. Further, the method of weighting is not constant, and may be changed for each time point or according to a user operation or the like.
  • the next main image MP is selected by a random lottery process for the candidate shots.
  • a random lottery process is performed in step S325.
  • random selection realizes automatic switching of various selection orders, and can output an image that does not make the viewer bored.
  • since there is no main subject shot even random selection is unlikely to be unsuitable for image production.
  • a variety of variations of the processing of the embodiment can be considered.
  • Various selection rules and image classifications can be considered, and the user may be able to turn on / off each of the judgmentable selection rules and the judgment image classifications.
  • a case where the screen is divided and a plurality of shot VDs are used as the main image MP may be added, and in that case, a plurality of shot VDs to be selected as the main image MP may be selected according to the selection rule of the embodiment.
  • a plurality of shot VDs to be selected as the main image MP may be selected according to the selection rule of the embodiment.
  • the MP is selected by the processing of FIGS. 18 and 20.
  • the program of the embodiment performs the processing of FIGS. 16, 17, 18 or 16, 19, 19 or 20, or the processing corresponding to these modifications, for example, a CPU, a DSP, or the like, or these. It is a program to be executed by the including device. That is, in the program of the embodiment, a process of selecting one shot VD to be the main image MP from a plurality of shot VDs and a plurality of duration lengths Tx for continuing the selected shot VD as the main image MP are performed.
  • This causes the information processing apparatus to execute a process of setting the selected shot VD according to the corresponding image classification in the image classification.
  • the above-mentioned image processing device can be realized in devices such as a mobile terminal 2, a switcher 3, a cloud switcher 4, a computer device 5, and an image pickup device 1.
  • Such a program can be recorded in advance in an HDD as a recording medium built in a device such as a computer device, a ROM in a microcomputer having a CPU, or the like.
  • a recording medium built in a device such as a computer device, a ROM in a microcomputer having a CPU, or the like.
  • flexible discs CD-ROMs (Compact Disc Read Only Memory), MO (Magnet optical) discs, DVDs (Digital Versatile Discs), Blu-ray Discs (Blu-ray Discs (registered trademarks)), magnetic disks, semiconductor memories, It can be temporarily or permanently stored (recorded) on a removable recording medium such as a memory card.
  • a removable recording medium can be provided as so-called package software.
  • it can also be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
  • LAN Local Area Network
  • the present technology can also adopt the following configurations.
  • a main image selection unit that selects one image as the main image from a plurality of images, It is provided with a period setting unit for setting a duration length for continuing the selected image selected by the main image selection unit as the main image according to the image classification to which the selected image corresponds among a plurality of image classifications.
  • Image processing device (2)
  • the duration length is from the time when the selected image is switched to the main image until the other image selected next to the selected image by the main image selection unit is switched to the main image among the plurality of images.
  • the image processing apparatus according to (1) above which is the length of the period of.
  • the main image is selected when the duration length is reached, or when a predetermined situation is detected and the duration of the current main image elapses from the first period length shorter than the duration length.
  • the image processing apparatus according to any one of (1) to (3) above, comprising a switching control unit that controls switching from an image to another of the plurality of images.
  • the switching control unit sets a duration set by the period setting unit.
  • the switching control unit sets a first period length shorter than the continuation period length set by the period setting unit.
  • the image processing apparatus according to (4) or (5) above which controls switching of a main image to an image of an image classification indicating that it is a main subject image on condition that the image has passed.
  • the main image selection unit determines that the image is the whole image among the plurality of images.
  • the image processing apparatus according to any one of (1) to (6) above, which selects an image of the image classification shown as a new main image.
  • the image processing apparatus according to any one of (1) to (6) above, wherein the image classification is an image classification including at least one of a main subject image, a sub-subject image, and an entire image.
  • the period setting unit sets the duration length according to the image classification so that the main subject image has the longest duration and the entire image or the sub-subject image has the shortest duration (8). ).
  • the image processing apparatus. (10) From the above (1), the main image selection unit selects an image to be the next main image from a plurality of images other than the image to be the main image by using processing according to a predetermined selection rule.
  • the image processing apparatus according to any one of (9).
  • One of the processes according to the selection rule is If the image used as the main image is not the main subject image and there is an image as another main subject image, this is a process of making it a candidate for the next main subject image.
  • One of the processes according to the selection rule is If the image used as the main image is the main subject image and there is an image as another main subject image, this is a process of making it a candidate for the next main subject image (10) or (11).
  • the image processing apparatus according to. (13) One of the processes according to the selection rule is The image processing apparatus according to any one of (10) to (12) above, which is a process of excluding an image having the same image classification as the image as the main image from the candidates for the next main image.
  • One of the processes according to the selection rule is The image processing apparatus according to any one of (10) to (13) above, which is a process of excluding an image including a sub-subject that is the same as the subject of the image as the main image from the candidates for the next main image.
  • One of the processes according to the selection rule is The process of excluding the sub-subject image from the candidates for the next main image when the image that is the main image is the entire image and there is a main subject image as another image (10) to (14) above.
  • the image processing apparatus according to any one.
  • the main image selection unit selects the whole image as the next main image when there is no candidate image for the next main image other than the whole image by the process according to the selection rule.
  • the image processing apparatus selects an image to be the next main image from the next candidate images to be the main image by a selection process in which weighting is applied to each image (1) to (16).
  • the image processing apparatus according to any one of.
  • the main image selection unit selects the next main image by a random lottery process for the candidate image when the main subject image does not exist among the candidate images to be the next main image (1).
  • the image processing apparatus according to any one of (17).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)

Abstract

複数の画像のうちで主画像とする一の画像を選択し、選択された画像を主画像として継続させる継続期間長を、複数の画像分類のうちで該選択された画像が該当する画像分類に応じて設定するようにする。

Description

画像処理装置、画像処理方法、プログラム
 本技術は画像処理装置、画像処理方法、プログラムに係り、特には画像のスイッチングについての技術分野に関する。
 放送や配信等のために作成する画像コンテンツでは、複数のカメラによる撮像画像(ショット)を、撮像しているシーンの内容に応じて切り替えていくことが多い。これにより臨場感があり、また面白みのある画像コンテンツが制作できる。
 近年、動画等の画像配信のプラットフォームが拡がり、画像制作や画像配信の需要が増えている。特にスタッフが少人数であったり、専門知識がない人であったりしても、例えばライブ映像の制作や配信ができるように、自動的に画像切り替え(スイッチング)を行う自動スイッチング機能を有する機器も開発されている。
 下記特許文献1には、複数のカメラから同時並行的に送信される撮影画像について、どの撮影画像を利用するかを自動的に選択する技術が開示されている。
特開2007-158860号公報
 ところが動画等における画像(ショット)のスイッチングは、そのスイッチングのタイミングが視聴者の画像への興味を維持するための重要な要素の1つである。1つのシーンが長すぎても短すぎても、視聴者が違和感を抱いたり、興味を持続できないことがある。さらに或る1つのカメラのショットを継続する適切な時間は、そのショットの画像の内容によっても異なる。このため熟練したスイッチングスタッフが行うような画面切り替えを自動で行うことは難しい。例えば自動スイッチングの場合、各ショットの継続期間長が一定になってしまうことで、画像コンテンツとしての面白みに欠けたり、不自然な流れになってしまうことがある。
 そこで本開示では、複数の画像の内でいずれかが自動的に選択されて放送や配信などで利用される画像となる場合に、その選択された画像を継続させる期間長を考慮したスイッチング制御を行う技術を提案する。
 本技術に係る画像処理装置は、複数の画像のうちで主画像とする一の画像を選択する主画像選択部と、前記主画像選択部で選択された選択画像を主画像として継続させる継続期間長を、複数の画像分類のうちで前記選択画像が該当する画像分類に応じて設定する期間設定部とを備える。
 主画像とは、動画や静止画スライドショウなどとして時間軸方向の長さを有する画像コンテンツのリアルタイム放送、配信、記録、転送などのために、スイッチング処理により時間軸上で或る期間長で用いられる画像をいう。例えばスイッチング処理により、放送等のために出力される動画内容として使用される画像である。
 そして例えば複数のカメラでイベントを撮像してリアルタイム放送等を行っている場合、各カメラの撮像画像が複数の画像となり、そのうちで、現在放送等で出力されている或るカメラによる撮像画像が、ここでいう主画像に該当する。
 また1つのカメラでイベントを撮像してリアルタイム放送を行っている場合、そのカメラの撮像画像から切り出し領域を変えた複数の画像のうちで、現在放送等で出力されている或る切り出し領域の画像も、ここでいう主画像に該当する。
 上記した本技術に係る画像処理装置においては、前記継続期間長は、前記選択画像が主画像に切り替えられてから、前記複数の画像のうち、前記主画像選択部で前記選択画像の次に選択された他の画像が主画像に切り替えられるまでの期間の長さであることが考えられる。
 例えば放送画像などとして出力される画像は、主画像が逐次切り替わるようにスイッチングされる。継続期間長の一例としては、このような場合に、1つの画像が主画像として採用されている期間長をいうものとする。
 上記した本技術に係る画像処理装置においては、前記画像分類は、画像の被写体情報に基づいて決定されることが考えられる。
 画像分類は、一例としては全体画像、主役画像、脇役画像、話者画像などの分類が考えられる。そのような画像分類は、画像毎に予め設定されたり、ユーザ操作により分類されてもよいが、被写体情報に基づいて決定されても良い。例えば画像解析により被写体を判定し、該当する画像分類を判定する。
 上記した本技術に係る画像処理装置においては、前記継続期間長に達した場合、又は、所定状況を検知し、且つ、現在の主画像の継続期間が前記継続期間長よりも短い第1の期間長を経過した場合に、主画像を前記選択画像から前記複数の画像のうち他の画像へと切り替える制御を行う切り替え制御部を備えることが考えられる。
 主画像を、現在主画像となっている画像について設定した継続期間長に達していなくても他の画像に切り替える場合があるようにする。
 上記した本技術に係る画像処理装置においては、前記切り替え制御部は、主画像とされている画像の画像分類が、前記主画像選択部によって主画像とするものとして選択したときの画像分類から変化した場合、前記期間設定部が設定する継続期間長より短い第1の期間長を経過していることを条件として、主画像を他の画像へ切り替える制御を行うことが考えられる。
 即ち主画像とする画像は、画像分類によって選択するが、主画像としている画像の画像分類が変化してしまった場合は、設定した継続期間長にかかわらず主画像を切り替える場合があるようにする。
 上記した本技術に係る画像処理装置においては、前記切り替え制御部は、主画像とされていない画像のなかで、画像分類が主要被写体画像とされる画像が発生した場合、前記期間設定部が設定する継続期間長より短い第1の期間長を経過していることを条件として、主画像を、主要被写体画像であることを示す画像分類の画像へ切り替える制御を行うことが考えられる。
 主要被写体画像とは、主役である特定の人物等を含む画像や、撮像シーン内で主たる行動をしている人物等(例えば話者)を含む画像などである。
 例えば主要被写体が変化するような場合、主要被写体を含むことを示す画像分類となる画像が異なるものとなる。そこで現在の主画像とは別の画像が主要被写体を含むことを示す画像分類となったら、設定した継続期間長にかかわらず主画像を切り替える場合があるようにする。
 上記した本技術に係る画像処理装置においては、前記主画像選択部は、画像分類が全体画像とされた画像が主画像となっていない期間が第2の期間長を経過している場合は、前記複数の画像のうち全体画像であることを示す画像分類の画像を新たな主画像として選択することが考えられる。
 全体画像とは、例えば複数の画像の中で最も広角にシーンを撮像している画像などと考えることができる。例えば複数の人物等が含まれたり、個々の人物等が比較的小さく写っている画像となる。
 例えば第2の期間長は期間設定部が設定する継続期間長の最大値より長く設定された期間長などであり、全体画像を表示しないことが許容される期間の目安となる期間長とする。換言すれば、全体画像を表示しないまま第2の期間長を経過したら全体画像を表示させるほうがよいとされる期間長とする。
 上記した本技術に係る画像処理装置においては、前記画像分類は、少なくとも主要被写体画像、副被写体画像、全体画像のいずれか1つを含む画像分類であるとすることが考えられる。
 副被写体画像は、上述の主要被写体画像に該当する主役等の人物以外の人物等が含まれている画像である。主要被写体画像、副被写体画像、全体画像のそれぞれで、主画像としての継続期間長が異なるようにする。
 上記した本技術に係る画像処理装置においては、前記期間設定部は、主要被写体画像が、継続期間長が最も長く、全体画像が、継続期間長が最も短くなるように、画像分類に応じて継続期間長を設定することが考えられる。
 例えば継続期間長は、主要被写体画像>副被写体画像>全体画像となるようにする。
 或いは継続期間長は、主要被写体画像>全体画像>副被写体画像となるようにしてもよい。
 上記した本技術に係る画像処理装置においては、前記主画像選択部は、主画像とされている画像以外の複数の画像のうちで、所定の選択ルールに応じた処理を用いて、次に主画像とする画像を選択することが考えられる。
 次の主画像の選択は、全ての画像からランダム選択でもよいが、所定の選択ルールを設けて選択するようにしてもよい。
 上記した本技術に係る画像処理装置においては、前記選択ルールに応じた処理の1つは、主画像とされている画像が主要被写体画像ではなく、且つ、他の主要被写体画像としての画像がある場合は、それを次の主画像の候補とする処理であることが考えられる。
 現在の主画像が主要被写体画像でない場合には、他に主要被写体画像を主画像としても視聴者にとって違和感のない選択となる。
 上記した本技術に係る画像処理装置においては、前記選択ルールに応じた処理の1つは、主画像とされている画像が主要被写体画像であり、且つ、他の主要被写体画像としての画像がある場合は、それを次の主画像の候補とする処理であることが考えられる。
 現在の主画像が主要被写体画像であるときに、他に主要被写体画像がある場合は、それを次の主画像としても視聴者にとって違和感のない選択となる。
 上記した本技術に係る画像処理装置においては、前記選択ルールに応じた処理の1つは、主画像とされている画像と同一の画像分類の画像を次の主画像の候補から除外する処理であることが考えられる。
 現在と同一の画像分類の画像が主画像として連続しないようにする。
 上記した本技術に係る画像処理装置においては、前記選択ルールに応じた処理の1つは、主画像とされている画像の被写体と同一の副被写体が含まれる画像を次の主画像の候補から除外する処理であることが考えられる。
 現在と同一の画像分類の画像が主画像として連続しないようにする。
 上記した本技術に係る画像処理装置においては、前記選択ルールに応じた処理の1つは、主画像とされている画像が全体画像であり、且つ、前記複数の画像のうちの他の画像として主要被写体画像があるときに、副被写体画像を次の主画像の候補から除外する処理であることが考えられる。
 全体画像を表示した次のタイミングでなるべく脇役が表示されないようにする。
 上記した本技術に係る画像処理装置においては、前記主画像選択部は、前記選択ルールに応じた処理により、全体画像以外で次に主画像とする画像の候補となる画像が存在しなくなった場合は、全体画像を次の主画像として選択することが考えられる。
 選択ルールに応じた場合、全ての画像、もしくは全体画像を除いた全ての画像が選択不可となることも有り得る。その場合は全体画像を次の主画像として選択する。
 上記した本技術に係る画像処理装置においては、前記主画像選択部は、次に主画像とする候補とした画像のうちで、画像毎に重み付けを加えた選択処理で、次の主画像とする画像を選択することが考えられる。
 次の主画像の選択は、全ての画像を候補として抽選処理で選択したり、所定の選択ルールを設けて選択する画像の候補を決めたうえで、候補とした画像のうちで、抽選処理で選択したりする。このときに重み付け抽選を行う。
 上記した本技術に係る画像処理装置においては、前記主画像選択部は、次に主画像とする候補とした画像のうちに主要被写体画像が存在しない場合は、候補とした画像に対するランダムな抽選処理で次の主画像を選択することが考えられる。
 選択ルールに応じて候補を選択した場合は、その中に主要被写体画像が存在しなければランダムに次の主画像を選択する。
 本技術に係る画像処理方法は、複数の画像のうちで主画像とする一の画像を選択し、選択された選択画像を主画像として継続させる継続期間長を、複数の画像分類のうちで前記選択画像が該当する画像分類に応じて設定する。
 つまり画像分類に応じてスイッチング処理により主画像とされる期間長が異なるものとなるようにする。
 本技術に係るプログラムは、上記画像処理方法の処理を情報処理装置に実行させるプログラムである。例えば撮像装置、スイッチャー装置、汎用端末装置などにおける情報処理装置、プロセッサーにより、本開示の技術を実行できるようにする。
実施の形態の動作を実現する装置構成例の説明図である。 実施の形態の動作を実現する装置構成例の説明図である。 実施の形態の動作を実現する装置構成例の説明図である。 実施の形態の動作を実現する装置構成例の説明図である。 実施の形態の動作を実現する装置構成例の説明図である。 実施の形態の撮像装置のブロック図である。 実施の形態の情報処理装置のブロック図である。 実施の形態の画像処理装置の機能構成の説明図である。 実施の形態の全体ショット、主役ショット、脇役ショットの説明図である。 実施の形態の全体ショット、話者ショット、脇役ショットの説明図である。 実施の形態のモニタ画面の説明図である。 実施の形態の複数の撮像装置の各撮像画像としてのショットに対する画像処理装置の処理の説明図である。 実施の形態の1つの撮像装置からのクロップ画像としてのショットに対する画像処理装置の処理の説明図である。 比較例のショットスイッチング動作の説明図である。 実施の形態のショットスイッチング動作の説明図である。 実施の形態のフレーム毎の処理のフローチャートである。 第1の実施の形態の切り替え判定処理のフローチャートである。 第1の実施の形態のショット選択処理のフローチャートである。 第2の実施の形態の切り替え判定処理のフローチャートである。 第2の実施の形態のショット選択処理のフローチャートである。
 以下、実施の形態を次の順序で説明する。
<1.画像処理装置として適用できる機器の構成>
<2.画像処理装置の機能構成例>
<3.ショットスイッチングの自動制御>
<4.第1の実施の形態の処理例>
<5.第2の実施の形態の処理例>
<6.まとめ及び変形例>
 なお、実施の形態の説明で使用する用語について説明しておく。
 「画像」とは動画や静止画としての画像であるが、特に本実施の形態の説明では、撮像装置によって撮像され、スイッチング処理の対象とされて放送等のための画像コンテンツに使用されうるものを指している。その画像は、撮像装置で撮像された画枠全体の画像や、撮像された画像から切り出し(クロップ)された領域の画像などであり、いわゆるカメラショットとしての画像の全体または一部領域である。そこでこれらのスイッチングの対象となる撮像画像を「ショット」と呼ぶこととする。
 「主画像」とは、動画や静止画スライドショウなどとして時間軸方向の長さを有する画像コンテンツのリアルタイム放送、配信、記録、転送などのために、スイッチング処理により時間軸上で或る期間長で用いられる画像(ショット)をいう。つまりスイッチング処理において選ばれることにより、放送等のために出力される動画内容として使用されるショットである。
 複数のショットのいずれかが逐次選択されて主画像となる。
 「画像分類」とは、ショットの被写体であったりカメラワークによって決まる画像内容に応じた分類である。
 実施の形態では、各ショットの画像分類として「主要被写体ショット」「脇役ショット」「全体ショット」を挙げる。
 また「主要被写体ショット」の細分類として「主役ショット」「話者ショット」を挙げる。
 「主要被写体ショット」は、撮像しているイベント等において主要な被写体(人、動物、光景等)を含むショットを指す。広義では、主要な被写体を含む(脇役等を含む場合もある)ショットで、狭義では主要な被写体とその背景のみを含むショットである。本実施の形態の処理に関しては、広義、狭義のいずれが採用されてもよい。
 実施の形態では、この「主要被写体ショット」には「主役ショット」や「話者ショット」が含まれる例で説明する。
 「主役ショット」は、例えば主役として予め決めた人等(イベント等における主役となる人など)を写しているショットを指す。例えば音楽家A氏のコンサートであれば、A氏を写しているショットが主役ショットとなる。
 「話者ショット」は、そのとき話している人を写しているショットである。
 「脇役ショット」は、撮像しているイベント等において主要な被写体ではない被写体(人、動物、光景等)を含むショットを指す。例えば音楽家A氏のコンサートであれば、A氏のバックミュージシャンを写しているショットが脇役ショットとなる。
 「全体ショット」は、例えばイベントを全体的に写しているようなショットである。例えば複数のショットの内で、最も広角の画像、被写体となっている人の数が最も多い画像、被写体となっている人のサイズが最も小さい画像、ステージ等を最も正面に近い状態で撮っている画像などを、全体ショットと判定してもよい。
 なお、各ショットに対して、それが「主要被写体ショット」「脇役ショット」「全体ショット」等のどれに該当するかは必ずしも固定的ではない。各ショットは、写されている被写体や状況により、「主要被写体ショット」「脇役ショット」「全体ショット」などに変化する。但しカメラワークや切り出し処理の内容によっては各ショットの画像分類が固定的となる場合もある。
<1.画像処理装置として適用できる機器の構成>
 本開示の実施の形態としての画像処理装置は、各種の機器において実現できる。まずは本開示の技術を適用できる機器について説明しておく。
 図1は携帯端末2が本技術の画像処理装置としての機能を備える例である。携帯端末2とは、スマートフォンやタブレット機器等の装置である。
 携帯端末2には、1台の撮像装置1から、撮像している動画としてのショットVD1,VD2,VD3,VD4が送信されてくる。なお以下では、これらの複数のショットを区別せずに総称する場合や、特に限定されない或る1つのショットを指す場合などには、「ショットVD」の用語を用いる。
 撮像装置1と携帯端末2の通信は、例えば有線通信で行われたり、無線通信(例えば近距離無線通信など)で行われる。
 ここで図1では、ショットVD1には添え字として「(CS)」を付加しているが、これは撮像した画角全体の画像であることを表すものとする。
 またショットVD2,VD3,VD4には添え字として「(CR)」を付加しているが、これは撮像した画角全体の画像から切り出し(クロップ)された画像であることを表すものとする。
 つまり撮像装置1は、イベント等の撮像を行って、その撮像した画像自体を、ショットVD1として出力するとともに、撮像画像から所定の領域を切り出したクロップ画像をショットVD2,VD3,VD4として出力する。
 なお添え字「(CS)」「(CR)」については図2,図3,図4も同様に付している。
 図1の携帯端末2は撮像装置1から供給されるショットVD1,VD2,VD3,VD4をスイッチング処理で逐次選択して動画コンテンツCTを生成し、送信出力、表示出力、記録、アップロード等を行うことができる。
 なお、撮像装置1からは例えばショットVD1のみ送信されるものとし、携帯端末2内でショットVD1からクロップ処理でショットVD2,VD3,VD4を生成した上でスイッチング処理を行うことも想定される。
 図2は複数の撮像装置1を使用するとともに、スイッチャー3が本技術の画像処理装置としての機能を備える例である。
 スイッチャー3とは、複数系統の入力画像に対して出力画像(主画像)を選択するスイッチングを行う機器である。例えば通常はオペレータが手動でスイッチング操作を行うが、本実施の形態の機能を備えることで自動スイッチングが行われるようにすることが想定される。
 この例では、スイッチャー3に対しては、3台の撮像装置1からそれぞれショットVD1,VD2,VD3が送信されてくる。それぞれの撮像装置1は、イベント等を撮像した画像自体を、1つのショットとして出力する。
 各撮像装置1は、例えば有線通信や無線通信によりショットVDとしての動画をスイッチャー3に送信する。
 スイッチャー3はショットVD1,VD2,VD3,VD4をスイッチング処理で逐次切り替えて動画コンテンツCTを生成し、送信出力、表示出力、記録、アップロード等を行うことができる。
 図3は複数の撮像装置を使用するとともに、コンピュータ装置5が本技術の画像処理装置としての機能を備える例である。コンピュータ装置5とは例えばパーソナルコンピュータ等である。但し上述の携帯端末2であってもよい。
 この例では、3台の撮像装置1の1つから、それぞれクロップ画像としてのショットVD1,VD2,VD3が送信されてくる。また、残りの2台の撮像装置1からは、それぞれイベント等を撮像した画像自体であるショットVD4、VD5が送信されてくる。
 各撮像装置1とコンピュータ装置5の通信は、例えば有線通信で行われたり、無線通信(例えば近距離無線通信など)で行われる。
 コンピュータ装置5はショットVD1,VD2,VD3,VD4,VD5をスイッチング処理で逐次切り替えて動画コンテンツCTを生成し、送信出力、表示出力、記録、アップロード等を行うことができる。
 図4は撮像装置1とネットワーク6を介して通信するクラウドスイッチャー4が本技術の画像処理装置としての機能を備える例である。
 ネットワーク6は、例えばインターネット、LAN(Local Area Network)、VPN(Virtual Private Network:仮想専用網)、イントラネット、エキストラネット、衛星通信網、CATV(Community Antenna TeleVision)通信網、電話回線網、移動体通信網等の各種の形態が想定される。
 この例では、撮像装置1が、それぞれクロップ画像としてのショットVD1,VD2,VD3を、ネットワーク6を介してクラウドスイッチャー4に送信する例としている。
 クラウドスイッチャー4は、ショットVD1,VD2,VD3をスイッチング処理で逐次切り替えて動画コンテンツCTを生成し、ネットワーク6を介して送信出力する。
 図5は、撮像装置1が本技術の画像処理装置としての機能を備える例である。
 例えば撮像装置1では、撮像を行うとともに内部的なクロップ処理を行うことで、複数のショットVD(例えばVD1,VD2,VD3)を生成する。そしてその複数のショットVD1,VD2,VD3を対象として自動的なスイッチング処理を行って、動画コンテンツCTを生成し、出力する。
 以上、本実施の形態の画像処理装置となり得る具体的な機器の例を挙げたが、これらは一例であり、他にも具体的な機器の例は多様に想定される。
 また、図1,図2,図3,図4の例では、撮像装置1から送信出力するショットVDの例と、本実施の形態の画像処理装置に該当する携帯端末2、スイッチャー3、コンピュータ装置5、クラウドスイッチャー4の組み合わせを示したが、この組み合わせに限定されるものではない。あくまでショット出力の例と、画像処理装置となる機器の例を挙げたものであるため、図示していない他の組み合わせも想定される。
 以下では、例えば図1のような撮像装置1と携帯端末2を想定して、実施の形態の構成及び動作の例を説明していく。
 まず撮像装置1の構成例を図6で説明する。
 図6に示すように撮像装置1は、レンズ系11、撮像素子部12、カメラ信号処理部13、記録制御部14、表示部15、出力部16、操作部17、カメラ制御部18、メモリ部19、ドライバ部22を有する。
 レンズ系11は、カバーレンズ、ズームレンズ、フォーカスレンズ等のレンズや絞り機構などを備える。このレンズ系11により、被写体からの光(入射光)が導かれ撮像素子部12に集光される。
 撮像素子部12は、例えば、CMOS(Complementary Metal Oxide Semiconductor)型やCCD(Charge Coupled Device)型などのイメージセンサ12a(撮像素子)を有して構成される。
 この撮像素子部12では、イメージセンサ12aで受光した光を光電変換して得た電気信号について、例えばCDS(Correlated Double Sampling)処理、AGC(Automatic Gain Control)処理などを実行し、さらにA/D(Analog/Digital)変換処理を行う。そしてデジタルデータとしての撮像信号を、後段のカメラ信号処理部13やカメラ制御部18に出力する。
 カメラ信号処理部13は、例えばDSP(Digital Signal Processor)等により画像処理プロセッサーとして構成される。このカメラ信号処理部13は、撮像素子部12からのデジタル信号(撮像画像信号)に対して、各種の信号処理を施す。例えばカメラプロセスとしてカメラ信号処理部13は、前処理、同時化処理、YC生成処理、解像度変換処理、コーデック処理等を行う。
 前処理では、撮像素子部12からの撮像画像信号に対して、R,G,Bの黒レベルを所定のレベルにクランプするクランプ処理や、R,G,Bの色チャンネル間の補正処理等を行う。
 同時化処理では、各画素についての画像データが、R,G,B全ての色成分を有するようにする色分離処理を施す。例えば、ベイヤー配列のカラーフィルタを用いた撮像素子の場合は、色分離処理としてデモザイク処理が行われる。
 YC生成処理では、R,G,Bの画像データから、輝度(Y)信号および色(C)信号を生成(分離)する。
 解像度変換処理では、各種の信号処理が施された画像データに対して、解像度変換処理を実行する。
 カメラ信号処理部13におけるコーデック処理では、以上の各種処理が施された画像データについて、例えば記録用や通信用の符号化処理やファイル生成を行う。
 例えば動画として出力するストリーム画像データとしての処理や、動画記録のための画像ファイルの生成などを行う。
 なおカメラ信号処理部13は、元の撮像画像からの切り出し処理により生成したストリーム画像データを生成することもできる。
 また図6では音声処理系については図示を省略しているが、実際には音声収録系、音声処理系を有し、ストリーム画像データや記録用の画像ファイルには動画としての画像データとともに音声データも含まれるようにしてもよい。
 記録制御部14は、例えば不揮発性メモリによる記録媒体に対して記録再生を行う。記録制御部14は例えば記録媒体に対し動画データや静止画データ等の画像ファイルやサムネイル画像等を記録する処理を行う。
 記録制御部14の実際の形態は多様に考えられる。例えば記録制御部14は、撮像装置1に内蔵されるフラッシュメモリとその書込/読出回路として構成されてもよいし、撮像装置1に着脱できる記録媒体、例えばメモリカード(可搬型のフラッシュメモリ等)に対して記録再生アクセスを行うカード記録再生部による形態でもよい。また撮像装置1に内蔵されている形態としてHDD(Hard Disk Drive)などとして実現されることもある。
 表示部15は撮像者に対して各種表示を行う表示部であり、例えば撮像装置1の筐体に配置される液晶パネル(LCD:Liquid Crystal Display)や有機EL(Electro-Luminescence)ディスプレイ等のディスプレイデバイスによる表示パネルやビューファインダーとされる。
 表示部15は、カメラ制御部18の指示に基づいて表示画面上に各種表示を実行させる。
 例えば表示部15は、記録制御部14において記録媒体から読み出された画像データの再生画像を表示させる。
 また表示部15にはカメラ信号処理部13で表示用に解像度変換された撮像画像の画像データが供給され、表示部15はカメラ制御部18の指示に応じて、当該撮像画像の画像データに基づいて表示を行う場合がある。これにより構図確認中の撮像画像である、いわゆるスルー画(被写体のモニタリング画像)が表示される。
 また表示部15はカメラ制御部18の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を画面上に実行させる。
 出力部16は、外部機器との間のデータ通信やネットワーク通信等を有線又は無線で行う。 例えば外部の情報処理装置、表示装置、記録装置、再生装置等に対してカメラ信号処理部13で処理された撮像画像データ(例えば動画としてのストリーム画像信号)の送信出力を行う。
 特に本実施の形態の場合、出力部16は、画像処理装置の実現例として図1,図2,図3,図4に例示した携帯端末2、スイッチャー3、コンピュータ装置5、クラウドスイッチャー4等の機器に対して、現在撮像している動画としてのショットVDを送信する処理を行うことになる。
 操作部17は、ユーザが各種操作入力を行うための入力デバイスを総括して示している。具体的には操作部17は撮像装置1の筐体に設けられた各種の操作子(キー、ダイヤル、タッチパネル、タッチパッド等)を示している。
 操作部17によりユーザの操作が検知され、入力された操作に応じた信号はカメラ制御部18へ送られる。
 カメラ制御部18はCPU(Central Processing Unit)を備えたマイクロコンピュータ(演算処理装置)により構成される。
 メモリ部19は、カメラ制御部18が処理に用いる情報等を記憶する。図示するメモリ部19としては、例えばROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリなど包括的に示している。
 メモリ部19はカメラ制御部18としてのマイクロコンピュータチップに内蔵されるメモリ領域であってもよいし、別体のメモリチップにより構成されてもよい。
 カメラ制御部18はメモリ部19のROMやフラッシュメモリ等に記憶されたプログラムを実行することで、この撮像装置1の全体を制御する。
 例えばカメラ制御部18は、撮像素子部12のシャッタースピードの制御、カメラ信号処理部13における各種信号処理の指示、ユーザの操作に応じた撮像動作や記録動作、記録した画像ファイルの再生動作、レンズ鏡筒におけるズーム、フォーカス、絞り調整等のレンズ系11の動作、ユーザインタフェース動作等について、必要各部の動作を制御する。
 メモリ部19におけるRAMは、カメラ制御部18のCPUの各種データ処理の際の作業領域として、データやプログラム等の一時的な格納に用いられる。
 メモリ部19におけるROMやフラッシュメモリ(不揮発性メモリ)は、CPUが各部を制御するためのOS(Operating System)や、画像ファイル等のコンテンツファイルの他、各種動作のためのアプリケーションプログラムや、ファームウエア等の記憶に用いられる。
 ドライバ部22には、例えばズームレンズ駆動モータに対するモータドライバ、フォーカスレンズ駆動モータに対するモータドライバ、絞り機構のモータに対するモータドライバ等が設けられている。
 これらのモータドライバはカメラ制御部18からの指示に応じて駆動電流を対応するドライバに印加し、フォーカスレンズやズームレンズの移動、絞り機構の絞り羽根の開閉等を実行させることになる。
 次に本実施の形態の画像処理装置として機能する情報処理装置70の構成を図7に示す。
 例えば携帯端末2やコンピュータ装置5は、この情報処理装置70として構成される。スイッチャー3、クラウドスイッチャー4等も、この情報処理装置70と同等の構成を有することで、本実施の形態の画像処理装置として機能できる。
 図7において、情報処理装置70のCPU71は、ROM72に記憶されているプログラム、または記憶部79からRAM73にロードされたプログラムに従って各種の処理を実行する。RAM73にはまた、CPU71が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU71、ROM72、およびRAM73は、バス74を介して相互に接続されている。このバス74にはまた、入出力インタフェース75も接続されている。
 入出力インタフェース75には、操作子や操作デバイスよりなる入力部76が接続される。
 例えば入力部76としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
 入力部76によりユーザの操作が検知され、入力された操作に応じた信号はCPU71によって解釈される。
 また入出力インタフェース75には、LCD或いは有機ELパネルなどよりなる表示部77や、スピーカなどよりなる音声出力部78が一体又は別体として接続される。
 表示部77は各種表示を行う表示部であり、例えば情報処理装置70の筐体に設けられるディスプレイデバイスであったり、情報処理装置70に接続される別体のディスプレイデバイス等により構成される。
 表示部77は、CPU71の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部77はCPU71の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
 入出力インタフェース75には、ハードディスクや固体メモリなどより構成される記憶部79や、モデムなどより構成される通信部80が接続される場合もある。
 通信部80は、インターネット等の伝送路を介しての通信処理を行ったり、各種機器との有線/無線通信、バス通信などによる通信を行う。
 入出力インタフェース75にはまた、必要に応じてドライブ82が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体81が適宜装着される。
 ドライブ82により、リムーバブル記録媒体81からは画像ファイル等のデータファイルや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータファイルは記憶部79に記憶されたり、データファイルに含まれる画像や音声が表示部77や音声出力部78で出力されたりする。またリムーバブル記録媒体81から読み出されたコンピュータプログラム等は必要に応じて記憶部79にインストールされる。
 この情報処理装置70では、例えば本開示の画像処理装置としての処理のためのソフトウエアを、通信部80によるネットワーク通信やリムーバブル記録媒体81を介してインストールすることができる。或いは当該ソフトウエアは予めROM72や記憶部79等に記憶されていてもよい。
<2.画像処理装置の機能構成例>
 本実施の形態の画像処理装置は、例えば情報処理装置70のCPU71に、ソフトウエア(アプリケーションプログラム)により、図8の機能構成が備えられることで実現される。
 即ち情報処理装置70(又はCPU71)は、主画像選択部31、期間設定部32を少なくとも備えることで、本実施の形態の画像処理装置として機能する。
 また情報処理装置70(又はCPU71)は、さらに切り替え制御部33を有する場合もある。
 さらに情報処理装置70(又はCPU71)は、被写体認識部34、ショット解析部35、クロップ処理部36、モニタ表示制御部37の全部又は一部を備える場合もある。
 例えば図1の携帯端末2や図3のコンピュータ装置5は、図7の情報処理装置70の構成とされ、CPU71が図8の機能構成を備えることで本実施の形態の画像処理装置として機能する。
 また図2のスイッチャー3や図4のクラウドスイッチャー4は、図7に相当する構成(もしくは少なくともCPU71に相当する構成)を有し、CPU71が図8の機能構成を備えるようにすることで本実施の形態の画像処理装置として機能する。
 また図5のように撮像装置1が画像処理装置として機能する場合は、例えば図6のカメラ信号処理部13又はカメラ制御部18が図8の機能構成を備えることで本実施の形態の画像処理装置として機能する。
 例えばこのように実現される本実施の形態の画像処理装置は、例えば1又は複数の撮像装置1により得られる複数のショットVDについて自動的にスイッチングして出力する装置である。例えばライブ映像としての動画コンテンツを放送、配信、記録等する場合に、逐次、複数のうちのいずれかのショットVDを主画像として選択し、選択に応じてショットVDを切り替えて出力する。この逐次切り替えられていく複数のショットVDによる映像ストリームが、例えばライブ映像としての動画コンテンツCTを構成することになる。
 そして本実施の形態の画像処理装置は、この場合に、コンテンツの目的や制作趣旨、或いは視聴者を飽きさせないための「切り替えタイミングの生成」や、コンテンツにあった「出力画像の切り替え(主画像の選択)」を行うことで、より品質の高い動画コンテンツ制作を可能とする。
 図8に示す主画像選択部31は、複数のショットVDのうちで主画像とする一の画像を選択する機能である。
 つまり動画コンテンツにおいて使用する次のショットVDとして、適切なショットを選択する処理を行う。
 期間設定部32は、主画像選択部31で選択されたショットVDを主画像として継続させる継続期間長を、複数の画像分類のうちで該選択されたショットVDが該当する画像分類に応じて設定する機能である。
 ここで継続期間長とは、主画像選択部31で選択された一のショットVDが主画像に切り替えられてから、主画像が、次に主画像選択部31で選択される他のショットVDに切り替えられるまで期間の長さ(時間長)である。
 つまり期間設定部32により、主画像に選択されるショットVD毎に、継続期間長が設定されることになる。
 切り替え制御部33は、期間設定部32で設定された継続期間長に応じて、主画像を切り替える機能である。つまり主画像とされたショットVDが、そのショットVDについて設定された継続期間長で示される時間、主画像として継続させた後、次のショットVDに切り替えるスイッチング動作の制御を行う。
 また切り替え制御部33は、主画像の切り替えタイミングの判定も行う。例えば切り替え制御部33は現在の主画像が継続期間長に達したことによる切り替えタイミングの判定を行う。
 また切り替え制御部33は、各ショットVDの画像分類PDを監視し、例えば現在主画像とされているショットVDの画像分類の変化などに応じて、切り替えタイミングの判定を行う場合もある。
 また切り替え制御部33は、ユーザ操作に応じて切り替えタイミングの判定を行う場合もある。
 被写体認識部34は、ショットVDの画像に対する画像解析等の処理を行い、ショットVD内の被写体を認識する機能である。
 例えば顔検出、人検出、姿勢推定などで被写体を検出、追尾する処理を行うことがある。
 また、顔識別(個人の識別)を行い、被写体が誰か(主役などの重要被写体か否か)を認識する処理を行うことがある。
 また、顔パーツ検出で検出した口の動きから、話者を検出する処理を行うことがある。 なお被写体認識部34の処理は必ずしも画像処理装置内で行われなくても良い。
 また被写体認識部34は、クロップする領域を判定するための被写体認識処理を行う場合もある。
 ショット解析部35は、被写体認識部34による認識結果から、ショット情報を抽出し、またそのショットVDの画像分類を判定する機能である。
 ショット情報とは、誰が写っているかという情報であったり、構図(配置)、カメラワークなどの情報が想定される。
 誰が写っているかという被写体の情報は、例えば画像内で大きく映っている被写体を対象とする。
 構図(配置)の情報とは、俯瞰ショット、引き(フルショット、ニーショット)、寄り(ウエストショット、バストショット、アップショット)などの区別の情報であったり、ショットVDがいわゆる日の丸構図、三分割法、など、構図や被写体配置の類型のどれに該当するかの情報などである。またショットVDの画像内の被写体サイズなどの別も構図の情報に含まれる。
 カメラワークの情報とは、固定、フォロー、パン、ズーム、ドリー等のカメラワーク自体を示す情報である。
 これらのショット情報に基づいて、ショット解析部35は、全てのショットVDを、主要被写体ショット(主役ショット/話者ショット)、脇役ショット、全体ショット(大人数或いは正面のショット)等に分類する。
 このようなショット情報に基づく画像分類の判定は機械学習に基づいて行われることが考えられる。
 また全体ショットは、最も正面の画像、最も引きの画像、最も被写体人数が多い画像などの条件で判定してもよいし、ユーザの指定に基づいて特定されるものでもよい。例えば常に被写体の正面から引きで撮像を行う撮像装置1が配置されている場合、その撮像装置1によるショットVDは、常に全体ショットであるとして、ユーザが設定することも考えられる。
 なお被写体認識部34の処理は必ずしも画像処理装置内で行われなくても良い。
 図9でショットVDの画像分類の例を示す。図9にはショットVD1,VD2,VD3としてのある時点の画像内容を例示している。このショットVD1,VD2,VD3は、例えば3台の撮像装置1によって、それぞれ撮像されたショットVDであるとしている。
 例えばショットVD1はライブステージの正面から全体を「引き」で撮っているショットであり、「全体ショット」に該当する。
 ショットVD2はピアニストよりステージ奥にある撮像装置1からピアニストを「寄り」で撮っているショットである。
 このライブイベントのメインミュージシャンがショットVD2のピアニストの場合、例えば顔識別、個人認識に基づいて、このピアニストが含まれるショットVDが「主役ショット」又は「主要被写体ショット」と判定される。例えば予め主役の顔等を学習させておくことで、特定の個人を写すショットVDを主役ショットと判定できる。
 ショットVD3は、ステージ脇の撮像装置1から、ギタリストを寄りで撮っているショットである。これは主役ではない被写体のショットであるため「脇役ショット」と判定されることになる。
 クロップ処理部36は、1つの撮像画像から一部の領域を切り出して1つのショットVDを生成する処理を行う。例えば4人の人物が写っている全体画像から、各被写体人物を切り出して4つのクロップ画像としてのショットVDを生成するような処理である。
 なおクロップ処理部36の処理も、必ずしも画像処理装置内で行われなくても良い。
 図10は1台の撮像装置1でインタビューの場面の撮像を行い、放送等をすることを想定した画像例である。
 この場合のショットVD1は、撮像装置1がインタビュー場面の正面から全体を撮像している画像である。
 この画像において、例えばクロップ枠CRWで示される4つの領域が、それぞれクロップされて、それぞれショットVD2,VD3,VD4,VD5とされるとする。
 クロップ処理部36は、このように1つの画像の一部を切り出してクロップ画像を生成する処理を行う機能である。
 この図10の場合におけるショット解析部35による画像分類についても説明しておく。
 図10のショットVD1はインタビュー場面の正面から全体を引きで撮っているショットであり、「全体ショット」に該当する。
 ショットVD2は、インタビューを受けている人の一人を切り出した画像であるが、この時点では、この画像に写る人が話者となっている。例えば画像から検出される口の動きなどにより話者と判定された場合、このショットVD2が現時点の「話者ショット」又は「主要被写体ショット」と判定される。話者ショットと判定されるショットVDは、話者が変わるたびに変更されることになる。
 ショットVD3は、話者以外の人のショットであるため、この時点では「脇役ショット」と判定されることになる。後にこの人物が話す場面となったら、このショットVD3が「話者ショット」又は「主要被写体ショット」と判定される。
 図8のモニタ表示制御部37は、例えば表示部77等において、スイッチング動作のモニタ画面を表示させる制御を行う機能である。
 図11にモニタ画面の一例を示す。
 モニタ画面は、例えば画面を複数の領域に分割して必要な画像の表示が行うものとする。
 例えば画面の右上に、現在、主画像MPとして出力されているショットVDが表示される。
 また画面の下部には、比較的小さい領域で、スイッチング対象として入力されている複数のショットVD1,VD2,VD3・・・がそれぞれ表示される。
 また図のように画面の左上に、次の主画像MPとして出力される予定(次画像MPN)のショットVDが表示されるようにしてもよい。例えばユーザ(オペレータ)が手動で次の主画面として予約したショットVDを表示させる。これによりユーザは手動切り替えのタイミングを計ることができる。
 ユーザは、このモニタ画面によりスイッチング動作の状況を確認できる。また、自動スイッチングの際に、一時的に手動スイッチングを実行可能としてもよい。
 なお、図11の画面例はあくまでも一例であり、モニタ画面の構成や表示内容はこれに限られない。
 以上の図8の機能による画像処理装置の処理の流れの例を図12で説明する。
 図12では、n個のショットVD(VD1、VD2・・・VDn)が画像処理装置に入力されるとしている。n個のショットVDが画像処理装置に入力される場合とは、図1,図2,図3,図4のように1又は複数の撮像装置1から複数のショットVDが入力されるような場合である。
 各ショットVDは、それぞれ被写体認識部34によるショット内の被写体認識の処理が行われる。
 そして被写体認識結果に基づいて、ショット解析部35により、各ショットVDの画像分類が判定される。
 各ショットVDの画像分類PD(PD1,PD2・・・PDn)は、主画像選択部31に供給される(「画像分類PD」の用語は複数のショットVDのそれぞれの画像分類を総称する場合に用いる)。
 主画像選択部31は、各ショットVDの画像分類PD1,PD2・・・PDnに基づいて、次に主画像MPとするショットVDの選択を行う。ショット選択の具体的な処理例については後述する。
 期間設定部32は、主画像選択部31が次に主画像MPとするものとして選択したショットVDについて、その分類情報PDに基づいて、継続期間長を設定する。
 n個のショットVD(VD1、VD2・・・VDn)は、それぞれ切り替え部40に供給され、スイッチングされる。即ちショットVD1、VD2・・・VDnのいずれかが切り替え部40で選択されて、現時点の主画像MPとして出力される。
 切り替え制御部33は、切り替え判定処理により切り替えタイミングを判定し、切り替えタイミングにおいて、切り替え部40のスイッチング動作を制御する。
 即ち切り替え制御部33は、主画像選択部31が選択したショットVDが、期間設定部32が設定した継続期間長、主画像MPとして出力されるように切り替え部40の制御を行う。
 また切り替え制御部33は、このような切り替え制御のために、切り替えタイミングに応じて主画像選択部31の処理が行われるようにもする。例えば現在の主画像MPの継続時間を期間設定部が設定した継続期間長Txに達したか否かを監視し、それに応じて主画像選択部31や期間設定部32の処理が行われるようにする。
 なお切り替え制御部33は、以上の主画像選択部31、期間設定部32の処理に基づく切り替え制御だけでなく、例えばユーザ操作による割込的な切り替え制御も実行可能である。例えば切り替え制御部33は、ユーザの手動の操作情報SSが入力されることに応じて、ユーザが指示したショットVDを即時、主画像MPとして出力するように切り替え部40を制御することができる。
 或いは切り替え制御部33は、ユーザの画像分類PDの指定に応じて、指定された画像分類に該当するショットVDを即時、主画像MPとして出力するように切り替え部40を制御することができる。
 さらに切り替え制御部33は、現在の各ショットVDについてショット解析部35で判定されている画像分類PDを監視し、例えば現在の主画像MPとされているショットVDの画像分類の変化や、他のショットVDの画像分類などに応じて、切り替えタイミングを判定する場合もある。
 同じく上記の図8の機能による画像処理装置の処理の流れの他の例を図13で説明する。この図13では、クロップ処理部36の機能を加えた例を示している。
 例えば図5のように撮像装置1でスイッチングが行われる場合に、内部でクロップ処理が行われる場合や、図1,図2,図3,図4のように撮像装置1から供給されるショットの一部について、画像処理装置でさらにクロップを行ってショット数を増やすような場合である。
 例えば1つの撮像装置1からショットVD1が画像処理装置に供給されるとする。
 被写体認識部34は、ショットVD1について被写体認識処理を行う。なお、この場合の被写体認識処理は、クロップすべき領域を判定する処理も含む。例えば被写体人物の顔領域、身体全体の領域、バストアップの領域などを判定することが想定される。
 クロップ処理部36は、被写体認識部34の認識結果を用いて、各フレームから適切な領域の切り出し処理を行う。切り出された画像が、例えばそれぞれショットVD2・・・VDnとされる。
 クロップ元の全体画像であるショットVD1、及びクロップ画像であるショットVD2・・・VDnは、それぞれショット解析部35により画像分類が判定される。
 各ショットVDの画像分類PD(PD1,PD2・・・PDn)は、主画像選択部31に供給される。
 主画像選択部31は、各ショットVDの画像分類PD1,PD2・・・PDnに基づいて、次に主画像MPとするショットVDの選択を行う。
 期間設定部32は、主画像選択部31が次に主画像MPとするものとして選択したショットVDについて、その分類情報PDに基づいて、継続期間長を設定する。
 n個のショットVD(VD1、VD2・・・VDn)は、それぞれ切り替え部40に供給され、スイッチングされる。
 切り替え制御部33は、図12の場合と同様に、主画像選択部31、期間設定部32の処理に基づく切り替え制御を行ったり、ユーザ操作に応じた切り替え制御を行う。
 なお、図12において、一部のショットVD(例えばショットVD1,VD2)が図13で説明したようにクロップされたショットVDであるなど、図12,図13の複合的な処理の流れも想定される。
<3.ショットスイッチングの自動制御>
 以上のように行われる本実施の形態の画像処理装置によるスイッチング自動制御の意味について説明する。
 まず図14の第1比較例、第2比較例は、本実施の形態を用いない場合のスイッチング動作例を示している。図の横方向が時間軸を示し、1つの動画コンテンツとして、ショットVD1,VD2,VD3,VD4が時間軸上で逐次主画像MPとして切り替えられて出力される状態を示している。
 なお、図14及び後述の図15では、説明上の便宜のため、ショットVD1は常に全体ショット、ショットVD2は常に主役ショット、ショットVD3、VD4は常に脇役ショットであるとする。
 カメラワークやクロップ処理によっては、各ショットVDの画像分類が固定的になる場合もあるため、ここでは、そのような状況を想定して説明する。もちろん、必ずしも各ショットVDの画像分類が常に固定的であるとは限らない。
 第1比較例は、各ショットVDが、規則的に順番に選択される例である。また1つのショットVDが主画像MPとして出力される継続期間長は、時間Tfとして固定される。
 自動スイッチングの単純な処理としては、このように、各ショットVDを順番に、時間Tfずつ出力していくことが考えられ、このような処理によって、各ショットVDを有効利用した動画コンテンツを制作できる。
 その動画コンテンツは、各種のアングルの画像や、各被写体人物のアップ画像等が切り替わることで、単に1つの全体画面を継続して写すよりはコンテンツとしての充実したものとすることができる。しかし、常に特定の順番で定期的に画像が切り替わるものであり、視聴者にとっては退屈な動画と感じられてしまう。
 第2比較例は、各ショットVDの選択順序をランダムにした例である。選択順序をランダムにすることで、視聴者が退屈さを感じることを若干解消できる。
 しかしながら、それぞれのショットVDが出力される継続期間長が固定の時間Tfとされることで、結局は視聴者にとって飽きやすいコンテンツとなる。
 ショットスイッチングのタイミングが周期的であると、視聴者が動画の緊張感やダイナミクスを感じる傾向が徐々に無くなる傾向にあるためである。
 さらにランダムでショットVDを選択することで、動画コンテンツ制作の趣旨が反映されにくいことも生ずる。例えば或る一人の音楽家を主役としてフィーチャーした動画コンテンツを制作したいのに、ランダム選択であると、脇役ばかりが写ったり、各メンバー主役と脇役がほぼ均等に表示されるような動画になってしまうこともある。
 そこで本実施の形態では、このような点を鑑みて、動画制作の趣旨を反映し、しかも視聴者を飽きさせにくいような動画コンテンツCTを、容易に実現できる自動スイッチング処理を、上述した図12や図13の処理により実現するものである。
 実施の形態のスイッチング動作で実現される動画コンテンツCTの第1例、第2例を図15に示す。
 第1例は、画像分類に応じて継続期間長を異なるようにした例である。
 即ち継続期間長を、全体ショットは時間Ta、主役ショットは時間Tb、脇役ショットは時間Tcとする。この例ではTb>Tc>Taとしている。Tb>Ta>Tcとしてもよい。即ち主役ショットの継続期間長を最も長くする。脇役ショットと全体ショットは、いずれかの継続期間長が最も短くなるようにする。
 一例として継続時間長は、主役ショットは8秒、脇役ショットは6秒、全体ショットは4秒などとする。
 そして、主画像選択部31で選択されたショットVDが、順次、そのショットVDの画像分類PDに応じて設定された継続期間長ずつ、主画像MPとして出力されていく。
 即ち最初にショットVD1が時間Taだけ継続され、次にショットVD2が時間Tbだけ継続され、次にショットVD4が時間Tcだけ継続される、というように順次切り替えられていく。
 また、主画像選択部31による選択は、順番でもなければ完全ランダムでもない。後述する所定の選択ルールを反映して次に主画像MPとして出力されるショットVDが選択されるようにしている。
 このようにすることで、動画制作の意図に沿ったスイッチングであって、また固定的なスイッチングタイミングでないことにより視聴者を飽きさせにくくした動画コンテンツCTを自動スイッチングにより容易に実現できるようにしている。
 特に選択ルールにより主役ショットが主画像MPとして選ばれやすくしたり、継続時間長を長くすることで、主役被写体が十分にフィーチャーされ、しかも場面の切り替えにおいて視聴者に良い意味の緊張感を与えるような動画が実現される。
 第2例は、さらに切り替えタイミング(換言すれば主画像MPとしての継続時間長)を変化させることで、よりダイナミクスのある動画コンテンツを実現する例である。
 即ちこの第2例は、継続時間長としての全体ショットの時間Ta、主役ショットの時間Tb、脇役ショットの時間Tcについて、Tb>Tc>Ta、又はTb>Ta>Tcとすることは第1例と同様であるが、それぞれの画像分類の継続時間長に幅を持たせる例である。
 例えば主役ショットの場合の継続時間長は、時間Tb1、Tb2、Tb3などでバリエーションを持たせる。同様に脇役ショットの継続時間長は、時間Tc1、Tc2、Tc3などとし、全体ショットの継続時間長は、時間Ta1、Ta2、Ta3などとする。
 一例として継続時間長は、全体ショットは3.5秒から4秒の間、脇役ショットは4秒から6秒の間、主役ショットは6秒から8秒の間、などとする。
 例えば主役ショットの継続時間長は、時間Tb1、Tb2、Tb3が6秒から8秒の間でランダムに設定されるなどとする。脇役ショット、全体ショットも同様である。
 これにより、ショットVDの切り替えタイミングの周期性がより薄くなり、緊張感のある動画となりやすい。
 なお、必ずしも常にTb>Tc>Ta、又はTb>Ta>Tcの関係が守られなくてもよい。例えば多少オーバーラップして、全体ショットは3秒から5秒の間、脇役ショットは4秒から6秒の間、主役ショットは5秒から8秒の間などとしてもよい。
<4.第1の実施の形態の処理例>
 例えば以上の第1例、第2例のようなスイッチング動作を実現する画像処理装置の第1の実施の形態の処理例を図16、図17、図18で説明する。
 各処理は、例えば図8の機能を備えた図7のCPU71で行われるものとして説明する。即ち画像処理装置は、図1,図2,図3,図4のように、携帯端末2、コンピュータ装置5、スイッチャー3、クラウドスイッチャー4などにおいて実現される例とする。なお、図5のように撮像装置1に本実施の形態の画像処理装置が内蔵される場合、以下の処理は図6のカメラ信号合処理部13又はカメラ制御部18で行われるものと考えれば良い。
 なお、以下の処理は、複数のショットVDが存在することを前提として示している。図13で説明したように、複数のショットVDを得るためのクロップ処理が別途行われる場合もある。
 図16はショットVDとして供給される画像の1フレームタイミング(或いは間欠的なフレームタイミング)毎に行われる処理を示している。
 CPU71は、ステップS101としてカウンタTM1,TM2をインクリメントする。カウンタTM1は、現在の主画像MPの継続期間長を監視するためのカウンタである。カウンタTM2は、全体ショットを出力していない期間を監視するためのカウンタである。
 ステップS102でCPU71は、入力される各ショットVDのそれぞれについて、上述した被写体認識部34の機能による被写体認識処理を行う。
 ステップS103でCPU71は、上述したショット解析部35の機能によるショット解析を行う。つまり各ショットVDのそれぞれについて画像分類を判定する。
 ステップS104でCPU71は、上述した切り替え制御部33の機能による切り替え判定処理を行う。これは、現在、主画像MPの切り替えタイミングであるか否かを判定する処理である。
 切り替え判定処理を図17に示す。
 CPU71はステップS201で現在の主画像MPとされたショットVDについて設定された継続期間長Txと、カウンタTM1で計測されている時間を比較する。
 TM1≧TxでなければCPU71は、現在は切り替えタイミングではないと判定し、ステップS203で切り替えフラグFcをオフとする。
 TM1≧Txであれば、CPU71は現在、切り替えタイミングに至ったと判定し、ステップS202で切り替えフラグFcをオンとする。
 図16のステップS104の処理をこの図17のように行ったら、CPU71はステップS105で切り替えフラグFcを参照して処理を分岐する。
 切り替えフラグFcがオフであれば、ステップS107で現在の主画像MPのショットVDをそのまま主画像MPとして維持する判定とする。実際には、切り替え制御部33による切り替え部40の切り替え制御を行わないということになる。
 ステップS105で切り替えフラグFcがオンであれば、CPU71はステップS106に進み、ショット選択の処理を行う。
 具体的には、主画像選択部31による次の主画像MPとして出力するショットVDの選択、期間設定部32による当該ショットVDの継続期間長Txの設定、切り替え制御部33による切り替え部40の切り替え制御を実行する。
 ステップS106のショット選択処理を図18に示している。
 ステップS301でCPU71は、カウンタTM2と第2の期間長T2を比較する。この期間長T2とは、全体ショットのインターバルとしての比較基準となる固定値である。全体ショットは、イベント全体を写すものであって視聴者にイベント内容を伝えやすい画像であるため、ある程度頻繁に主画像MPとして出力されることが望ましい。換言すれば、あまりに全体ショットのインターバル(全体ショットが出力されていない期間)が長くなることは、動画コンテンツとしては望ましくない。そこで、全体画像のインターバルが長くなりすぎないような判定を行うようにしている。
 例えば期間長T2=30秒などとする。
 一方、カウンタTM2は、主画像MPが全体ショットから他の画像分類のショットVDの切り替えられたときにリセットされるため、全体ショットのインターバルの時間をカウントするものとなっている。
 そこでTM2≧T2であれば、CPU71はステップS301からS305に進み、次の主画像MPとして全体ショットを選択する。
 これは、全体ショットを出力していない時間が例えば30秒を越えたことに応じて、そろそろ全体ショットを挿入するという趣旨の判定となる。
 なお、もし全体ショットが複数ある場合は、そのうちでランダム選択を行うことが考えられる。
 一方、TM2≧T2でなければ、CPU71はステップS301からS302に進み、所定の選択ルールに則った次の主画像MPの選択を行う。
 ステップS302では、次の主画像MPにはふさわしくない除外ショットを判定する。
 例えば「現在の主画像のショットと同一又は同等のショット」を次の主画像MPとして選択しない、という選択ルールがあるものとする。
 この場合の「同一のショット」とは現在主画像MPとされているショットVDを指す。また「同等のショット」とは、例えば現在主画像MPとされているショットVDと同じ被写体のショット、同じアングル及び画角のショット、同じサイズや構図のショットなどを指す。
 このようなショットVDは、切り替えても動画上、変わり映えがしないため、選択の候補から除外する。
 このステップS302で除外ショットと判定されなかったショットVDが、次に主画像MPとして選択される候補のショットとなる。
 CPU71はステップS303で、候補となったショットVDのうちで、全体ショット以外のショットVDが存在するか否かを確認する。
 もし、全体ショットしか候補として残っていなければ、CPU71はステップS305で全体ショットを次の主画像MPとして選択する。
 全体ショット以外のショットVDが存在する場合(候補の全てが全体ショット以外のショットである場合や、候補の一部が全体ショットで全体ショット以外のショットVDも存在する場合)は、CPU71はステップS304に進み、抽選処理で候補の中から次の主画像MPとするショットVDを選択する。
 この場合、全体ショット、主要被写体ショット(主役ショット、話者ショット)、脇役ショットのいずれかで候補となっているショットVDのいずれかが、ランダム抽選により選択される。
 ステップS304又はS305で主画像MPとするショットVDを選択したら、CPU71はステップS306で、その選択したショットVDの画像分類に応じて、主画像MPとしての継続期間長Txを設定する。
 例えば図15の第1例のように、画像分類に応じた継続期間長Txとする。或いは第2例のように、画像分類に応じた時間範囲内で今回の継続期間長Txを設定する。
 ステップS307でCPU71は、カウンタTM1をリセットする。これは次の主画像MPの継続期間長Txの監視のためである(図17のステップS201参照)。
 ステップS308でCPU71は、全体ショットの終了タイミングであるか否かを確認する。つまり、現在が全体ショット以外のショットで、今回、ステップS304で選択されたショットVD、つまり次の主画像MPが、全体ショット以外の画像分類であるか否かを確認する。そしてその結果により処理を分岐する。
 今回が全体ショットから他の画像分類のショットVDに切り替わることになるタイミングである場合、CPU71はステップS309に進んで、カウンタTM2をリセットする。これは全体ショットのインターバルの時間の監視のためである(ステップS301参照)。
 そしてステップS310でCPU71は、切り替え制御部33の機能により切り替え部40の切り替え制御を行う。つまりステップS304又はS305で選択したショットVDが主画像MPとされるように切り替え制御を行う。
 以上の図17,図18の処理を含む図16の処理が、例えばフレームタイミング毎に行われることで、図15に示したようなスイッチングが実現される。
 なお、図示していないが、ユーザ操作があった場合は、それに応じた割込処理として、即時、又は次のフレームのタイミングなどで、切り替え制御部33による切り替え部40の切り替え制御が行われるようにするとよい。この点は次の第2の実施の形態でも同様である。
<5.第2の実施の形態の処理例>
 ところで、上記の第1の実施の形態では、ステップS302の選択ルールがシンプルなものとした例で説明した。第2の実施の形態の処理例は、主役ショット、脇役ショット、全体ショット等の別に応じた、より精細な選択ルールを用いる例とする。
 さらに第2の実施の形態の処理例は、設定した継続期間長Txに基づくタイミングだけでなく、別のタイミングでも切り替えを行う処理例ともする。
 なお、フレームタイミング毎の処理は図16と同様となるため説明を省略する。そして図16のステップS104の切り替え判定処理を図19に示し、またステップS106のショット選択処理を図20に示して説明する。
 図19、図20において図18,図19と同一の処理については同一のステップ番号を付している。
 図19に示す切り替え判定処理では、まずステップS210でCPU71は、カウンタTM1を第1の期間長T1と比較する処理を行う。
 この期間長T1とは、主画像MPの切り替えを行わない最低限の時間として設定されている固定値であるとする。例えばT1=3秒などとする。この期間長T1を用いて、一旦主画像MPとしたものは、最低でも3秒間は切り替えない(主画像MPとして継続させる)という趣旨の処理を行う。
 即ち、ステップS210でTM1≧T1でなければCPU71は、現在の主画像MPが期間長T1だけ継続されていない(例えば主画像MPになって3秒たっていない)として、そのまま主画像MPの状態を継続させるため、ステップS203で切り替えフラグFcをオフとする。これにより、スイッチングは行われない(図16のステップS107参照)
 一方、ステップS210でTM1≧T1であれば、主画像MPの切り替えが許容されることになる。そこでCPU71はステップS211に進む。
 ステップS211でCPU71は、現在、話者ショットではない或るショットVDが主画像MPとされており、他に話者ショットが存在するか否かを確認する。
 現在の主画像MPが話者ショットではなく、他に話者ショットが存在する場合は、CPU71はステップS202に進み切り替えフラグFcをオンとする。
 現在の主画像MPが話者ショットである場合や、現在の主画像MPが話者ショットでなく他にも話者ショットが存在しない場合は、CPU71はステップS211からS212に進む。そしてCPU71は現在主画像MPとされているショットVDの画像分類PDが変化したか否かを確認する。
 例えば話者ショットと判定されたショットVDの被写体が話をやめた場合、或いは主役を捉えていたショットVDにおいて、主役がステージからバックステージに行ってしまった場合などで、「主要被写体ショット」と判定されていたショットVDが主要被写体ショットに該当しなくなる場合がある。
 また、脇役を写してしたショットVDのカメラアングルが変わり、主役を写すことになった場合、画像分類PDが脇役ショットから主役ショットに変化してしまう。
 このような現在の主画像MPについての画像分類の変化が生じた場合、CPU71はステップS202に進み切り替えフラグFcをオンとする。
 現在の主画像MPについての画像分類の変化が生じていなければ、CPU71はステップS212からS213に進み、現在の主画像MPとされたショットVDについて設定された継続期間長Txと、カウンタTM1で計測されている時間を比較する。
 TM1≧TxでなければCPU71は、現在は切り替えタイミングではないと判定し、ステップS203で切り替えフラグFcをオフとする。
 TM1≧Txであれば、CPU71は現在、切り替えタイミングに至ったと判定し、ステップS202で切り替えフラグFcをオンとする。
 このように切り替え判定処理を行うことで、継続期間長Txに応じた切り替えタイミング以外に、ショット内容の変化や話者の変化などの事情に応じても、切り替えタイミングが設定されることになる。
 切り替えフラグFcがオンとされることで、図16の処理はステップS106のショット選択に進む。
 このショット選択の処理としてCPU71は、まず図20のステップS301で、カウンタTM2と期間長T2を比較する。即ち図18と同様に全体ショットのインターバルの時間が長くなりすぎないようにする処理である。
 TM2≧T2であれば、全体ショットが出力されていない期間が長くなった(例えば30秒を越えた)として、CPU71はステップS301からS326に進み、次の主画像MPとして全体ショットを選択する。
 一方、TM2≧T2でなければ、CPU71はステップS301からS321に進み、所定の選択ルールに則った次の主画像MPの選択を行う。
 ステップS321では、次の主画像MPにはふさわしくない除外ショットを判定する。この場合、次の選択ルールを用いる。
・「現在の主画像のショットと同一又は同等のショット」を次の主画像MPとして選択しない
・「現在の主画像が脇役ショットの場合、現在の主画像のショットと同一被写体のショット」を次の主画像MPとして選択しない
・「現在の主画像が全体ショットで他に主役ショットがある場合の脇役ショット」を次の主画像MPとして選択しない
・「現在の主画像が脇役ショットで他に主役ショットがある場合の脇役ショット」を次の主画像MPとして選択しない
・「話者ショットがある場合の話者ショット以外のショット」を次の主画像MPとして選択しない
 ステップS321でCPU71は、現在の各ショットVDにおいてこれらに該当するショットがあれば、それらを次の主画像MPの候補から除外する。除外されなかったショットが、次に主画像MPとして選択される候補のショットとなる。
 CPU71は、除外ショットを選択したら、ステップS322で、候補となったショットVDのうちで、全体ショット以外のショットVDが存在するか否かを確認する。
 もし、全体ショットしか候補として残っていなければ、CPU71はステップS326で全体ショットを次の主画像MPとして選択する。
 全体ショット以外のショットVDが存在する場合(候補の全てが全体ショット以外のショットである場合や、候補の一部が全体ショットで全体ショット以外のショットも存在する場合)は、CPU71はステップS323に進み、まず候補の中に主要被写体ショット(主役ショット又は話者ショット)が存在するか否かを判定する。
 候補の中に主要被写体ショットが存在しなければCPU71はステップS325に進み、抽選処理で候補の中から次の主画像MPとするショットVDを選択する。この場合、全体ショット、脇役ショットのいずれかで候補となっているショットVDのいずれかが、ランダム抽選により選択される。
 候補の中に主役ショットが存在する場合、CPU71はステップS324に進み、候補の中からショット毎の重み付きの選択ルールに則って、次の主画像MPとするショットVDを選択する。
 例えば候補のショットVDの中から、次の選択ルールでショットを選択する。
・話者ショットがある場合、話者ショットを選択する。
・重要被写体ショットと脇役ショットがある場合、重要被写体と脇役の選択が一定割合になるよう確率的に選択する(例えば、5対1)。
・同一の画像分類のショットがある場合、ランダムに選択する。ショットサイズ、被写体人数で優先的に選択しても良い。
・選択可能なショットがない場合、全体ショットを選択する。
 このような重み付き選択ルールによれば、話者ショットが最も優先、主役ショットが2番目に優先されるような重み付け選択が行われることになる。
 ステップS324、S325、又はS326で主画像MPとするショットVDを選択したら、CPU71はステップS306で、その選択したショットVDの画像分類に応じて、主画像MPとしての継続期間長Txを設定する。
 例えば図15の第1例のように、画像分類に応じた継続期間長Txとする。或いは第2例のように、画像分類に応じた時間範囲内で今回の継続期間長Txを設定する。
 そして図18の例と同様にCPU71は、ステップS307でカウンタTM1をリセットし、ステップS308で全体ショットの終了タイミングであるか否かを確認し、今回が全体ショットから他の画像分類のショットVDに切り替わることになるタイミングである場合、CPU71はステップS309に進んで、カウンタTM2をリセットする。
 そしてステップS310でCPU71は、切り替え制御部33の機能により切り替え部40の切り替え制御を行う。つまりステップS324、S325、又はS326で選択したショットVDが主画像MPとされるように切り替え制御を行う。
 以上の図19,図20の処理を含む図16の処理が、例えばフレームタイミング毎に行われることで、図15に示したようなスイッチングが実現される。
 さらにこの第2の実施の形態では、図19のステップS211の判定及び図20のステップS323,S324により、例えばインタビュー中継などで話者が変わってしまった際に、継続期間長Txにかかわらず、迅速に主画像MPが話者ショットに切り替えられる。つまり最重要な被写体を適切なタイミングで主画像MPとすることができる。
 またショットVDの意図(被写体、被写体の状態)が変わってしまった場合(主役がステージ奥に下がってしまった場合など)は、そのままだと意図しない画像内容になってしまうが、図19のステップS212の判定及び図20のステップS321,S323,S324,S325により、継続期間長Txにかかわらず、迅速に主画像MPが他のショットVDに切り替えられる。
 これらの処理によって、よりイベント等の実情に即した内容的な品質のよい画像コンテンツ生成が可能となっている。
 但し、例えば話者が変わるなどがあっても、あまりに短時間で映像を切り替えると見栄えが悪い(放送事故のようになる)ところ、ステップS210の処理により、最低限、期間長T1(例えば3秒)は、現在の主画像MPが継続される。これにより、慌てたスイッチングのような見栄えの悪い画像内容にならない。
 これも画像コンテンツとしての内容的な品質の向上に寄与する。
 なお、ステップS321の選択ルール(候補から除外するショットのルール)を5つ挙げたが、これら全部を用いなくてもよい。また、それら5つの選択ルール以外の除外ショットの選択ルールを用いても良い。
 またステップS324では重み付き選択を行うための選択ルールを4つ挙げたが、これら全部を用いなくてもよい。また、それら4つの選択ルール以外の重み付き選択のための選択ルールを用いても良い。
<6.まとめ及び変形例>
 以上の実施の形態によれば次の効果が得られる。
 実施の形態の画像処理装置は、複数のショット(画像)VDのうちで主画像MPとする一のショットVDを選択する主画像選択部31を備える(図18のS301からS306、図20のS301からS326)。
 また画像処理装置は、主画像選択部31で選択されたショットVD(選択画像)を主画像MPとして継続させる継続期間長Txを、複数の画像分類のうちで選択されたショットVDが該当する画像分類に応じて設定する期間設定部32を備えている(S306)。
 これにより、画像内容、例えば全体ショット、主役や話者などの主要被写体ショット、脇役ショットなどに応じて、主画像MPとされる継続期間長Txを可変設定でき、放送や記録される動画コンテンツとしてその放送等の目的や意図に沿ったものが実現される。
 そしてそのようなスイッチングが自動的に行われることで、ユーザ(オペレータ)の操作負担を生じさせずに、内容的に自然であり高品質で面白みのある放送や動画記録を行うことができる。
 例えば単に話者が写っているショットVDなど所定の評価値により重要度の高いショットを切り換えていくのみでは、同じショットVDが長期間続いてしまったりショットVDが頻繁に切り替わったりして、視聴者に不自然さを感じさせることがある。本実施の形態の場合、原則的には画像分類に応じて継続期間長Txが決められることで、不自然なスイッチングが生じることを減少させることができる。
 なお主画像MPのスイッチングの後段の処理、つまり選択されたショットVDが連続する画像コンテンツとしては、例えばリアルタイム放送画像として出力されることが想定されるが、それに限らない。
 例えばスイッチング後の動画を記録媒体に記録したり、表示装置で表示したり、インターネット等のネットワークを介して所定のサーバにアップロードするなどしてもよい。
 また動画の時間軸に合わせた主画像MPの選択情報をメタデータとして、各ショットVDの画像とともに記録、転送等を行い、後に該メタデータを用いて同様のスイッチングを行うことができるようにしてもよい。
 さらには該メタデータや各ショットVDを編集装置に転送し、再編集として、主画像MPの選択情報としてのメタデータの一部又は全部を更新し、最初のスイッチングを利用しながら異なるスイッチングによる動画コンテンツを生成するようにしてもよい。
 また実施の形態では主に動画を対象として説明したが、主画像MPとする静止画の選択にも本技術は適用できる。例えば複数の静止画をスライドショウとして表示させたり放送出力、アップロード等を行ってもよい。静止画の内容についての画像分類に応じて、主画像MPの継続期間長、つまりその静止画が表示される時間が設定されることで、単純な一定時間毎のスライドショウよりも視聴者の興味を引き立てるスライドショウを実現できる可能性がある。
 また図16の処理例では、ショットVDの選択及び切り替えは切り替えフラグFcがオンとなった時点においてステップS106で行うようにしているが、これにより、切り替えを行う時点の各ショットVDの状況を反映してショットの選択を行うことができる。
 一方で、まだ切り替えフラグFcがオンとなっていない時点で、次に主画像MPとするショットVDを選択しておき、切り替えフラグFcがオンとなった時点で、選択していた次のショットVDに切り替えるようにしてもよい。これによりショット切り替え時の処理負担が軽減される。
 またショットの画像分類は「主要被写体ショット(主役ショット、話者ショット)」「脇役ショット」「全体ショット」の例に限られない。
 主要被写体ショットの細分類としては、例えば話者ショット、第1主役ショット、第2主役ショットなど、より多様にしてもよい。
 同様に、第1脇役ショット、第2脇役ショットなど脇役毎に区別した画像分類を設けてもよい。
 さらに解説画面を指す解説ショット、タイトルショットなどの定型画面を指す定型画面ショット、人のいない風景を指す風景ショット、特殊状況で発生する割込ショットなどの画像分類を設けてもよい。
 実施の形態では、継続期間長Txは、選択画像である一の画像が主画像MPに切り替えられてから、複数の画像のうち、主画像選択部31で次の選択画像とされた他の画像が主画像MPに切り替えられるまで期間の長さとしている。
 このような継続期間長を、主画像MPとされるショットVDが該当する画像分類に応じて決めることで、放送画像等において、主役ショット、話者ショット、脇役ショット、全体ショットなどが、その撮像対象や放送意図などに沿って配分される。これにより不自然であったり退屈になったりしないショットVDのスイッチングが実現される。
 ところで画像分類に応じた継続期間長は、固定でもよいし可変でもよい。
 例えば主要被写体ショットは8秒、脇役ショットは4秒、全体ショットは6秒としたり、或いは主要被写体ショットは8秒、脇役ショットは6秒、全体ショットは4秒とするなど、画像分類に応じて固定値を設定しておくことが考えられる。もちろん、主要被写体ショットでも、話者ショットは8.5秒、主役ショットは7.5秒などと、細かく設定してもよい。
 一方で、脇役ショットは2秒から4秒の範囲、全体ショットは4秒から6秒の範囲、主要被写体ショットは6秒から8秒の範囲などとし、それぞれ範囲内で可変設定されるものとしてもよい。このようにすることで、ショットVDの切り替わりのタイミングが多様化し、視聴者を飽きさせない自動スイッチングを促進できる。
 実施の形態では、ショットVDの画像分類は、そのショットVDの被写体情報に基づいて決定される例を挙げた。例えば全体ショット、話者ショット、主役ショット、脇役ショットなどの画像分類は、ショットVD毎に予め設定されたり、ユーザ操作により分類されてもよいが、被写体情報に基づいて決定されても良い。例えば画像解析により被写体を判定し、該当する画像分類を判定する。
 画像分類を被写体情報に基づいて判定することで、ユーザが操作を行う必要はなく、オペレーションを容易化できる。またショットVDの被写体が変わってしまったような場合も即座に対応し、適切な継続期間長Txを設定できる。
 第1,第2の実施の形態で説明したように、画像処理装置は、期間設定部32で設定された継続期間長Txに応じて、主画像MPを切り替える切り替え制御部33を備える(S310)。
 そして切り替え制御部33は、所定状況の検知により、現在の主画像MPの継続時間が、期間設定部32が設定した継続期間長Txに達していない場合でも、継続期間長Txより短い期間長T1を経過していることを条件として(S210)、主画像MPを他のショットVDへ切り替える制御を行う(S211,S212,S202,S310)。
 このように状況に応じて、主画像MPとして出力されるショットVDを、継続期間長Txに達していない時点でも他のショットVDに切り替える場合を設けることで、緊急的に切り替えた方がよい場合に対応できる。
 但しこのとき、ある程度短い最低限の期間長として設定した期間長T1に達するまでは主画像MPの切り替えは行わない。これにより、或るショットVDが主画像MPとされた後、直ぐに他のショットVDに切り替わってしまうことがないようにする。あまりにも短い時間でショットVDが切り替わることは、視聴者に不自然な感じを与えたり、不都合な画像と思われたりすることがあり、放送画像や動画コンテンツとしての品質を低下させるため、そのようなことが生じないようにしている。
 第2の実施の形態では、主画像MPとされているショットVDの画像分類が、主画像選択部31によって主画像MPとするものとして選択したときの画像分類から変化した場合、継続期間長Txより短い期間長T1を経過していることを条件として、主画像MPを他の画像へ切り替える制御を行う例を挙げた(図19のS212、S202)。
 主画像MPとして選択されているショットVDの画像分類が変わってしまうことがある。例えばステージ上の主役をとらえていたショットVDにおいて主役がステージ裏に下がってしまうなどして主役が存在しなくなった場合などである。このような場合に、そのまま現在の主画像MPを継続してしまうと、放送等では意図しない画像が続いたり、視聴者に不自然な画像と感じられてしまいやすい。そこで、そのような場合、設定した継続期間長に達していない場合でも主画像MPを他のショットVDに切り替えるようにする。これにより自然な主画像出力、適切な主画像出力が行われるようにする。
 但しこの場合、期間長T1に達するまでは主画像MPの切り替えは行わないことで、或るショットVDが主画像MPとされた後、直ぐに他のショットVDに切り替わってしまうことがないようにし、不自然感や品質低下などが生じないようにいている。
 第2の実施の形態では、主画像MPとされていないショットVDのなかで、画像分類が話者ショットとされるショットVDが発生した場合、継続期間長Txより短い期間長T1を経過していることを条件として、主画像MPを、画像分類が話者ショットとされているショットVDに切り替える制御を行う例を挙げた(図19のS211、S202及び図20のS324)。
 例えば話者は主画像MPとして適しているが、或る人(A氏)が話者とされて主画像MPになっているときに、他の人(B氏)が話者となった場合、A氏の画像を主画像MPにしたままであると不自然である。そこで、A氏の画像が設定した継続期間長に達していなくても、B氏の画像に切り替えるようにする。このようにすることで、設定した継続期間長Txに縛られすぎない臨機応変なスイッチングが実現でき、放送や記録する画像コンテンツとしての品質を高めることができる。
 この場合も、期間長T1に達するまでは主画像MPの切り替えは行わない。これにより、或るショットVDが主画像MPとされた後、直ぐに他のショットVDに切り替わってしまうことがないようにし、あまりにも短い時間で画像が切り替わることによる不自然感や品質低下などが生じないようにしている。
 第1,第2の実施の形態では、画像分類が全体ショットとされたショットVDが主画像MPとなっていない期間が期間長T2を経過している場合は、画像分類が全体ショットとされているショットVDを新たな主画像MPとして選択するようにした(図18のS301,S305、図20のS301,S326)
 全体ショットは視聴者にイベントの全体像を伝えることができる。即ち全体ショットを見ることで視聴者はイベントの内容や状況を把握しやすい。
 例えば図10のようなインタビューイベントでは、全体ショットにより、インタビューの状況が伝わりやすく、また図9のような音楽ライブイベントでは、全体ショットにより音楽ライブの状況、演奏状況などが視聴者にわかりやすい。そのため、期間長T2を目安としてある程度の間隔で、全体ショットが主画像MPとされるようにする。これにより視聴者に内容が伝わりやすい画像コンテンツとすることができる。
 なお図18、図20のショット選択の処理では、期間長T2の判定のためのカウンタTM2は、ステップS308で、全体ショットから他のショットに切り替えた時点を起点としてリセットしているため、カウンタTM2の値は、全体ショットが主画像MPでなくなったときからの経過時間となる。
 これに限らず、カウンタTM2の値は全体ショットが最後に主画像MPとなった時点からの経過時間としてもよい。つまり、ステップS308では、全体ショットに切り替わったか否かを判定してステップS309でカウンタTM2をリセットするものとしてもよい。この場合は、カウンタTM2の値から、全体ショットの主画像MPとしての期間(例えば継続期間長Tx)を減算したものが、全体ショットが主画像MPとなっていない期間となるため、それに応じて期間長T2が適切に設定されればよい。
 実施の形態では、少なくとも主要被写体ショット(主要被写体画像)、脇役ショット(副被写体画像)、全体ショット(全体画像)のいずれかを含む画像分類に分類される複数の画像から一の画像を主画像MPとして選択する。この場合に主要被写体ショット、脇役ショット、全体ショットという画像分類に応じて継続期間長Txを設定する例を挙げた。或いは話者ショット、主役ショット、脇役ショット、全体ショットという画像分類に応じて継続期間長Txを設定してもよい。
 イベント等の場合の代表的なショットとしては、全体ショット、主役や話者などの主要被写体ショット、主役や話者以外の脇役ショットに分類される。これらのショットVDをそれぞれ適切な期間長で出力することで、視聴者に興味を継続させる自動スイッチングが実現できる。
 実施の形態では、主要被写体ショットは継続期間長Txが最も長く、全体ショット又は脇役ショットが、継続期間長Txが最も短くなるように、画像分類に応じて継続期間長を設定する例を挙げた。
 例えば継続期間長は、主要被写体ショット>脇役ショット>全体ショットとなるようにする。主要被写体ショットは、視聴者にとって最もアピールしたい画像であるため継続期間長Txを長くする。全体ショット(いわゆる“引き”の画像)は、撮像対象を伝えるために重要であるため、たびたび選択されることが望ましいが、それに対応して、1回の継続期間長Txは短めとすることが望ましい場合が多い。これらの設定によりスイッチングを行うことで、自動制御でありながら、視聴者が飽きにくい画像を出力できるようになる。
 また例えば主要被写体ショット>全体ショット>脇役ショットの順番で継続期間長Txを設定してもよい。例えば主役を際立たせたい動画制作意図の場合は、脇役ショットを短くすることが適しているためである。
 実施の形態では、主画像MPとされているショット以外の複数のショットVDのうちで、所定の選択ルールに応じた処理を用いて、次に主画像MPとするショットVDを選択する例を挙げた(図18のS301からS305、図20のS301からS326)。
 例えばステップS302やステップS321で選択ルールに沿った除外ショットの判定を行い、除外されなかったショットを候補としてステップS312からS316で次の主画像MPとなるショットVDの選択を行う。このようにすることで、全てのショットVDから次のショットVDをランダムに選択するよりも視聴者にとって適切と想定されるスイッチングを実現できる。
 なおステップS304の抽選処理はランダムに選択すると述べたが、あくまで選択ルールに沿って除外ショットが除かれたうえでのランダム抽選であるため、単に全てのショットVDからのランダム選択とは違って、内容的には適した選択であり、かつ固定的ではない選択が行われることになる。
 また図20の例では、ステップS324の重み付き選択ルールも用いることで、より動画制作意図に沿ったショット選択が行われることになる。また、このステップS324でも「同一の画像分類のショットがある場合、ランダムに選択する」などというランダム抽選を一部に用いることで、内容的には適した選択であり、かつ固定的ではない選択が行われることにもなる。
 実施の形態の選択ルールに応じた処理の1つは、主画像MPとされているショットVDが主要被写体ショットではないときに、他の主要被写体ショットとしてのショットVDがある場合は、それを次の主画像MPの候補とする処理とした。
 現在の主画像MPが脇役ショットや全体ショットであって主要被写体ショットでない場合には、他に主要被写体ショットを主画像MPとしても視聴者にとって違和感のない選択となるため、主画像MPの選択の候補に残すことが適切となる。従って次に主画像MPとされることが、動画構成上、好適とされるショットVDが選択されるようになる。
 具体的には、現在の主画像MPが脇役ショットや全体ショットである場合の他の主要被写体ショットは、図20のステップS321で選択対象からの除外ショットとはされないようにしている。「現在の主画像が全体ショットで他に主役ショットがある場合の脇役ショット」や「現在の主画像が脇役ショットで他に主役ショットがある場合の脇役ショット」に該当しないためである。
 この場合の主要被写体ショットは、ステップS324で次の主画像MPとして選択されやすいため、主要被写体ショットが他のショットに比べてなるべく頻繁に選ばれる状態とすることができる。
 実施の形態の選択ルールに応じた処理の1つは、主画像MPとされているショットVDが主要被写体ショットであるときに、他の主要被写体ショットとしてのショットVDがある場合は、それを次の主画像MPの候補とする処理とした。
 現在のショットVDが主要被写体ショットであっても、他に主要被写体ショットがある場合、それを主画像MPとしても視聴者にとって違和感のない選択となるため、主画像MPの選択の候補に残すことが適切となる。
 具体的には図20のステップS321で選択候補からの除外ショットとはされないようにしている。つまり当該他の主要被写体ショットは「現在の主画像のショットと同一又は同等のショット」や「現在の主画像のショットと同一被写体のショット」や「話者ショットがある場合の話者ショット以外のショット」に該当しないためである。
 この場合の他の主要被写体ショットは、ステップS324で次のショットとして選択されやすくなるため、主要被写体ショットが比較的頻繁に選ばれる状態とすることができる。特にこの場合、複数の主役がいる場合であったり、話者が変わるような場合にも有効なスイッチングのルールとなる。
 実施の形態の選択ルールに応じた処理の1つは、現在主画像MPとされているショットVDと同一の画像分類のショットVDを次の主画像MPの候補から除外する処理であるとした。
 具体的には図20のステップS321で「現在の主画像のショットと同一又は同等のショット」や「現在の主画像が脇役ショットの場合、現在の主画像のショットと同一被写体のショット」は、選択対象から除外する。これにより、同一の被写体が続いて視聴者を飽きさせやすくするような画像出力を防止できる。
 実施の形態の選択ルールに応じた処理の1つは、現在主画像MPとされているショットVDの被写体と同一の副被写体(例えば脇役)が含まれるショットVDを次の主画像MPの候補から除外する処理であるとした。
 具体的には図20のステップS321で「現在の主画像のショットと同一又は同等のショット」や「現在の主画像が脇役ショットの場合、現在の主画像のショットと同一被写体のショット」として、脇役が写されている画像を、次の主画像MPの候補から除外する。
 例えば現在の主画像MPが全体ショットであるときの脇役ショットや、現在の主画像MPが脇役ショットであるときの、その脇役を写した別の脇役ショットは、次の主画像MPとはしないようにする。これにより、同一の脇役被写体が続いてしまうことを防止する。これは、視聴者が当該脇役を主役と誤認しやすい画像となってしまうことを避ける意味がある。
 実施の形態の選択ルールに応じた処理の1つは、現在主画像MPとされているショットVDが全体ショットであり、他の画像として主要被写体画像があるときに、副被写体画像を次の主画像MPの候補から除外する処理であるとした。つまり全体ショットを表示した次のタイミングでなるべく脇役が表示されないようにする。
 具体的には図20のステップS321で「現在の主画像が全体ショットで他に主役ショットがある場合の脇役ショット」が次の主画像MPの候補から除外される。これにより全体ショットの次に脇役ショットに切り替えることがあまり生じないようにする。つまり主要被写体ショットが存在しないときのみ脇役ショットに切り替えられるようにする。
 視聴者は、全体ショットの次に写される被写体を主役と認識し易い傾向がある。そこで、全体ショットの次に脇役ショットが出力されて、脇役が主役と誤認されるような状況が起こらないようにする。
 実施の形態では、選択ルールに応じた処理により、全体ショット以外で次に主画像MPとする候補となるショットVDが存在しなくなった場合は、全体ショットを次の主画像MPとして選択することとした(図18のS303、S305、図20のS322,S326)。
 例えばステップS302やステップS321の除外ショットの選択が行われた結果としては、その選択ルールにもよるが、全てのショットVDが候補とならなかった場合や、全体ショットを除いた全てのショットVDが候補とならなかった場合が想定される。そのような場合は全体ショットを次の主画像MPとして選択する。全体ショットは、最も視聴者に誤認や混乱を与えないショットであるとともに、なるべく挿入したいショットであるためである。
 そしてこの処理により、ステップS312やステップS321の除外ショット選択を行うことでショット切り替えができないような自体に陥ることを回避できる。つまり除外ショット選択を行うことによる適切な主画像選択の実現という効果を得つつ、除外ショット判定に起因する主画像選択不能といった事態を生じさせないようにすることができる。
 第2の実施の形態では、次に主画像MPとする候補としたショットのうちで、重み付けを加えた選択処理で、次の主画像MPとするショットを選択する例を挙げた。
 例えばステップS324では、複数のショットVDが次の主画像MPとしての候補となったときに、候補のショットVDの画像分類に応じて重み付けを与えた選択ルールに基づく処理で次の主画像MPを選択するものとした。例えば話者ショット、主役ショット、脇役ショット、全体ショットの別による重み付けを行う。
 これにより例えば話者ショットや主役ショットが選択されやすくする。
 さらに主役ショットと話者ショットの間も優先度が異なる。話者ショットがあれば話者ショット優先される。主役がいても他に話している人がいる場合は、話者の方がイベント内容として重要なためである。
 これらの重み付けにより、制作者がなるべく見せたい想定するショットが選択されやすくなり、制作意図に合致するスイッチングが行われる。
 またステップS324ではランダム性も加味している。単に主役ショットがあれば主役ショットを選択するというような単純な処理ではなく、脇役ショットや全体ショットが選択される可能性も残している。これにより、より多様な選択順序の自動スイッチングが実現され、視聴者を飽きさせにくい画像を出力できる。
 重み付けは、画像分類に応じたものに限られない。例えば画像内容として、被写体の人数、被写体サイズ(アップ画像か全身画像かなど)、画像の明るさ、色の傾向など、多様な要素に応じた重み付けが行われるようにすることが考えられる。
 また重みの付け方は一定ではなく、時点毎、或いはユーザ操作等に応じて変化されるようにしてもよい。
 第2の実施の形態では、次に主画像MPとする候補としたショットVDのうちに主要被写体ショットが存在しない場合は、候補としたショットに対するランダムな抽選処理で次の主画像MPを選択する例とした。
 即ちステップS321の除外ショットの選択が行われた結果として、主要被写体ショットが候補に含まれなかった場合、ステップS325ではランダムな抽選処理を行う。この場合、ランダム選択にすることで多様な選択順序の自動スイッチングが実現され、視聴者を飽きさせにくい画像を出力できる。また主要被写体ショットが存在しないことで、ランダム選択であっても画像制作意図にそぐわないものにはなりにくい。
 そして以上の実施の形態によれば、コンテンツにあった「切り替えタイミングの生成」やコンテンツにあった「出力画像の選択」を行うことで、より品質の高い画像コンテンツの制作が可能になる。
 実施の形態の処理の変形例はさらに多様に考えられる。
 選択ルールや画像分類は多様に考えられるし、判定可能な選択ルールや判定する画像分類のそれぞれをユーザがオン/オフできるようにしてもよい。
 例えば話者ショットの検出をオフとしたり、話者ショットに関する選択ルールをオフにすることを可能にしてもよい。
 また例えば主役ショットの検出をオフとしたり、主役ショットに関する選択ルールをオフにすることを可能にしてもよい。
 また例えば主要被写体ショットの検出をオフとしたり、主要被写体ショットに関する選択ルールをオフにすることを可能にしてもよい。
 また例えば脇役ショットの検出をオフとしたり、脇役ショットに関する選択ルールをオフにすることを可能にしてもよい。
 ユーザがこれらの選択をできるようにすることで、そのときの動画コンテンツ制作意図に沿った自動スイッチングが行われるように調整できる。
 また、画面分割して複数のショットVDを主画像MPとする場合を加えても良いし、その場合に主画像MPとして選択する複数のショットVDを実施の形態の選択ルールに沿って選択することも考えられる。
 例えば2つのショットを画面分割して表示させる場合、一方の主画像MPを図18や図20の処理で選択し、他方の主画像MPを他のショットからランダムに選択したり、両方の主画像MPを図18や図20の処理で選択することが考えられる。
 実施の形態のプログラムは、図16,図17,図18の処理、又は図16,図19,図20の処理、或いはこれらの変形例に相当する処理を、例えばCPU、DSP等、或いはこれらを含むデバイスに実行させるプログラムである。
 即ち実施の形態のプログラムは、複数のショットVDのうちで主画像MPとする一のショットVDを選択する処理と、選択されたショットVDを主画像MPとして継続させる継続期間長Txを、複数の画像分類のうちで該選択されたショットVDが該当する画像分類に応じて設定する処理とを情報処理装置に実行させるプログラムである。
 このようなプログラムにより、上述した画像処理装置を、例えば携帯端末2、スイッチャー3、クラウドスイッチャー4、コンピュータ装置5、撮像装置1などの機器において実現できる。
 このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。
 あるいはまた、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magnet optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
 またこのようなプログラムによれば、実施の形態の画像処理装置の広範な提供に適している。例えばパーソナルコンピュータ、携帯型情報処理装置、携帯電話機、ゲーム機器、ビデオ機器、PDA(Personal Digital Assistant)等にプログラムをダウンロードすることで、当該パーソナルコンピュータ等を、本開示の画像処理装置として機能させることができる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 なお本技術は以下のような構成も採ることができる。
 (1)
 複数の画像のうちで主画像とする一の画像を選択する主画像選択部と、
 前記主画像選択部で選択された選択画像を主画像として継続させる継続期間長を、複数の画像分類のうちで前記選択画像が該当する画像分類に応じて設定する期間設定部と、を備えた
 画像処理装置。
 (2)
 前記継続期間長は、前記選択画像が主画像に切り替えられてから、前記複数の画像のうち、前記主画像選択部で前記選択画像の次に選択された他の画像が主画像に切り替えられるまでの期間の長さである
 上記(1)に記載の画像処理装置。
 (3)
 前記画像分類は、画像の被写体情報に基づいて決定される
 上記(1)又は(2)に記載の画像処理装置。
 (4)
 前記継続期間長に達した場合、又は、所定状況を検知し、且つ、現在の主画像の継続期間が前記継続期間長よりも短い第1の期間長を経過した場合に、主画像を前記選択画像から前記複数の画像のうち他の画像へと切り替える制御を行う切り替え制御部を備える
 上記(1)から(3)のいずれかに記載の画像処理装置。
 (5)
 前記切り替え制御部は、主画像とされている画像の画像分類が、前記主画像選択部によって主画像とするものとして選択したときの画像分類から変化した場合、前記期間設定部が設定する継続期間長より短い第1の期間長を経過していることを条件として、主画像を他の画像へ切り替える制御を行う
 上記(4)に記載の画像処理装置。
 (6)
 前記切り替え制御部は、主画像とされていない画像のなかで、画像分類が主要被写体画像とされる画像が発生した場合、前記期間設定部が設定する継続期間長より短い第1の期間長を経過していることを条件として、主画像を、主要被写体画像であることを示す画像分類の画像へ切り替える制御を行う
 上記(4)又は(5)に記載の画像処理装置。
 (7)
 前記主画像選択部は、画像分類が全体画像とされた画像が主画像となっていない期間が第2の期間長を経過している場合は、前記複数の画像のうち全体画像であることを示す画像分類の画像を新たな主画像として選択する
 上記(1)から(6)のいずれかに記載の画像処理装置。
 (8)
 前記画像分類は、少なくとも主要被写体画像、副被写体画像、全体画像のいずれか1つを含む画像分類である
 上記(1)から(6)のいずれかに記載の画像処理装置。
 (9)
 前記期間設定部は、主要被写体画像が、継続期間長が最も長く、全体画像又は副被写体画像が、継続期間長が最も短くなるように、画像分類に応じて継続期間長を設定する
 上記(8)に記載の画像処理装置。
 (10)
 前記主画像選択部は、主画像とされている画像以外の複数の画像のうちで、所定の選択ルールに応じた処理を用いて、次に主画像とする画像を選択する
 上記(1)から(9)のいずれかに記載の画像処理装置。
 (11)
 前記選択ルールに応じた処理の1つは、
 主画像とされている画像が主要被写体画像ではなく、且つ、他の主要被写体画像としての画像がある場合は、それを次の主画像の候補とする処理である
 上記(10)に記載の画像処理装置。
 (12)
 前記選択ルールに応じた処理の1つは、
 主画像とされている画像が主要被写体画像であり、且つ、他の主要被写体画像としての画像がある場合は、それを次の主画像の候補とする処理である
 上記(10)又は(11)に記載の画像処理装置。
 (13)
 前記選択ルールに応じた処理の1つは、
 主画像とされている画像と同一の画像分類の画像を次の主画像の候補から除外する処理である
 上記(10)から(12)のいずれかに記載の画像処理装置。
 (14)
 前記選択ルールに応じた処理の1つは、
 主画像とされている画像の被写体と同一の副被写体が含まれる画像を次の主画像の候補から除外する処理である
 上記(10)から(13)のいずれかに記載の画像処理装置。
 (15)
 前記選択ルールに応じた処理の1つは、
 主画像とされている画像が全体画像であり、他の画像として主要被写体画像があるときに、副被写体画像を次の主画像の候補から除外する処理である
 上記(10)から(14)のいずれかに記載の画像処理装置。
 (16)
 前記主画像選択部は、前記選択ルールに応じた処理により、全体画像以外で次に主画像とする画像の候補となる画像が存在しなくなった場合は、全体画像を次の主画像として選択する
 上記(10)から(15)のいずれかに記載の画像処理装置。
 (17)
 前記主画像選択部は、次に主画像とする候補とした画像のうちで、画像毎に重み付けを加えた選択処理で、次の主画像とする画像を選択する
 上記(1)から(16)のいずれかに記載の画像処理装置。
 (18)
 前記主画像選択部は、次に主画像とする候補とした画像のうちに主要被写体画像が存在しない場合は、候補とした画像に対するランダムな抽選処理で次の主画像を選択する
 上記(1)から(17)のいずれかに記載の画像処理装置。
 (19)
 画像処理装置が行う画像処理方法として、
 複数の画像のうちで主画像とする一の画像を選択し、
 選択された選択画像を主画像として継続させる継続期間長を、複数の画像分類のうちで前記選択画像が該当する画像分類に応じて設定する
 画像処理方法。
 (20)
 複数の画像のうちで主画像とする一の画像を選択する処理と、
 選択された選択画像を主画像として継続させる継続期間長を、複数の画像分類のうちで前記選択画像が該当する画像分類に応じて設定する処理と、
 を情報処理装置に実行させるプログラム。
 1 撮像装置、2 携帯端末、3 スイッチャー、4 クラウドスイッチャー、5 コンピュータ装置、6 ネットワーク、11 レンズ系、12 撮像素子部、13 カメラ信号処理部、14 記録制御部、15 表示部、16 出力部、17 操作部、18 カメラ制御部、19 メモリ部、22 ドライバ部、31 主画像選択部、32 期間設定部、33 切り替え制御部、34 被写体認識部、35 ショット解析部、36 クロップ処理部、37 モニタ表示制御部、40 切り替え部、70 情報処理装置、71 CPU、72 ROM、73 RAM、74 バス、75 入出力インタフェース、76 入力部、77 表示部、78 音声出力部、79 記憶部、80 通信部、81 リムーバブル記録媒体、82 ドライブ、T1 期間長、T2 期間長、MP 主画像、VD,VD1、VD2,VD3・・・VDn ショット、PD 画像分類

Claims (20)

  1.  複数の画像のうちで主画像とする一の画像を選択する主画像選択部と、
     前記主画像選択部で選択された選択画像を主画像として継続させる継続期間長を、複数の画像分類のうちで前記選択画像が該当する画像分類に応じて設定する期間設定部と、を備えた
     画像処理装置。
  2.  前記継続期間長は、前記選択画像が主画像に切り替えられてから、前記複数の画像のうち、前記主画像選択部で前記選択画像の次に選択された他の画像が主画像に切り替えられるまでの期間の長さである
     請求項1に記載の画像処理装置。
  3.  前記画像分類は、画像の被写体情報に基づいて決定される
     請求項1に記載の画像処理装置。
  4.  前記継続期間長に達した場合、又は、所定状況を検知し、且つ、現在の主画像の継続期間が前記継続期間長よりも短い第1の期間長を経過した場合に、主画像を前記選択画像から前記複数の画像のうち他の画像へと切り替える制御を行う切り替え制御部を備える
     請求項1に記載の画像処理装置。
  5.  前記切り替え制御部は、主画像とされている画像の画像分類が、前記主画像選択部によって主画像とするものとして選択したときの画像分類から変化した場合、前記期間設定部が設定する継続期間長より短い第1の期間長を経過していることを条件として、主画像を他の画像へ切り替える制御を行う
     請求項4に記載の画像処理装置。
  6.  前記切り替え制御部は、主画像とされていない画像のなかで、画像分類が主要被写体画像とされる画像が発生した場合、前記期間設定部が設定する継続期間長より短い第1の期間長を経過していることを条件として、主画像を、主要被写体画像であることを示す画像分類の画像へ切り替える制御を行う
     請求項4に記載の画像処理装置。
  7.  前記主画像選択部は、画像分類が全体画像とされた画像が主画像となっていない期間が第2の期間長を経過している場合は、前記複数の画像のうち全体画像であることを示す画像分類の画像を新たな主画像として選択する
     請求項1に記載の画像処理装置。
  8.  前記画像分類は、少なくとも主要被写体画像、副被写体画像、全体画像のいずれか1つを含む画像分類である
     請求項1に記載の画像処理装置。
  9.  前記期間設定部は、主要被写体画像が、継続期間長が最も長く、全体画像又は副被写体画像が、継続期間長が最も短くなるように、画像分類に応じて継続期間長を設定する
     請求項8に記載の画像処理装置。
  10.  前記主画像選択部は、主画像とされている画像以外の複数の画像のうちで、所定の選択ルールに応じた処理を用いて、次に主画像とする画像を選択する
     請求項1に記載の画像処理装置。
  11.  前記選択ルールに応じた処理の1つは、
     主画像とされている画像が主要被写体画像ではなく、且つ、他の主要被写体画像としての画像がある場合は、それを次の主画像の候補とする処理である
     請求項10に記載の画像処理装置。
  12.  前記選択ルールに応じた処理の1つは、
     主画像とされている画像が主要被写体画像であり、且つ、他の主要被写体画像としての画像がある場合は、それを次の主画像の候補とする処理である
     請求項10に記載の画像処理装置。
  13.  前記選択ルールに応じた処理の1つは、
     主画像とされている画像と同一の画像分類の画像を次の主画像の候補から除外する処理である
     請求項10に記載の画像処理装置。
  14.  前記選択ルールに応じた処理の1つは、
     主画像とされている画像の被写体と同一の副被写体が含まれる画像を次の主画像の候補から除外する処理である
     請求項10に記載の画像処理装置。
  15.  前記選択ルールに応じた処理の1つは、
     主画像とされている画像が全体画像であり、且つ、前記複数の画像のうちの他の画像として主要被写体画像があるときに、副被写体画像を次の主画像の候補から除外する処理である
     請求項10に記載の画像処理装置。
  16.  前記主画像選択部は、前記選択ルールに応じた処理により、全体画像以外で次に主画像とする画像の候補となる画像が存在しなくなった場合は、全体画像を次の主画像として選択する
     請求項10に記載の画像処理装置。
  17.  前記主画像選択部は、次に主画像とする候補とした画像のうちで、画像毎に重み付けを加えた選択処理で、次の主画像とする画像を選択する
     請求項1に記載の画像処理装置。
  18.  前記主画像選択部は、次に主画像とする候補とした画像のうちに主要被写体画像が存在しない場合は、候補とした画像に対するランダムな抽選処理で次の主画像を選択する
     請求項1に記載の画像処理装置。
  19.  画像処理装置が行う画像処理方法として、
     複数の画像のうちで主画像とする一の画像を選択し、
     選択された選択画像を主画像として継続させる継続期間長を、複数の画像分類のうちで前記選択画像が該当する画像分類に応じて設定する
     画像処理方法。
  20.  複数の画像のうちで主画像とする一の画像を選択する処理と、
     選択された選択画像を主画像として継続させる継続期間長を、複数の画像分類のうちで前記選択画像が該当する画像分類に応じて設定する処理と、
     を情報処理装置に実行させるプログラム。
PCT/JP2020/004030 2019-03-20 2020-02-04 画像処理装置、画像処理方法、プログラム WO2020189057A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021506221A JPWO2020189057A1 (ja) 2019-03-20 2020-02-04
US17/438,651 US11800047B2 (en) 2019-03-20 2020-02-04 Image processing device, image processing method, and program
EP20774738.7A EP3944610A4 (en) 2019-03-20 2020-02-04 IMAGE PROCESSING DEVICE, IMAGE PROCESSING METHOD, AND PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-052848 2019-03-20
JP2019052848 2019-03-20

Publications (1)

Publication Number Publication Date
WO2020189057A1 true WO2020189057A1 (ja) 2020-09-24

Family

ID=72520693

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/004030 WO2020189057A1 (ja) 2019-03-20 2020-02-04 画像処理装置、画像処理方法、プログラム

Country Status (4)

Country Link
US (1) US11800047B2 (ja)
EP (1) EP3944610A4 (ja)
JP (1) JPWO2020189057A1 (ja)
WO (1) WO2020189057A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6908906B1 (ja) * 2020-12-09 2021-07-28 日本テレビ放送網株式会社 自動スイッチング装置、自動スイッチング方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003304418A (ja) * 2002-04-08 2003-10-24 Nippon Telegr & Teleph Corp <Ntt> 副映像割り込み装置および方法
JP2014030069A (ja) * 2012-07-31 2014-02-13 Casio Comput Co Ltd 画像選択装置、画像選択方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007158860A (ja) 2005-12-06 2007-06-21 Canon Inc 撮影システム、撮影装置、画像切替装置、およびデータ保持装置
US20080019661A1 (en) * 2006-07-18 2008-01-24 Pere Obrador Producing output video from multiple media sources including multiple video sources
JP4811433B2 (ja) * 2007-09-05 2011-11-09 ソニー株式会社 画像選択装置、画像選択方法、およびプログラム
US8917943B2 (en) * 2012-05-11 2014-12-23 Intellectual Ventures Fund 83 Llc Determining image-based product from digital image collection
JP5942978B2 (ja) * 2013-12-26 2016-06-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003304418A (ja) * 2002-04-08 2003-10-24 Nippon Telegr & Teleph Corp <Ntt> 副映像割り込み装置および方法
JP2014030069A (ja) * 2012-07-31 2014-02-13 Casio Comput Co Ltd 画像選択装置、画像選択方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Video conferencing System Based on TV Programs", JOHO SHORI GAKKAI RONBUNSHI - TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN., vol. 37, no. 11, 15 November 1996 (1996-11-15), JP, pages 2095 - 2104, XP009529934, ISSN: 0387-5806 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6908906B1 (ja) * 2020-12-09 2021-07-28 日本テレビ放送網株式会社 自動スイッチング装置、自動スイッチング方法及びプログラム
JP2022091640A (ja) * 2020-12-09 2022-06-21 日本テレビ放送網株式会社 自動スイッチング装置、自動スイッチング方法及びプログラム

Also Published As

Publication number Publication date
US20220191406A1 (en) 2022-06-16
US11800047B2 (en) 2023-10-24
JPWO2020189057A1 (ja) 2020-09-24
EP3944610A1 (en) 2022-01-26
EP3944610A4 (en) 2022-04-20

Similar Documents

Publication Publication Date Title
US11696016B2 (en) Imaging apparatus and display control method thereof
US8848097B2 (en) Image processing apparatus, and method, for providing special effect
US8780214B2 (en) Imaging apparatus using shorter and larger capturing intervals during continuous shooting function
WO2012138620A2 (en) Digital camera having variable duration burst mode
JP5253725B2 (ja) 動画撮影機能付き移動通信端末機及びその動作方法
JP2011010276A (ja) 画像再生装置及び撮像装置
JP7414060B2 (ja) 画像処理装置、画像処理方法、プログラム
WO2020189057A1 (ja) 画像処理装置、画像処理方法、プログラム
JP6777141B2 (ja) 表示制御装置、表示制御方法、及び、プログラム
JP6957131B2 (ja) 情報端末装置、撮像装置、画像情報処理システム及び画像情報処理方法
US9615027B2 (en) Image processing apparatus that displays an indicator image for performing predetermined processing on image data, image processing method, and computer readable storage medium
US20120219264A1 (en) Image processing device
WO2020195198A1 (ja) 画像処理装置、画像処理方法、プログラム、撮像装置
JP5249078B2 (ja) 撮像装置
JP7344711B2 (ja) システム、システムの制御方法、プログラム
JP6679333B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP2010034933A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2020120210A (ja) 画像処理装置
JP5715179B2 (ja) 再生表示装置および再生表示方法
JP4978271B2 (ja) 撮像装置、撮像画像の表示方法およびプログラム
JP2016058831A (ja) 撮像装置、その制御方法、及びプログラム
KR20100101912A (ko) 동영상 파일을 연속 재생하는 방법 및 장치
JP2010273036A (ja) 画像再生装置
JP2007251626A (ja) カメラ
JP2017046320A (ja) 撮像装置、その制御方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20774738

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021506221

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020774738

Country of ref document: EP

Effective date: 20211020