WO2024095366A1 - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
WO2024095366A1
WO2024095366A1 PCT/JP2022/040898 JP2022040898W WO2024095366A1 WO 2024095366 A1 WO2024095366 A1 WO 2024095366A1 JP 2022040898 W JP2022040898 W JP 2022040898W WO 2024095366 A1 WO2024095366 A1 WO 2024095366A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
processing device
image processing
video
images
Prior art date
Application number
PCT/JP2022/040898
Other languages
English (en)
French (fr)
Inventor
智一 掛
章男 大場
大地 小野
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to PCT/JP2022/040898 priority Critical patent/WO2024095366A1/ja
Publication of WO2024095366A1 publication Critical patent/WO2024095366A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details

Definitions

  • the present invention relates to an image processing device, an image processing method, and a program for analyzing moving images.
  • verification may be performed to check whether the content of the moving images displayed as a result of processing is as expected and whether there are any defects such as image distortion. By verifying the content of the moving images, it is possible to discover image defects or displays that are different from what was expected.
  • Verifying video by hand is time-consuming and may lack accuracy.
  • verifying video by performing analysis on each individual frame image that makes up the video generally increases the amount of calculation required by the image processing device and tends to take time.
  • the present invention was made in consideration of the above situation, and one of its objectives is to provide an image processing device, an image processing method, and a program that can verify the content of moving images with relatively simple processing.
  • An image processing device is an image processing device that includes one or more processors, and the one or more processors generate at least one summary image by extracting partial images at different positions from each of a plurality of frame images that constitute a video to be verified, and verify the content of the video based on the summary image.
  • An image processing method is an image processing method that generates at least one summary image by extracting partial images at different positions from each of a plurality of frame images that constitute a video to be verified, and verifies the content of the video based on the summary image.
  • a program according to one aspect of the present invention is a program for causing a computer to execute a process of generating at least one summary image by extracting partial images at different positions from each of a plurality of frame images constituting a video to be verified, and verifying the content of the video based on the summary image.
  • This program may be provided by being stored on a computer-readable, non-transitory information storage medium.
  • FIG. 13 is a diagram showing an example of a configuration of a summary image.
  • FIG. 13 is a diagram showing an example of a summary image generated based on a target video sequence including a scene transition.
  • FIG. 13 is a diagram showing an example of a summary image generated based on a target video sequence including an abnormal display.
  • FIG. 13 is a diagram showing an example of a summary image generated based on a target video sequence including an object that moves over time.
  • FIG. 13 is a diagram showing another example of a summary image generated based on a target video sequence including an abnormal display.
  • FIG. 1 is a block diagram showing the configuration of an image processing device 10 according to one embodiment of the present invention.
  • the image processing device 10 is a personal computer, a server computer, or the like, and as shown in the figure, is configured to include a control unit 11, a storage unit 12, and an interface unit 13.
  • the image processing device 10 is also connected to a display device 14 and an operation device 15.
  • the control unit 11 includes at least one processor such as a CPU, and executes programs stored in the storage unit 12 to perform various information processing. Specific examples of processing executed by the control unit 11 in this embodiment will be described later.
  • the storage unit 12 includes at least one memory device such as a RAM, and stores the programs executed by the control unit 11 and the data processed by the programs.
  • the interface unit 13 is an interface for data communication between the display device 14 and the operation device 15.
  • the image processing device 10 is connected to each of the display device 14 and the operation device 15 via the interface unit 13, either wired or wirelessly.
  • the interface unit 13 includes a multimedia interface for transmitting a video signal supplied by the image processing device 10 to the display device 14. It also includes a data communication interface for receiving a signal indicating the operation content performed by the user on the operation device 15.
  • the display device 14 displays on a screen an image corresponding to a video signal supplied from the image processing device 10.
  • the operation device 15 is, for example, a keyboard or a mouse, and accepts operation input from a user.
  • the operation device 15 is connected to the image processing device 10 by wire or wirelessly, and transmits an operation signal indicating the content of the operation input accepted from the user to the image processing device 10.
  • the image processing device 10 is functionally configured to include a target video image acquisition unit 21, a summary image generation unit 22, and a verification unit 23. These functions are realized by the control unit 11 operating in accordance with one or more programs stored in the storage unit 12. These programs may be provided to the image processing device 10 via a communication network such as the Internet, or may be provided by being stored on a computer-readable information storage medium such as an optical disc.
  • the target video acquisition unit 21 acquires a video to be verified by the image processing device 10 according to this embodiment (hereinafter referred to as the target video M).
  • the target video acquisition unit 21 may acquire a video generated by another image generating device and recorded in advance on an information storage medium as the target video M, or may acquire a video drawn by the image processing device 10 itself and displayed on the screen of the display device 14 as the target video M.
  • the summary image generating unit 22 generates at least one summary image S representing the contents of the target video M acquired by the target video acquiring unit 21, based on the target video M.
  • This summary image S is a still image, and is an image generated based on a plurality of frame images F that make up the target video M. Furthermore, it is assumed here that the summary image S is an image of the same size and shape as each frame image F.
  • the summary image generation unit 22 extracts a partial image P from each of the multiple frame images F that make up the target video M, and generates a summary image S by arranging the extracted partial images P side by side.
  • the partial images P extracted from each frame image are images of different areas, and the extracted partial images P are arranged in a position in the summary image S that corresponds to their own position in the original frame image F. In this way, the summary image S becomes a single still image that summarizes the content of the target video M that is displayed over a certain period of time.
  • the summary image generator 22 extracts the top row of pixels aligned horizontally from frame image F(1) as partial image P(1) and sets this partial image P(1) as the top row of pixels of summary image S. It then extracts the second row of pixels from the top of frame image F(2) as partial image P(2) and sets this as the second row of pixels from the top of summary image S. Similarly, it extracts the nth row of pixels from the top of frame image F(n) as partial image P(n) and arranges it as the nth row of pixels from the top of summary image S. This process is repeated for 720 frame images F to generate a summary image S with a vertical length of 720 pixels.
  • Figure 3 shows a schematic diagram of the configuration of such a summary image S.
  • This summary image S contains partial images P of the same size extracted from each of the 720 frame images F.
  • Each partial image P is extracted from a different position in the original frame image F and is arranged in the same position in the summary image S as it was in the original frame image F. Furthermore, each partial image P is arranged side by side in the same order as the display order of the original frame images F. Therefore, partial images P extracted from temporally adjacent frame images F are arranged spatially adjacent to each other in the summary image S.
  • This kind of summary image S is similar to an image known as a slit scan, and is an image that reflects the content of the temporal changes in the target moving image M.
  • the verification unit 23 verifies the contents of the target video M using the summary image S generated by the summary image generation unit 22.
  • This verification includes detection of abnormal displays (i.e., problems with the display content) contained in the target video M.
  • the verification unit 23 can detect the possibility that the target video M contains abnormal displays.
  • An abnormal display here is a display of content that differs from the originally intended normal display, such as video distortion or screen transitions at unexpected times.
  • Flickering refers to an event in which a relatively wide area of the screen displays a different or unexpected display, such as the entire screen blinking or a wide area of the screen momentarily displaying a different color than before, while the target video M is being displayed.
  • the target video M is assumed to include a scene transition in which the display content of the entire screen is switched to different content, and information on the timing of when such a scene transition occurs is assumed to be stored in advance in the image processing device 10.
  • the partial images P are assumed to be rows of pixels extending horizontally. Therefore, the boundary between adjacent partial images P is a straight line extending horizontally.
  • the partial image P extracted from the frame image F immediately before the timing at which a scene transition occurs and the partial image P extracted from the frame image F immediately after are likely to have pixel values (such as brightness values or density values) that are significantly different from each other. Therefore, linear edges appear in the summary image S at positions where these partial images P are adjacent. In this way, by detecting lines in the summary image S that are oriented along the boundary between adjacent partial images P, the verification unit 23 can identify the timing at which the content of the entire screen changes suddenly due to a scene transition or the like while the target video M is being displayed.
  • FIG. 4 shows an example of such a summary image S.
  • This figure shows a summary image S generated based on a target video image M displayed during execution of a game program, and shows an example in which a menu screen with a black background is displayed at time t1 during the display of the target video image M, and the display of the menu screen ends at time t2 and the original play screen is displayed.
  • Boundaries L1 and L2 appear in the summary image S at positions corresponding to the scene transitions at times t1 and t2.
  • the pixel row above the boundary line L1 is extracted from a frame image F that was displayed before time t1
  • the pixel row in the range from boundary line L1 to L2 is extracted from a frame image F that was displayed after time t1 and before time t2 (i.e., representing a menu screen)
  • the pixel row below the boundary line L2 is extracted from a frame image F that was displayed after time t2. Note that in the example of this figure, for the sake of convenience of explanation, it is assumed that there is no change in the display content of the target video image M except for the timing of the scene transitions at times t1 and t2.
  • the verification unit 23 performs image processing on the summary image S to detect straight lines extending in the horizontal direction (i.e., lines parallel to the boundary between the partial images P). Detection of straight lines appearing in the image can be achieved by known image processing techniques such as the Hough transform or edge detection. Note that in order to detect straight lines, the verification unit 23 may first perform preprocessing such as binarizing the summary image S and then perform image processing such as edge detection. Image processing may also be performed using various techniques such as deep learning.
  • the lines along the boundary of the partial image P are assumed to correspond to scene transitions in the target video image M. Therefore, by identifying the number and positions of such straight lines, it is possible to verify whether the scene transition has occurred normally.
  • the verification unit 23 verifies whether the number and positions of detected straight lines deviate from the expected number of scene transitions and their timing. If a greater number of horizontal straight lines than expected are detected, there is a risk that a display abnormality such as flickering has occurred in the target video M at the timing corresponding to those positions. Furthermore, if a horizontal straight line is detected in a position that is deviated from the expected position, there is a possibility that the timing of scene transitions in the target video M is deviated from the expected position. By verifying the number and positions of straight lines in this manner, abnormalities in the display of the target video M can be detected.
  • FIG. 5 shows an example of a summary image S when flickering occurs within the target video M.
  • a horizontal line Lx is included in the summary image S in addition to the boundaries L1 and L2 that correspond to the timing of scene transitions.
  • this horizontal line Lx there is a possibility that flickering occurs during the display of the target video M, causing the entire screen to momentarily go black.
  • Stuttering refers to an event in which the content displayed on the screen does not change smoothly as expected due to frame dropping, etc.
  • FIG. 6 is an example of a summary image S that includes the process of such an object's movement.
  • a character object C1 that was stationary on the left side of the screen until time t3 during the display of the target video M moves to the right side of the screen between time t3 and time t4, and then becomes stationary again. Note that, for the sake of explanation, in the example of this figure, the background other than the character object C1 does not change during the display of the target video M.
  • the position of the character object C1 changes over time, but its appearance, shape, etc. do not change.
  • the boundary line L3 of the partial image P corresponding to time t3 and the boundary line L4 of the partial image P corresponding to time t3 are each shown by a dashed line.
  • the area A surrounded by the boundaries L3 and L4 is composed of the partial images P extracted from the frame image F displayed during the period from time t3 to time t4.
  • character object C1 moves to the right over time, and so character object C1 is deformed diagonally within area A to reflect this movement.
  • the object in target video M appears in summary image S in a shape that is deformed in the direction of its movement.
  • the verification unit 23 can detect the possibility that stuttering is occurring in the target video M by detecting lines that cross the boundary line of the partial image P and are broken or unnaturally curved.
  • the verification unit 23 can detect such discontinuous lines by a method such as detecting outliers in the slope of the line using an outlier detection filter such as a Hampel filter.
  • FIG. 7 shows a schematic example of discontinuous lines that appear in the summary image S when stuttering occurs in the target video M as described above.
  • This figure shows a partially enlarged view of lines detected by binarizing the summary image S, with multiple lines extending in a direction that intersects with the boundary line of the partial image P (here, the horizontal line) and parallel to each other.
  • the boundary line L5 of the partial image P corresponding to time t5 and the boundary line L6 of the partial image P corresponding to time t6 are each shown by a dashed line.
  • the verification process may be performed on the entire summary image S, or it may be performed on each of the multiple regions by dividing the summary image S into multiple regions. Specifically, as described above, in locations where scene transitions occur, it is assumed that lines that cross a boundary line do not continue across the boundary line. Therefore, when detecting the presence or absence of stuttering using the continuity of lines that appear in the summary image S, it may be difficult to correctly evaluate lines that cross such boundary lines that represent scene transitions. Therefore, by dividing the summary image S by the boundary lines that represent scene transitions and performing the process of detecting the presence or absence of stuttering as described above for each of the divided regions, verification can be performed individually for each scene.
  • the summary image S shown in FIG. 4 is divided at the positions of the straight lines L1 and L2, and the process of detecting lines as described here is performed on each of the three resulting divided images. This makes it possible to detect the presence or absence of stuttering for each scene.
  • the detection unit 23 can determine that freezing may have occurred.
  • the verification unit 23 may execute a combination of the above-described verification processes. For example, the verification unit 23 first executes a process to detect lines along the boundary lines of the partial image P to verify the presence or absence of flickering, and then divides the summary image S into multiple regions using the lines detected in that process. Then, for each of the multiple divided regions, it detects discontinuous lines to verify the presence or absence of stuttering in the target moving image M. Additionally, the verification unit 23 may verify the presence or absence of a period during which freezing has occurred for each of the multiple regions.
  • the verification unit 23 may generate multiple summary images S from one target video M and perform the verification process on each of them.
  • the size of the summary image S matches the size of the frame images F that constitute the target video M, so the number of partial images P that can be included in the summary image S is restricted by the size of the frame images F. Therefore, the number of frame images F that constitute the target video M for which the summary image S is to be generated is also determined based on the size of the frame images F.
  • the summary image generation unit 22 divides the playback time of the target video M into multiple periods and generates a summary image S for each of the divided periods.
  • the verification unit 23 can verify the entire target video M by performing the above-mentioned verification process on each of the summary images S generated in this way.
  • the target video M is a 60 fps video with a vertical size of 720 pixels
  • one summary image S can be generated from 720 frame images F equivalent to 12 seconds. Therefore, if the target video M is a 60-second video, the summary image generation unit 22 generates a first summary image S for the period from 0 seconds to 12 seconds, a second summary image S for the period from 12 seconds to 24 seconds, and so on, for five summary images S for non-overlapping periods of the entire playback time of the target video M.
  • the verification unit 23 performs verification processing on these five summary images S, such as detecting display abnormalities. This makes it possible to realize verification processing for the entire target video M with a playback time of 60 seconds.
  • summary images S are generated separately for non-overlapping periods in this way, there is a risk that display anomalies that occur across different periods may not be detected.
  • video stuttering occurs exactly 12 seconds after playback begins, the partial image P in the bottom position will be extracted from the frame image F immediately before that timing and placed at the bottom of the first summary image S, and the partial image P in the top position will be extracted from the frame image F immediately after and placed at the top of the second summary image S.
  • discontinuous lines caused by the stuttering will not appear in either the first or second summary image S, which may make them difficult to detect.
  • the summary image generating unit 22 may generate summary images S for periods that overlap each other.
  • the summary image generating unit 22 may generate summary images S using frame images F for 12 seconds each, starting from every 6 seconds from the start of playback of the target video M described above.
  • nine summary images S are generated from the 60-second target video M, starting from 0 seconds, 6 seconds, 12 seconds, 18 seconds, ..., 48 seconds.
  • these summary images S as verification targets, it is possible to arrange partial images P extracted from the frame images F before and after each timing of the target video M with a playback time of 60 seconds side by side in one of the summary images S. Note that in the above example, half of the period covered by one summary image S overlaps with another summary image S, but a longer period may overlap with another summary image S. In this case, a larger number of summary images S will be generated.
  • the verification unit 23 may also verify the target video M by comparing the newly generated summary image S with another previously prepared summary image S.
  • the other previously prepared summary image S is referred to as a comparison summary image C.
  • the comparison summary image C is generated by executing a specific program in a certain execution environment, recording a video (here referred to as a comparison video) displayed on the screen of the display device 14 while performing a specific operation input, and generating a summary image S based on the recorded comparison video.
  • a comparison video here referred to as a comparison video
  • the target video acquisition unit 21 executes the same program as when the comparison video was displayed under an execution environment different from that when the comparison video was displayed, and records the video displayed on the screen of the display device 14 while performing the same operation input.
  • This video becomes the target video M to be verified.
  • the different execution environment may be an environment in which the hardware is different from that when the comparison video was generated, for example, the model of the connected display device 14 is different, or an environment in which the software is different from that when the comparison video was generated, for example, a different version of the operating system.
  • the display content of the target video M will be similar to that of the comparison video even if the execution environment is different.
  • the display content may differ from that of the comparison video due to differences in execution environments, such as stuttering in the display of the target video M.
  • the verification unit 23 therefore compares the summary image S generated from the target video M with the comparison summary image C to determine whether or not there is a difference in the display content. For example, the verification unit 23 evaluates the similarity of the entire image using a known method, and verifies that the display content of the target video M is not as expected if the similarity does not meet a predetermined value. In addition, as described above, the verification unit 23 may detect abnormalities in the display content of the target video M by performing a process to detect lines contained in the summary image S and comparing the number, position, orientation, etc. of the detected lines with the lines detected in the comparison summary image C.
  • each partial image P is a row of pixels lined up in the horizontal direction
  • the summary image S is a still image of the same size as the original frame image F, with these partial images P arranged in a vertical direction.
  • the size and shape of the summary image S and each of the partial images P that compose it are not limited to those described above, and may be various.
  • one partial image P is a single row of pixels lined up in the horizontal direction, but each partial image P may be an area consisting of n rows of pixels (n is an integer equal to or greater than 1). Furthermore, a partial image P may be an image of an area consisting of one or more rows of pixels extending vertically rather than horizontally. In this case, the boundary line of the partial image P will be a straight line extending vertically (lengthwise). Alternatively, a partial image P may be a row of pixels extending diagonally.
  • the target video M is a game image that scrolls vertically
  • the objects and background in the target video M will change primarily along the vertical direction.
  • Such changes are difficult to express in a summary image S consisting of partial images P that extend horizontally, and are expected to appear more prominently in a summary image S consisting of partial images P that extend vertically and are arranged horizontally.
  • the summary image generator 22 may select the shape and orientation of the partial images P depending on the direction along which the changes in the objects and background in the target video M will primarily occur.
  • the summary image generating unit 22 may also generate a plurality of summary images S arranged along a plurality of different orientations, and the verification unit 23 may perform a verification process on each of the summary images S. This allows verification to be performed on various changes in orientation.
  • each partial image P does not necessarily have to have the same size or shape as the others.
  • the summary image S may be configured by arranging partial images P in concentric circles with different radii.
  • the summary image generating unit 22 may generate the summary image S by targeting a partial region of the target video M. For example, if an area displaying information such as game character parameters is arranged along the top side of the target video M, it is assumed that objects will not move within that area and that sudden changes over time will not occur. Therefore, the remaining area excluding such an area may be set as the attention area, and a partial image P may be extracted from it to generate the summary image S. Also, if it is assumed that relatively large changes will occur in an area toward the center of the screen of the target video M, the central area excluding the periphery may be used as the attention area to generate the summary image S. In this example, the generated summary image S will not be the same size as each frame image F constituting the target video M, but will have the same size and shape as the attention area.
  • the region of interest does not necessarily have to be a rectangular region, and may be a region of various shapes, such as a trapezoid.
  • the summary image generating unit 22 may generate the summary image S by transforming the shape of the partial images P obtained by extracting them from within the region of interest of each frame image F, for example by affine transformation, and then synthesizing the transformed partial images P. This makes it possible to generate a rectangular summary image S by synthesizing the partial images P extracted from regions of interest, such as trapezoids.
  • the verification unit 23 can perform verification processing such as detecting scene transitions using the summary image S.
  • the summary image generating unit 22 may also generate summary images S for each of a plurality of different attention areas. For example, a summary image S for the upper half of the target video image M and a summary image S for the lower half may be generated.
  • a summary image S for the upper half of the target video image M and a summary image S for the lower half may be generated.
  • the summary image generating unit 22 may also use a technique such as NeRF (Neural Radiance Fields) used to generate free viewpoint images in a three-dimensional space to determine the shape and size of the region of interest from which the partial images P are extracted and how each partial image P is transformed and placed in the summary image S.
  • NeRF Ne Radio Radiance Fields
  • a technique such as NeRF (Neural Radiance Fields) used to generate free viewpoint images in a three-dimensional space to determine the shape and size of the region of interest from which the partial images P are extracted and how each partial image P is transformed and placed in the summary image S.
  • NeRF NeRF
  • a technique such as NeRF (Neural Radiance Fields) used to generate free viewpoint images in a three-dimensional space to determine the shape and size of the region of interest from which the partial images P are extracted and how each partial image P is transformed and placed in the summary image S.
  • x and y represent the horizontal and vertical coordinate axes of each frame image F
  • t represents the time axis.
  • the image processing device 10 can verify the contents of the target video image M relatively efficiently by analyzing the summary image S.
  • the embodiment of the present invention is not limited to the one described above.
  • the shape and size of the partial images P extracted from each frame image F are the same, but the size of the partial images P may be variable.
  • the summary image generating unit 23 reduces the width of the partial images P (i.e., the size in the direction in which each partial image P is arranged) during periods of rapid screen changes in the target moving image M, and increases the width of the partial images P during periods of relatively little screen change. This makes it possible to generate a summary image S that reflects the content of the changes in more detail during periods of rapid change.
  • each partial image P may be arranged in the summary image S so as to overlap a part of the adjacent partial image P.
  • the summary image generating unit 22 may determine the position of each partial image P so that the upper row of the three rows of pixels overlaps with the lower row of pixels of the partial image P extracted from the previous frame image F, and the lower row of pixels overlaps with the upper row of pixels of the partial image P extracted from the succeeding frame image F.
  • they are superimposed by a method such as making both semi-transparent and compositing them. This makes it possible to generate a summary image S that changes more smoothly.
  • 10 image processing device 11 control unit, 12 storage unit, 13 interface unit, 14 display device, 15 operation device, 21 target video image acquisition unit, 22 summary image generation unit, 23 verification unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

検証対象の動画像を構成する複数のフレーム画像のそれぞれから、互いに異なる位置の部分画像を抽出することによって、少なくとも一つの要約画像を生成し、当該要約画像に基づいて、動画像の内容を検証する画像処理装置である。

Description

画像処理装置、画像処理方法、及びプログラム
 本発明は、動画像を解析する画像処理装置、画像処理方法、及びプログラムに関する。
 ビデオゲームなどのプログラムをテストする場合などにおいては、その処理結果として表示される動画像の内容が想定通りになっているか、映像の乱れなどの不具合が生じていないかといった検証を行うことがある。動画像の内容を検証することで、映像の不具合や想定と異なる表示などを発見することができる。
 動画像の検証を人が目視で行うことは手間がかかり、正確性に欠けることも考えられる。一方で、動画像を構成する1枚1枚のフレーム画像を対象とした解析処理を実行することで動画像の検証を行うこととすると、一般的に画像処理装置の演算量が増加し、時間がかかる傾向にある。
 本発明は上記実情を考慮してなされたものであって、その目的の一つは、動画像の内容の検証を比較的簡易な処理で実行できる画像処理装置、画像処理方法、及びプログラムを提供することにある。
 本発明の一態様に係る画像処理装置は、1つ以上のプロセッサを備える画像処理装置であって、前記一つ以上のプロセッサは、検証対象の動画像を構成する複数のフレーム画像のそれぞれから、互いに異なる位置の部分画像を抽出することによって、少なくとも一つの要約画像を生成し、前記要約画像に基づいて、前記動画像の内容を検証する、画像処理装置である。
 本発明の一態様に係る画像処理方法は、検証対象の動画像を構成する複数のフレーム画像のそれぞれから、互いに異なる位置の部分画像を抽出することによって、少なくとも一つの要約画像を生成し、前記要約画像に基づいて、前記動画像の内容を検証する、画像処理方法である。
 本発明の一態様に係るプログラムは、検証対象の動画像を構成する複数のフレーム画像のそれぞれから、互いに異なる位置の部分画像を抽出することによって、少なくとも一つの要約画像を生成し、前記要約画像に基づいて、前記動画像の内容を検証する、処理をコンピュータに実行させるためのプログラムである。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。
本発明の実施の形態に係る画像処理装置の構成を示す構成ブロック図である。 本発明の実施の形態に係る画像処理装置の機能を示す機能ブロック図である。 要約画像の構成の一例を示す図である。 シーン遷移を含む対象動画像に基づいて生成される要約画像の例を示す図である。 異常な表示を含む対象動画像に基づいて生成される要約画像の例を示す図である。 時間とともに移動するオブジェクトを含む対象動画像に基づいて生成される要約画像の例を示す図である。 異常な表示を含む対象動画像に基づいて生成される要約画像の別の例を示す図である。
 以下、本発明の実施形態について、図面に基づき詳細に説明する。
 図1は、本発明の一実施形態に係る画像処理装置10の構成を示す構成ブロック図である。画像処理装置10は、パーソナルコンピュータやサーバコンピュータ等であって、同図に示されるように、制御部11と、記憶部12と、インタフェース部13と、を含んで構成されている。また、画像処理装置10は表示装置14及び操作デバイス15と接続されている。
 制御部11は、CPU等のプロセッサを少なくとも一つ含み、記憶部12に記憶されているプログラムを実行して各種の情報処理を実行する。なお、本実施形態において制御部11が実行する処理の具体例については、後述する。記憶部12は、RAM等のメモリデバイスを少なくとも一つ含み、制御部11が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。
 インタフェース部13は、表示装置14、及び操作デバイス15との間のデータ通信のためのインタフェースである。画像処理装置10は、インタフェース部13を介して有線又は無線のいずれかで表示装置14、及び操作デバイス15のそれぞれと接続される。具体的にインタフェース部13は、画像処理装置10が供給する映像信号を表示装置14に送信するためのマルチメディアインタフェースを含むこととする。また、操作デバイス15に対してユーザーが行った操作内容を示す信号を受信するためのデータ通信インタフェースを含んでいる。
 表示装置14は、画像処理装置10から供給される映像信号に応じた映像を画面上に表示する。操作デバイス15は、例えばキーボードやマウスなどであって、ユーザーからの操作入力を受け付ける。操作デバイス15は、画像処理装置10と有線又は無線により接続され、ユーザーから受け付けた操作入力の内容を示す操作信号を画像処理装置10に対して送信する。
 以下、画像処理装置10が実現する機能について、図2の機能ブロック図を用いて説明する。図2に示すように、画像処理装置10は機能的に、対象動画像取得部21と、要約画像生成部22と、検証部23と、を含んで構成されている。これらの機能は、制御部11が記憶部12に記憶された1又は複数のプログラムに従って動作することにより実現される。これらのプログラムは、インターネット等の通信ネットワークを介して画像処理装置10に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。
 対象動画像取得部21は、本実施形態に係る画像処理装置10が検証対象とする動画像(以下、対象動画像Mという)を取得する。対象動画像取得部21は、別の画像生成装置によって生成され予め情報記憶媒体に記録された動画像を対象動画像Mとして取得してもよいし、画像処理装置10自身が描画し、表示装置14の画面に表示した動画像を対象動画像Mとして取得してもよい。
 要約画像生成部22は、対象動画像取得部21が取得した対象動画像Mに基づいて、その内容を表す少なくとも一つの要約画像Sを生成する。この要約画像Sは静止画像であって、対象動画像Mを構成する複数のフレーム画像Fに基づいて生成される画像である。さらに、ここでは要約画像Sは、各フレーム画像Fと同じ大きさ及び形状の画像であることとする。
 具体的に、要約画像生成部22は、対象動画像Mを構成する複数のフレーム画像Fのそれぞれから部分画像Pを抽出し、抽出した部分画像Pを並べて配置することによって要約画像Sを生成する。ここで、各フレーム画像から抽出される部分画像Pは、互いに異なる領域の画像であって、抽出された部分画像Pは要約画像S内において元のフレーム画像F内の自身の位置と対応する位置に配置されるものとする。これにより、要約画像Sはある期間にわたって表示される対象動画像Mの内容を要約して表す一枚の静止画像となる。
 以下では具体例として、要約画像生成部22は、各フレーム画像Fから横方向に並んだ画素列を1列ずつ部分画像Pとして取り出して、要約画像Sを生成することとする。対象動画像Mが60fpsで、各フレーム画像Fの縦方向の長さが720ピクセルである場合、再生時間12秒分で対象動画像Mを構成するフレーム画像Fの数が720枚(=60fps×12秒)となり、各フレーム画像Fの縦方向の長さの値(すなわち、要約画像Sを構成する部分画像Pの数)に一致することになる。以下では、これらのフレーム画像Fを先頭から順にフレーム画像F(1)、F(2)、F(3)、・・・、F(n)、・・・、F(720)と表記する。また、フレーム画像F(n)から抽出される部分画像PをP(n)と表記する。
 要約画像生成部22は、フレーム画像F(1)の最上段の横方向に並んだ画素列を部分画像P(1)として抽出し、この部分画像P(1)を要約画像Sの最上段の画素列とする。さらに、フレーム画像F(2)の上から2段目の画素列を部分画像P(2)として抽出し、要約画像Sの上から2段目の画素列とする。以下、同様にフレーム画像F(n)の上からn段目の画素列を部分画像P(n)として抽出し、要約画像Sの上からn段目の画素列として配置する処理を、720枚のフレーム画像Fについて繰り返すことによって、縦方向の長さが720ピクセルの要約画像Sを生成する。図3はこのような要約画像Sの構成を模式的に示している。
 この要約画像Sは、720枚のフレーム画像Fのそれぞれから抽出された互いに同じ大きさの部分画像Pを含んでいる。各部分画像Pは、元のフレーム画像Fの互いに異なる位置から抽出されており、要約画像S内において元のフレーム画像F内における位置と同じ位置に配置されている。さらに、各部分画像Pは元のフレーム画像Fの表示順序と同じ順序で並んで配置されている。そのため、時間的に隣接するフレーム画像Fから抽出された部分画像P同士は、要約画像S内において空間的に隣接して配置されることになる。このような要約画像Sは、いわゆるスリットスキャンと呼ばれる画像に類似した画像であり、対象動画像Mの時間的な変化の内容を反映した画像となっている。
 検証部23は、要約画像生成部22が生成した要約画像Sを用いて、対象動画像Mの内容を検証する。この検証には、対象動画像Mに含まれる異常な表示(すなわち、表示内容の不具合)の検出が含まれることとする。検証部23は、要約画像Sを解析することによって、対象動画像Mに異常な表示が含まれている可能性を検出することができる。ここでの異常な表示とは、映像の乱れや想定と異なるタイミングでの画面遷移など、本来意図されている正常な表示とは異なる内容の表示である。
 以下、検証部23が行う検証処理のいくつかの具体例について説明する。
 まず第1の例として、対象動画像Mの再生中に発生するチラつきの有無やシーン遷移を検証する処理について説明する。ここでのチラつきとは、対象動画像Mの表示中に、画面の全体が明滅したり、画面の広範囲にわたってそれまでと異なる色の表示が瞬間的に行われたりするような、画面の比較的広い範囲でそれまでと異なる表示や想定されない表示が行われる事象を指している。なお、以下では具体例として、対象動画像Mは画面全体の表示内容が別の内容に切り替わるシーン遷移を含むものとし、そのようなシーン遷移が発生するタイミングの情報が予め画像処理装置10に保持されているものとする。
 前述したように、ここでは部分画像Pは水平方向に沿って延伸する画素列であることとしている。そのため、隣接する部分画像P同士の境界線は水平方向に延伸する直線となる。この例では、シーン遷移が発生するタイミングの直前のフレーム画像Fから抽出される部分画像Pと直後のフレーム画像Fから抽出される部分画像Pとは、互いに大きく異なる画素値(輝度値や濃度値など)を持つ可能性が高くなる。そのため、要約画像Sのこれらの部分画像Pが隣接する位置には、直線状のエッジが現われることになる。このように、検証部23は隣接する部分画像Pの境界線に沿った向きの線を要約画像Sの中から検出することによって、対象動画像Mの表示中に画面全体の内容がシーン遷移などによって急激に変化しているタイミングを特定できる。
 図4はこのような要約画像Sの一例を示している。この図は、ゲームプログラムの実行時に表示される対象動画像Mに基づいて生成された要約画像Sを示しており、対象動画像Mの表示中、時刻t1において背景色が黒のメニュー画面が表示され、時刻t2においてメニュー画面の表示が終了して元のプレイ画面が表示された場合の例を示している。この時刻t1及びt2のシーン遷移に対応する位置で、要約画像S内に境界線L1及びL2が表れている。境界線L1の上側の画素列は時刻t1より前に表示されていたフレーム画像Fから抽出されており、境界線L1からL2までの範囲の画素列は時刻t1以降で時刻t2より前の時間に表示された(すなわち、メニュー画面を表す)フレーム画像Fから抽出されており、境界線L2より下側の画素列は時刻t2以降に表示されたフレーム画像Fから抽出されている。なお、この図の例においては説明の便宜のために、時刻t1及びt2におけるシーン遷移のタイミングを除いて、対象動画像Mの表示内容に変化が生じていないこととしている。実際にはシーン遷移のタイミング以外にも表示内容は時間とともに変化するので、それに伴って部分画像P同士の境界線をまたいで不連続な変化が要約画像S内にも現れることになるが、画面全体の表示内容が急激に変化するのでなければ、図4に示すような鮮明な境界線L1及びL2が他の位置に現れることは想定しにくい。
 検証部23は、この要約画像Sに対して画像処理を実行することによって、水平方向に延伸する(すなわち、部分画像P同士の境界線と平行な向きの)直線を検出する。画像内に表れる直線の検出は、ハフ変換やエッジ検出などの公知の画像処理技術によって実現できる。なお、直線を検出するために、検証部23はまず要約画像Sを二値化するなどの前処理を実行してからエッジ検出などの画像処理を実行してもよい。また、深層学習などの各種の手法を用いて画像処理を実行してもよい。
 前述したように部分画像Pの境界線に沿った線(ここでは水平方向に延伸する直線)は、対象動画像Mのシーン遷移に対応すると想定される。そのため、このような直線の数、及び位置を特定することで、シーン遷移が正常に発生したか否かを検証できる。
 具体的に、検証部23は、検出された直線の数、及び位置が想定されるシーン遷移の回数、及びタイミングとずれているかを検証する。想定よりも多い数の水平方向の直線が検出された場合、その位置に対応するタイミングで対象動画像M内にチラつきなどの表示の異常が発生しているおそれがある。また、水平方向の直線が想定された位置とずれた位置に検出された場合、対象動画像Mにおいてシーン遷移のタイミングが想定とずれている可能性がある。このように直線の数、及び位置の検証を行うことで、対象動画像Mの表示の異常を検出できる。
 図5は、対象動画像M内にちらつきが発生している場合の要約画像Sの一例を示している。この図の例においては、図4の例と比較して、シーン遷移のタイミングに対応する境界線L1及びL2とは別に、水平線Lxが要約画像Sに含まれている。この水平線Lxに対応するタイミングで、対象動画像Mの表示中に画面全体が瞬間的にブラックアウトするチラつきが生じている可能性がある。
 次に、検証処理の第2の例として、対象動画像Mの表示のカクつきを検出する例について、説明する。ここでのカクつきとは、フレーム落ちなどによって画面の表示内容が想定通り滑らかに変化しない事象を指している。
 対象動画像M内に時間とともに移動するオブジェクトが含まれている場合、そのオブジェクトが移動する軌跡は要約画像S内において水平方向の直線(すなわち、部分画像P同士の境界線に沿った線)と交差する方向の線として現れることが想定される。図6は、このようなオブジェクトの移動の過程を含む要約画像Sの一例である。この図の例においては、対象動画像Mの表示中、時刻t3までの間は画面左側に静止していたキャラクターオブジェクトC1が、時刻t3から時刻t4までの間に画面右側に移動し、その後、再び静止した場合の例を示している。なお、この図の例においては説明のために、キャラクターオブジェクトC1以外の背景などは対象動画像Mの表示中変化しないこととしている。また、対象動画像Mの表示中、キャラクターオブジェクトC1の位置は時間とともに変化するが、その外観や形状等は変化しないこととしている。この図においては、時刻t3に対応する部分画像Pの境界線L3、及び時刻t3に対応する部分画像Pの境界線L4がそれぞれ破線で示されている。この境界線L3及びL4で囲まれた領域Aは、時刻t3から時刻t4までの期間に表示されるフレーム画像Fから抽出された部分画像Pによって構成されている。この時刻t3からt4までの間にキャラクターオブジェクトC1が時間とともに右側に移動しているので、その動きを反映して領域A内においてキャラクターオブジェクトC1が斜め方向に変形している。すなわち、対象動画像M内のオブジェクトは、その移動方向に沿って変形した形状となって要約画像S内に現れることになる。
 ここで、対象動画像Mの表示中にカクつきが生じた場合、その中に含まれるオブジェクトの移動の過程が滑らかに(連続的に)表示されず、不連続な変化が生じることになる。このような表示の異常が生じると、そのオブジェクトの輪郭線などの線は、要約画像S内において連続的に変形した線とならず、カクつきが生じたタイミングに対応する部分画像Pの境界線をまたぐ位置で、分断していたり急激に異なる向きに変化したりすると想定される。そこで検証部23は、部分画像Pの境界線と交差する線であって、分断していたり不自然に曲がっていたりする線を検出することによって、対象動画像Mにカクつきが生じている可能性があることを検知できる。なお、検証部23は、Hampelフィルタなどの外れ値検出フィルタを用いて線の傾きの外れ値を検出するなどの手法によって、このような不連続な線を検出することができる。
 図7は、以上説明したように対象動画像M内でカクつきが発生している場合に要約画像S内に現れる不連続な線の例を模式的に示している。この図は、要約画像Sを二値化して検出された線の部分拡大図を示しており、複数の線が部分画像Pの境界線(ここでは水平線)と交差する方向に、かつ互いに並列に延伸している。ここでは、時刻t5から時刻t6の間にカクつきが生じていると想定しており、時刻t5に対応する部分画像Pの境界線L5、及び時刻t6に対応する部分画像Pの境界線L6がそれぞれ破線で示されている。オブジェクトの時間変化などによって要約画像S内に現れる複数の線は、カクつきが生じているタイミングに対応する要約画像S内の位置で、同じ向きに曲がっている。このような線の変形が複数の線に共通して発生している場合、対象動画像M内でカクつきが発生している可能性が考えられる。
 なお、この例における検証処理は、要約画像Sの全体を対象として実行してもよいが、要約画像Sを複数の領域に分割し、それら複数の領域に対して個別に実行してもよい。具体的に、前述したようにシーン遷移が発生する箇所では、境界線と交差する方向の線は境界線をまたいで連続することはないと想定される。そのため、要約画像S内に現れる線の連続性を用いてカクつきの有無を検出する場合、このようなシーン遷移を表す境界線と交差する線については、正常に評価することが難しいことがある。そこで、シーン遷移を表す境界線によって要約画像Sを分割し、分割された領域のそれぞれについてこれまで説明したようなカクつきの有無を検出する処理を行うことによって、シーン毎に個別に検証を行うことができる。
 具体的に、図4で例示した要約画像Sの場合、直線L1及びL2の位置で要約画像Sを分割し、得られる3個の分割画像のそれぞれに対して、ここで説明したような線を検出する処理を実行する。これにより、それぞれのシーンを対象にカクつきの有無を検出することができる。
 第3の例として、対象動画像Mの表示中に発生するフリーズを検出する例について、説明する。対象動画像Mの表示中にフリーズが発生した場合、一定時間表示内容が変化しない状態が継続することになる。この場合、フリーズが発生した期間に対応する部分画像Pによって構成される要約画像S内の領域は、フリーズした状態のフレーム画像Fと同様の内容になる。また、カクつきが生じている場合と同様に、フリーズが解消されたタイミングで不連続な変化が生じる可能性がある。そこで検証部23は、このような要約画像S内における線の変化を検出することで、対象動画像Mにフリーズが発生している可能性を検証することができる。
 また、フリーズが発生していると、フリーズが解消されるタイミングで上述したシーン遷移と類似する画面遷移が生じる可能性もある。そのため、検出部23は、部分画像P同士の境界線に沿った線を検出する処理によって、想定とずれた位置に線が検出された場合や想定されていない線が検出された場合に、フリーズが生じていた可能性があると判定できる。
 検証部23は、以上説明した複数の検証処理を組み合わせて実行してもよい。例えば検証部23は、まず部分画像Pの境界線に沿った線を検出する処理を実行して、チラつきの有無を検証し、その後、その処理で検出された線によって要約画像Sを複数の領域に分割する。そして、分割された複数の領域のそれぞれに対して、不連続な線を検出することによって対象動画像Mのカクつきの有無を検証する。併せて、複数の領域のそれぞれに対して、フリーズが発生している期間の有無を検証してもよい。
 以上の説明では、1個の要約画像Sのみを用いて対象動画像Mの検証を行う例について説明した。これに限らず検証部23は、一つの対象動画像Mから複数の要約画像Sを生成し、そのそれぞれを対象として検証処理を実行してもよい。例えば、以上の説明では要約画像Sの大きさは対象動画像Mを構成するフレーム画像Fの大きさに一致するので、要約画像Sに含めることのできる部分画像Pの数はフレーム画像Fの大きさによって制約される。そのため、要約画像Sを生成する対象となる対象動画像Mを構成するフレーム画像Fの数も、フレーム画像Fの大きさに基づいて決定されている。1枚の要約画像Sに含まれる部分画像Pの数を超える数のフレーム画像Fによって構成される対象動画像Mを対象として検証処理を実行する場合、要約画像生成部22は、対象動画像Mの再生時間を複数の期間に分割し、分割された期間のそれぞれを対象として要約画像Sを生成することとする。検証部23は、このようにして生成された要約画像Sのそれぞれを対象として前述の検証処理を実行することで、対象動画像M全体の検証を行うことができる。
 具体例として、前述したように対象動画像Mが60fpsの動画像で縦方向のサイズが720ピクセルの場合、12秒分に相当する720個のフレーム画像Fから1個の要約画像Sを生成することができる。そこで要約画像生成部22は、対象動画像Mが60秒間の動画像である場合、時刻0秒から12秒までの期間を対象に1枚目の要約画像Sを、12秒から24秒までの期間を対象に2枚目の要約画像Sを、というようにして対象動画像Mの全体の再生時間のうちの互いに重複しない期間を対象として5枚の要約画像Sを生成することとする。検証部23は、この5枚の要約画像Sに対して表示の異常を検出するなどの検証処理を実行する。これにより、再生時間60秒の対象動画像Mの全体について検証処理を実現できる。
 しかしながら、このように互いに重複しない期間を対象として個別に要約画像Sを生成すると、異なる期間にまたがって発生する表示の異常などを検出できないおそれがある。例えば前述の例では、ちょうど再生開始から12秒が経過するタイミング付近で映像のカクつきが発生した場合、そのタイミングの直前のフレーム画像Fからは最下段の位置の部分画像Pが抽出されて1枚目の要約画像Sの最下段に配置され、直後のフレーム画像Fからは再上段の位置の部分画像Pが抽出されて2枚目の要約画像Sの最上段に配置されることになる。そのため、カクつきに起因する不連続な線は1枚目の要約画像Sにも2枚目の要約画像Sにも現れず、検出することが難しくなる可能性がある。
 そこで要約画像生成部22は、互いに重複する期間を対象として要約画像Sを生成してもよい。一例として、要約画像生成部22は、前述の対象動画像Mの再生開始時点から6秒ごとのタイミングを起点として、それぞれ12秒分のフレーム画像Fを用いて要約画像Sを生成すればよい。この場合、60秒間の対象動画像Mから、0秒、6秒、12秒、18秒、・・・、48秒をそれぞれ起点とする9枚の要約画像Sが生成される。これらの要約画像Sを検証対象とすることで、再生時間が60秒間の対象動画像Mのどのタイミングについても、その前後のフレーム画像Fから抽出された部分画像Pがいずれかの要約画像S内において並んで配置されるようにすることができる。なお、以上の例では1枚の要約画像Sが対象とする期間のうち2分の1が他の要約画像Sと重複することとしたが、より長い期間が他の要約画像Sと重複するようにしてもよい。この場合、より多くの数の要約画像Sが生成されることとなる。
 また、検証部23は、新たに生成した要約画像Sを予め用意された別の要約画像Sと比較することによって、対象動画像Mの検証を行うこととしてもよい。以下、この例においては予め用意された別の要約画像Sを比較要約画像Cという。例えば比較要約画像Cは、ある実行環境下において特定のプログラムを実行し、特定の操作入力を行いながら表示装置14の画面に表示される動画像(ここでは比較用動画像と表記する)を記録することで、その記録された比較用動画像に基づいて生成される要約画像Sであるものとする。ここで、比較要約画像Cの生成に用いられた比較用動画像は、正常に表示されたものであることが確認できていることとする。
 その後、対象動画像取得部21は、比較用動画像が表示されたときとは別の実行環境下において、比較用動画像が表示されたときと同じプログラムを実行し、同じ操作入力を行いながら表示装置14の画面に表示される動画像を記録する。この動画像が検証対象の対象動画像Mとなる。ここで、別の実行環境とは、例えば接続される表示装置14の機種が異なるなど、ハードウェアが比較用動画像の生成時と異なる環境であってもよいし、オペレーティングシステムのバージョンが異なるなど、ソフトウェアが比較用動画像の生成時と異なる環境であってもよい。この場合、実行環境が相違しても対象動画像Mの表示内容は比較用動画像と同様のものになることが期待されている。しかしながら、実行環境の相違により、対象動画像Mの表示にカクつきが生じるなど、表示内容が比較用動画像と異なるものになる可能性が考えられる。
 そこで検証部23は、対象動画像Mから生成された要約画像Sを、比較要約画像Cと比較することによって、表示内容に相違が生じているか否かを判定する。例えば検証部23は、画像全体の類似度を公知の手法によって評価し、類似度が所定値に満たない場合に対象動画像Mの表示内容が想定通りでないとの検証を行う。また、上述したように要約画像Sに含まれる線を検出する処理を実行し、検出された線の数や位置、向きなどを比較要約画像Cから検出された線と比較することによって、対象動画像Mに含まれる表示内容の異常を検出してもよい。
 これまでの説明では、各部分画像Pは水平方向に沿って並ぶ1列の画素列であり、要約画像Sはこれらの部分画像Pが垂直方向に沿って並んで配列された、元のフレーム画像Fと同じ大きさの静止画像であることとした。しかしながら、要約画像Sやそれを構成する各部分画像Pの大きさや形状は以上説明したものに限られず、様々なものであってよい。
 具体的に、以上の説明では1個の部分画像Pは水平方向に沿って並ぶ1列の画素列であることとしたが、各部分画像Pはn列(nは1以上の整数)の画素列からなる領域であってもよい。また、部分画像Pは、水平方向ではなく、垂直方向に延伸する1又は複数の画素列からなる領域の画像であってもよい。この場合、部分画像Pの境界線は垂直方向(縦方向)に延伸する直線となる。あるいは、部分画像Pは、斜め方向に延伸する画素列であってもよい。
 例えば対象動画像Mが縦方向にスクロールするゲームの映像である場合、対象動画像M内のオブジェクトや背景は主として垂直方向に沿って変化することになる。このような変化は、水平方向に沿って延伸する部分画像Pからなる要約画像Sでは表現されにくく、垂直方向に沿って延伸する部分画像Pを水平方向に沿って配列してなる要約画像Sにより顕著に現れると想定される。そこで、要約画像生成部22は、対象動画像M内におけるオブジェクトや背景の変化が主としてどの方向に沿って発生するかに応じて、部分画像Pの形状や向きを選択してもよい。一般的に、画面変化の方向と交差する向きに沿って並ぶように各部分画像Pを配列することによって、要約画像Sを用いて画面変化の検証を行いやすくなる。
 また、要約画像生成部22は、互いに異なる複数の向きに沿って配列される複数の要約画像Sを生成し、検証部23はそれらの要約画像Sのそれぞれを対象として検証処理を行ってもよい。これにより、様々な向きの変化を対象として検証を行うことができる。
 また、各部分画像Pは必ずしも互いに同じ大きさや同じ形状を有しておらずともよい。例えば、要約画像Sは互いに半径が異なる同心円状に部分画像Pを配列して構成されてもよい。
 さらに、要約画像生成部22は、対象動画像Mの一部の領域を対象として、要約画像Sを生成してもよい。例えば対象動画像Mの上辺に沿ってゲームキャラクターのパラメータなどの情報を表示する領域が配置されている場合、当該領域内をオブジェクトが移動したりするわけではなく、急激な時間変化が生じることは少ないと想定される。そこで、このような領域を除いたその他の領域を注目領域として、その中から部分画像Pを抽出して要約画像Sを生成してもよい。また、対象動画像Mの画面中央寄りの領域で比較的大きな変化が生じると想定される場合、外周を除いた中央の領域を注目領域として要約画像Sを生成してもよい。この例においては、生成される要約画像Sは対象動画像Mを構成する各フレーム画像Fと同じ大きさにはならず、注目領域と同じ大きさ及び形状を有することになる。
 また、注目領域は必ずしも矩形形状の領域でなくともよく、台形形状などの各種の形状の領域であってもよい。さらにこの場合、要約画像生成部22は、各フレーム画像Fの注目領域内から抽出して得られる部分画像Pの形状をアフィン変換などによって変形させてから合成することによって、要約画像Sを生成してもよい。これにより、台形形状などの注目領域から抽出される部分画像Pを合成して矩形形状の要約画像Sを生成することができる。
 以上説明したように、対象動画像M内の任意の位置及び形状の注目領域を対象として要約画像Sを生成することで、より注目したい領域の時間変化を表す要約画像Sを生成することができる。特に、重要なオブジェクトが移動可能な範囲やユーザーが注目すると想定される領域などを注目領域として設定することで、その領域に生じている表示上の問題を検出しやすくなる。なお、この例においても、時間的に隣接するフレーム画像Fから抽出された部分画像P同士が要約画像S内において空間的に隣接するように各部分画像Pを配置することによって、検証部23は要約画像Sを用いたシーン遷移の検出などの検証処理を行うことができる。
 また、要約画像生成部22は、互いに異なる複数の注目領域をそれぞれ対象として要約画像Sを生成してもよい。例えば対象動画像Mの上側の半分を対象とした要約画像Sと、下側の半分を対象とした要約画像Sをそれぞれ生成してもよい。このようにして生成された要約画像Sのそれぞれを対象として検証部23が検証処理を行うことで、局所的な範囲で発生している表示の異常を検出しやすくなると考えられる。
 また、要約画像生成部22は、3次元空間内において自由視点画像を生成するために利用されるNeRF(Neural Radiance Fields)などの技術を利用して、部分画像Pを抽出する対象となる注目領域の形状や大きさや、各部分画像Pをどのように変換して要約画像S内に配置するかを決定してもよい。仮に2次元平面によって構成される複数のフレーム画像Fを奥行き方向に沿って互いに平行に配置したとすると、(x,y,t)の座標軸からなる3次元空間を構成することができる。ここでx及びyは各フレーム画像Fの水平方向及び垂直方向の座標軸を表し、tは時間軸を表すことになる。要約画像Sは、このような3次元空間を所与の投影面に投影した画像に相当する。そこで要約画像生成部22は、3次元空間内の様子を描画する技術を応用して、どのように投影面を設定するか決定してもよい。これにより、より対象動画像M内のオブジェクトの動きなどが現れやすい要約画像Sを生成することができる。
 以上説明したように、本実施形態に係る画像処理装置10によれば、要約画像Sを解析することによって、比較的効率よく対象動画像Mの内容を検証することができる。
 なお、本発明の実施の形態は以上説明したものに限られない。例えば以上の説明においては、各フレーム画像Fから抽出される部分画像Pの形状及び大きさは互いに同じであることとしたが、部分画像Pの大きさは可変であってもよい。例えば要約画像生成部23は、対象動画像M内における画面変化が激しい期間については部分画像Pの幅(すなわち、各部分画像Pが配列される方向の大きさ)を小さくし、画面変化が比較的少ない期間については部分画像Pの幅を大きくする。これにより、変化が激しい期間についてはより詳細に変化の内容を反映するような要約画像Sを生成できる。
 また、以上の説明においては各フレーム画像Fから抽出される部分画像Pの位置は他のフレーム画像Fから抽出される部分画像Pの位置と重ならないように決定することとした。しかしながらこれに限らず、各部分画像Pは、隣接する部分画像Pと一部が重なるように要約画像S内に配置されることとしてもよい。一例として、要約画像生成部22は、各部分画像Pが水平方向に延伸する縦3列の画素列である場合、3列のうち上段の画素列は一つ前のフレーム画像Fから抽出された部分画像Pの下段の画素列と重なり、下段の画素列は一つ後のフレーム画像Fから抽出された部分画像Pの上段の画素列と重なるように、各部分画像Pの位置を決定してもよい。この場合、隣接する二つの部分画像Pが重なる位置においては、両者を半透明にして合成するなどの手法で重ね合わせることとする。これにより、より滑らかに変化する要約画像Sを生成することができる。
 10 画像処理装置、11 制御部、12 記憶部、13 インタフェース部、14 表示装置、15 操作デバイス、21 対象動画像取得部、22 要約画像生成部、23 検証部。

Claims (13)

  1.  1つ以上のプロセッサを備える画像処理装置であって、
     前記一つ以上のプロセッサは、
     検証対象の動画像を構成する複数のフレーム画像のそれぞれから、互いに異なる位置の部分画像を抽出することによって、少なくとも一つの要約画像を生成し、
     前記要約画像に基づいて、前記動画像の内容を検証する、
     画像処理装置。
  2.  請求項1に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記要約画像に基づいて、前記動画像に含まれる表示の異常を検出する、
     画像処理装置。
  3.  請求項2に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記要約画像に含まれる線を検出し、当該検出した線に基づいて前記動画像に含まれる表示の異常を検出する、
     画像処理装置。
  4.  請求項3に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記部分画像の境界線に沿った向きの線を検出することによって、前記動画像に含まれる表示の異常を検出する、
     画像処理装置。
  5.  請求項3に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記部分画像の境界線と交差する向きで、かつ不連続な箇所を有する線を検出することによって、前記動画像に含まれる表示の異常を検出する、
     画像処理装置。
  6.  請求項3に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記部分画像の境界線に沿った向きの線に基づいて、前記要約画像を複数の領域に分割し、当該複数の領域のそれぞれを対象として、当該領域に対応する期間の前記動画像の内容を検証する、
     画像処理装置。
  7.  請求項1に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記要約画像内において前記部分画像の境界線と交差する方向に沿って連続する内容の領域を検出することによって、前記動画像内において表示が変化しない期間を特定する、
     画像処理装置。
  8.  請求項1に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記要約画像と所与の比較画像と比較することによって、前記動画像の内容を検証する、
     画像処理装置。
  9.  請求項1に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記動画像内における注目領域を決定し、前記複数のフレーム画像のそれぞれに含まれる前記注目領域内の一部分の画像を前記部分画像として抽出して、前記要約画像を生成する、
     画像処理装置。
  10.  請求項1に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記複数のフレーム画像のそれぞれから抽出した部分画像に対して所与のアフィン変換を実行してから合成することによって、前記要約画像を生成する、
     画像処理装置。
  11.  請求項1に記載の画像処理装置において、
     前記一つ以上のプロセッサは、
     前記動画像の互いに異なる複数の時点を起点として、当該起点以降に表示されるフレーム画像に基づいて、複数の要約画像を生成し、
     前記複数の要約画像に基づいて、前記動画像の内容を検証する、
     画像処理装置。
  12.  検証対象の動画像を構成する複数のフレーム画像のそれぞれから、互いに異なる位置の部分画像を抽出することによって、少なくとも一つの要約画像を生成し、
     前記要約画像に基づいて、前記動画像の内容を検証する、
     画像処理方法。
  13.  検証対象の動画像を構成する複数のフレーム画像のそれぞれから、互いに異なる位置の部分画像を抽出することによって、少なくとも一つの要約画像を生成し、
     前記要約画像に基づいて、前記動画像の内容を検証する、
     処理をコンピュータに実行させるためのプログラム。
PCT/JP2022/040898 2022-11-01 2022-11-01 画像処理装置、画像処理方法、及びプログラム WO2024095366A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/040898 WO2024095366A1 (ja) 2022-11-01 2022-11-01 画像処理装置、画像処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/040898 WO2024095366A1 (ja) 2022-11-01 2022-11-01 画像処理装置、画像処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024095366A1 true WO2024095366A1 (ja) 2024-05-10

Family

ID=90930053

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/040898 WO2024095366A1 (ja) 2022-11-01 2022-11-01 画像処理装置、画像処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024095366A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012138875A (ja) * 2010-12-28 2012-07-19 Fujitsu Ten Ltd 画像処理装置、画像表示システム、及び、画像処理方法
JP2013197927A (ja) * 2012-03-21 2013-09-30 Mitsubishi Electric Corp 映像監視装置及び映像監視システム
JP2019212970A (ja) * 2018-05-31 2019-12-12 株式会社日本デジタル研究所 動画処理装置、動画処理システム、動画処理方法及びプログラム
JP2021051175A (ja) * 2019-09-25 2021-04-01 アルパイン株式会社 画像表示装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012138875A (ja) * 2010-12-28 2012-07-19 Fujitsu Ten Ltd 画像処理装置、画像表示システム、及び、画像処理方法
JP2013197927A (ja) * 2012-03-21 2013-09-30 Mitsubishi Electric Corp 映像監視装置及び映像監視システム
JP2019212970A (ja) * 2018-05-31 2019-12-12 株式会社日本デジタル研究所 動画処理装置、動画処理システム、動画処理方法及びプログラム
JP2021051175A (ja) * 2019-09-25 2021-04-01 アルパイン株式会社 画像表示装置

Similar Documents

Publication Publication Date Title
US11670043B2 (en) Image processing apparatus, image processing method, and storage medium
US10600169B2 (en) Image processing system and image processing method
JP7042561B2 (ja) 情報処理装置、情報処理方法
CN101116110A (zh) 医学图像浏览协议
JP5597096B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7353782B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20180048810A1 (en) Image processing apparatus, image generation method, and non-transitory computer-readable storage medium
CN104968276A (zh) 图像处理装置以及区域抽出方法
US8576248B2 (en) Image processing method and image processing apparatus
JP7088281B2 (ja) 商品分析システム、商品分析方法および商品分析プログラム
CN104284084A (zh) 图像处理设备、图像处理方法以及程序
JP4728795B2 (ja) 人物オブジェクト判定装置及び人物オブジェクト判定プログラム
CN113709542A (zh) 一种交互式全景视频播放的方法和系统
US10546406B2 (en) User generated character animation
WO2024095366A1 (ja) 画像処理装置、画像処理方法、及びプログラム
US20060250389A1 (en) Method for creating virtual reality from real three-dimensional environment
Raghuraman et al. Evaluating the efficacy of RGB-D cameras for surveillance
WO2024095365A1 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7414753B2 (ja) 組織画像解析装置及び組織画像解析方法
JP2013085133A (ja) 奥行き製作支援装置、奥行き製作支援方法、およびプログラム
JP2842283B2 (ja) 映像提示方法および装置
WO2023176103A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US10880533B2 (en) Image generation apparatus, image generation method, and storage medium, for generating a virtual viewpoint image
JP7455546B2 (ja) 画像処理装置、画像処理方法、及びプログラム
EP2494523A1 (en) Motion detection method, program, and gaming system