WO2013172098A1 - 画像処理装置、画像処理方法およびプログラム - Google Patents
画像処理装置、画像処理方法およびプログラム Download PDFInfo
- Publication number
- WO2013172098A1 WO2013172098A1 PCT/JP2013/058975 JP2013058975W WO2013172098A1 WO 2013172098 A1 WO2013172098 A1 WO 2013172098A1 JP 2013058975 W JP2013058975 W JP 2013058975W WO 2013172098 A1 WO2013172098 A1 WO 2013172098A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- parallax
- stereoscopic
- edge
- caption
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/172—Processing image signals image signals comprising non-image signal components, e.g. headers or format information
- H04N13/183—On-screen display [OSD] information, e.g. subtitles or menus
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Definitions
- the present technology relates to an image processing apparatus, an image processing method, and a program for causing a computer to execute the method.
- the present invention relates to an image processing apparatus that synthesizes captions with moving images, an image processing method, and a program for causing a computer to execute the method.
- a display device that displays a moving image so that it can be viewed in three dimensions (that is, three-dimensional display) has been used.
- a left image and a right image with parallax are captured as images constituting a moving image, and the display device displays them so that the left image appears on the left eye and the right image appears on the right eye.
- an active shutter glass method in which the display device alternately displays the left and right images in time division and the dedicated glasses operate the left and right shutters in synchronization with the switching timing is used.
- the closed caption is a caption generated independently of the moving image so that the display device can control display / non-display of the caption.
- subtitles that are supplied in a format combined with a moving image and cannot be controlled to be displayed or hidden by the display device are called open captions.
- the display device When the display device synthesizes a closed caption, it is possible to display the closed caption three-dimensionally.
- a planar caption image representing captions is generated, and the caption images are converted into images for stereoscopic display using 2D-3D conversion technology.
- the 2D-3D conversion is a technique for converting an image that is not an image for stereoscopic display into an image for stereoscopic display. Specifically, a two-dimensional normal image is shifted left and right in the horizontal direction to generate two images, one of which is a left image for projecting to the left eye, and the other is a right image for projecting to the right eye (For example, refer to Patent Document 2).
- This technology was created in view of these circumstances, and aims to emphasize the perspective of subtitle images.
- a caption information acquisition unit that acquires caption information to be combined with a stereoscopic main image, and the caption information are stereoscopically displayed.
- a parallax acquisition unit that acquires parallax for generating a stereoscopic caption image generation unit that generates a stereoscopic caption image that is stereoscopically displayed at a display position corresponding to the parallax from the caption information, and an edge strength in the stereoscopic caption image.
- An image processing apparatus including an edge processing unit that changes according to the parallax, an image processing method thereof, and a program for causing a computer to execute the method. Thereby, the strength of the edge in the stereoscopic caption image is changed according to the parallax.
- the edge processing unit increases the edge strength according to the parallax when the display position is on the near side of a predetermined reference position, and the display position is the reference position. In the case of being on the back side from the position, the edge strength may be reduced according to the parallax. Accordingly, when the display position is closer to the reference position, the edge strength is increased according to the parallax, and when the display position is further to the rear side than the reference position, the edge strength is decreased according to the parallax. .
- a pixel mixing unit that mixes the pixel values of the adjacent pixels based on a mixing ratio according to the position of the sub-pixel to be displayed between the adjacent pixels in the stereoscopic caption image.
- the edge processing unit may change the strength of the edge according to the position and the parallax. Thereby, the strength of the edge is changed according to the position of the sub-pixel and the parallax.
- the pixel mixing unit may set a position corresponding to the parallax as the position of the sub-pixel. Thereby, the position according to the parallax is set as the position of the sub-pixel.
- the edge processing unit increases or decreases the pixel value in the extracted edge region according to the parallax, and an edge extraction unit that extracts the edge region in the stereoscopic caption image.
- a correction unit that adjusts the strength of the edge by combining the edge region in which the pixel value is increased or decreased with the stereoscopic caption image. This brings about the effect that the edge strength is changed by synthesizing the edge region whose pixel value is increased or decreased according to the parallax with the stereoscopic caption image.
- the edge extraction unit that changes the strength of the edge by synthesizing the edge region in which the pixel value is increased or decreased with the stereoscopic caption image includes: An area where the pixel value distribution frequency is higher than a predetermined threshold may be extracted as the edge area. This brings about the effect that a region in which the pixel value distribution frequency is higher than a predetermined threshold in the stereoscopic caption image is extracted as an edge region.
- the image processing apparatus may further include a caption synthesizing unit that synthesizes the stereoscopic caption image in which the edge strength is changed with the stereoscopic main image. This brings about the effect
- 1 is an overall view showing an example of an information processing system in a first embodiment. It is a block diagram which shows the example of 1 structure of the image processing apparatus in 1st Embodiment. It is a block diagram which shows one structural example of the edge process part in 1st Embodiment. It is a figure which shows an example of the gain correction in 1st Embodiment. It is a figure which shows an example of distribution of the pixel value before and behind the edge process in 1st Embodiment. It is a figure for demonstrating one structural example of the moving image stream in 1st Embodiment. It is a figure which shows the example of 1 structure of the caption stream in 1st Embodiment.
- FIG. 1 is an overall view illustrating an example of an information processing system according to an embodiment.
- the information processing system includes a receiving device 100, an image processing device 200, and a display device 300.
- the receiving device 100 receives a video stream and a subtitle stream.
- This moving image stream is moving image data distributed from a broadcasting station or the like in accordance with a predetermined broadcast standard. For example, DVB (Digital Video Broadcast) is used as the broadcast standard.
- This moving image includes a plurality of images displayed in time series.
- the moving image is a moving image created for stereoscopic display, and each of the images in the moving image is hereinafter referred to as a “stereoscopic main image”.
- Each of the stereoscopic main images includes a left main image for projecting to the left eye of the viewer and a right main image for projecting to the right eye.
- the moving image is encoded as necessary according to a predetermined encoding method.
- a predetermined encoding method for example, MPEG (Moving Picture Expert Group) 2-TS (Transport Stream) standard is used.
- MPEG2-TS an encoded image is stored in a PES (Packetized Elementary Stream) packet, and each image is given a PTS (Presentation Time Stamp).
- PTS is time management information for reproduction output, and indicates when an image with the time stamp is reproduced and output.
- the receiving apparatus 100 may receive an analog broadcast and generate a moving image stream by A / D (Analog-to-Digital) conversion of the broadcast wave.
- a / D Analog-to-Digital
- the subtitle stream received by the receiving apparatus 100 is data related to subtitles distributed from a broadcasting station or the like.
- the caption stream includes caption data and parallax.
- the caption data includes, for example, an image representing a caption (hereinafter referred to as “caption image”) and a character string representing a caption.
- the parallax is used for stereoscopic display of the caption. Specifically, when a left subtitle image and a right subtitle image are generated from subtitle data, a shift in the horizontal direction of these images corresponds to parallax.
- an image composed of the left subtitle image and the right subtitle image is referred to as a “stereoscopic subtitle image”.
- Subtitle data and parallax are also encoded as necessary and stored in the PES packet, and PTS is given to each subtitle data and parallax.
- This PTS is time management information indicating when to reproduce and output subtitles, and is used for reproducing subtitles in synchronization with moving images.
- the subtitle stream is multiplexed with the video stream and distributed.
- the receiving device 100 separates the subtitle stream from the moving image stream, and supplies the separated moving image stream and subtitle stream to the image processing device 200. Note that the image processing device 200 may separate the subtitle stream instead of the receiving device 100.
- the image processing apparatus 200 synthesizes subtitles with moving images based on the moving image stream and the subtitle stream. Specifically, the image processing apparatus 200 acquires parallax and caption data from the caption stream, and generates a stereoscopic caption image that is stereoscopically displayed at a position corresponding to the parallax from the caption data. The image processing apparatus 200 synthesizes the stereoscopic caption image with a moving image. Then, the image processing device 200 supplies the moving image in which the stereoscopic caption image is combined to the display device 300.
- the image processing device 200 is configured to acquire a moving image stream and a caption stream distributed from a broadcasting station or the like from the receiving device 100, but the moving image stream and the caption stream recorded in the moving image recording device or the like are used as the image processing device 200. May get.
- the display device 300 stereoscopically displays a moving image in which stereoscopic caption images are combined.
- a stereoscopic display method an active shutter glass method, a polarization display method, a parallax barrier method, or the like is used.
- FIG. 2 is a block diagram illustrating a configuration example of the image processing apparatus 200.
- the image processing apparatus 200 includes a parallax acquisition unit 210, a caption data acquisition unit 220, a decoding unit 230, a caption data buffer 240, a synchronization control unit 250, a stereoscopic caption image generation unit 260, an edge processing unit 270, and a caption image synthesis unit. 280.
- the parallax acquisition unit 210 acquires parallax and PTS from the subtitle stream. Specifically, the parallax acquisition unit 210 acquires the PTS from the header of the PES packet in the subtitle stream, and acquires the parallax from the payload of the PES packet. The parallax acquisition unit 210 associates the PTS acquired from the same PES packet and the parallax and causes the caption data buffer 240 to hold the same.
- the subtitle data acquisition unit 220 acquires subtitle data and PTS from the subtitle stream. Specifically, the caption data acquisition unit 220 acquires PTS from the header of the PES packet in the caption stream, and acquires caption data from the payload of the PES packet.
- the parallax acquisition unit 210 associates the PTS and subtitle data acquired from the same PES packet and causes the subtitle data buffer 240 to hold them.
- the subtitle data acquisition unit 220 is an example of a subtitle information acquisition unit described in the claims.
- the decoding unit 230 decodes the moving image stream when the moving image stream is encoded.
- the decoding unit 230 decodes the moving image stream according to a decoding method corresponding to the encoding method of the moving image stream.
- the decoding unit 230 supplies the decoded video stream to the caption image synthesis unit 280. Further, the decoding unit 230 acquires the PTS from the subtitle stream and supplies the PTS to the synchronization control unit 250.
- the synchronization control unit 250 supplies caption data and parallax to the stereoscopic caption image generation unit 260 in synchronization with the display timing of the moving image. Specifically, the synchronization control unit 250 receives the PTS acquired by the decoding unit 230 and determines whether or not the subtitle data buffer 240 holds a PTS having a value that matches the PTS. If held, the synchronization control unit 250 reads caption data and parallax corresponding to the PTS from the caption data buffer 240. The synchronization control unit 250 supplies the read caption data and parallax to the stereoscopic caption image generation unit 260.
- the stereoscopic caption image generation unit 260 generates stereoscopic caption images (left caption image and right caption image) for stereoscopic display at a display position corresponding to parallax from caption data. Specifically, when the caption data includes a caption image, the stereoscopic caption image generation unit 260 includes, in the image, an image in which the caption image is shifted leftward as viewed from the viewer according to the parallax; An image shifted rightward is generated. The stereoscopic caption image generation unit 260 sets one of these as the left caption image and the other as the right caption image.
- the stereoscopic subtitle image generation unit 260 When the subtitle data includes a character string representing the subtitle, the stereoscopic subtitle image generation unit 260 generates an image in which the character string is drawn as a subtitle image, and shifts the subtitle image left and right to shift the left subtitle image and the right subtitle image. Generate subtitle images.
- the stereoscopic caption image generation unit 260 supplies the generated stereoscopic caption image to the edge processing unit 270 together with the parallax.
- the edge processing unit 270 changes the edge strength in the stereoscopic caption image according to the parallax.
- the edge strength means the degree of abrupt change in pixel values around the edge. When the degree of change is large (that is, the edge strength is strong), the edge looks clear. On the other hand, when the degree of change is small (that is, the edge strength is weak), the edge looks blurred.
- the edge processing unit 270 enhances the edge by increasing the edge strength according to the parallax when the display position where the stereoscopic caption image is displayed is closer to the reference position. On the other hand, when the display position of the stereoscopic caption image is on the far side from the reference position, the edge processing unit 270 blurs the edge by reducing the edge strength according to the parallax. Such processing makes it possible to emphasize perspective using the optical illusion.
- This reference position is set to the position of the display surface of the display device 300, for example.
- the edge processing unit 270 supplies the stereoscopic caption image with the changed edge strength to the caption image synthesis unit 280.
- the subtitle image synthesis unit 280 synthesizes a three-dimensional subtitle image with changed edge strength into a moving image.
- the subtitle image synthesis unit 280 supplies a moving image stream obtained by synthesizing the stereoscopic subtitle image to the display device 300.
- FIG. 3 is a block diagram illustrating a configuration example of the edge processing unit 270 according to the first embodiment.
- the edge processing unit 270 includes a high-pass filter 271, a gain correction unit 272, a delay buffer 273, and an edge synthesis unit 274.
- the high-pass filter 271 extracts a region where the frequency of distribution of pixel values (for example, luminance value) is higher than a predetermined threshold in the stereoscopic caption image as an edge region.
- the high pass filter 271 supplies the extracted region to the gain correction unit 272 as an edge region.
- the high-pass filter 271 is an example of an edge extraction unit described in the claims.
- the gain correction unit 272 corrects the pixel value in the edge region according to the parallax. Specifically, the gain correction unit 272 calculates a gain G for increasing or decreasing the pixel value according to the following expression 1.
- the unit of gain is, for example, decibel (dB).
- G ( ⁇ ⁇ ) ⁇ D / Dm Equation 1
- ⁇ is a correction coefficient for correcting the gain, and a real number is set.
- the gain G determined based only on the parallax D acquired by the parallax acquisition unit 210 the lack of perspective may not be resolved, and the perspective may be excessively emphasized.
- the gain is corrected using the coefficient ⁇ .
- D is a parallax defined on the basis of Dm, and Dm indicates the number of stages for dividing the parallax of the respective ranges on the near side or the far side.
- Dm indicates the number of stages for dividing the parallax of the respective ranges on the near side or the far side.
- the acquired parallax D is used as an amount by which the left subtitle image and the right subtitle image are shifted in the horizontal direction with respect to the right subtitle image.
- the caption image is stereoscopically displayed in front of the reference position in the depth direction, and when the parallax D is a positive number, the caption image is stereoscopically displayed behind the reference position.
- the parallax D is “0”, the caption image is displayed at the reference position, but is not visually recognized in three dimensions.
- the edge processing unit 270 increases or decreases the pixel value of the edge region in accordance with the following Expression 2, and supplies the edge region to the edge synthesis unit 274.
- G 20 ⁇ log (P out / P in ) Equation 2
- Pin is a pixel value before increase or decrease
- / Pout is a pixel value after increase or decrease. From Equation 1 and Equation 2, when the parallax D is a negative number (that is, the display position is on the near side), a gain G greater than “0” is calculated, and the pixel value of the edge region increases.
- the gain correction unit 272 is an example of a correction unit described in the claims.
- the delay buffer 273 delays the stereoscopic caption image input from the stereoscopic caption image generation unit 260 and supplies the delayed caption image to the edge synthesis unit 274.
- the delay time is set to be equal to or longer than the time required for processing in the high pass filter 271 and the gain correction unit 272, for example.
- the edge synthesizing unit 274 synthesizes an edge region with a stereoscopic caption image.
- the edge strength is changed by combining the edge regions whose pixel values have been changed. Specifically, when an edge region having an increased pixel value is combined, the edge strength is increased and the edge is emphasized. On the other hand, when an edge region with a reduced pixel value is synthesized, the edge strength becomes weak and the edge is blurred.
- the edge synthesizing unit 274 supplies the three-dimensional subtitle image obtained by synthesizing the edge region to the subtitle image synthesizing unit 280.
- the edge processing unit 270 extracts edges using the high-pass filter 271, but the edge processing unit 270 may extract edges using other methods.
- the gradient may be calculated by first differentiating the image, the direction of the edge may be predicted from the direction of the gradient, and a portion where the gradient in the direction is locally maximum may be extracted as the edge.
- the edge processing unit 270 blurs the edge by correcting the gain, but may blur the edge by other methods.
- the edge may be blurred using an average filter that replaces the average value of the pixel values around the pixel of interest with the pixel value of the pixel of interest.
- the parallax D is defined with reference to the right subtitle image.
- the left subtitle image and the right subtitle image in the horizontal direction are used as the parallax D with the left subtitle image as a reference.
- the parallax D is a positive number when the display position is the front side, and the parallax D is a negative number when the display position is the back side.
- G is calculated using the following Expression 3.
- G ⁇ ⁇ D / Dm Equation 3 From Equation 3, when the parallax D is a positive number, a gain G greater than “0” is calculated, and when the parallax D is a negative number, a gain G smaller than “0” is calculated.
- FIG. 4 is a diagram illustrating an example of gain correction in the first embodiment.
- the horizontal axis represents the signal level (that is, pixel value) input to the gain correction unit 272, and the vertical axis represents the signal level (pixel value) output after gain correction.
- the gain when the gain is larger than “0”, the signal level is amplified, and the output signal level becomes larger than the input signal level.
- the edge is emphasized by the synthesis of the edge region.
- the gain is smaller than “0”
- the signal level is attenuated and the output signal level becomes smaller than the input signal level.
- the edge is blurred by the synthesis of the edge region.
- FIG. 5 is a diagram illustrating an example of a distribution of pixel values before and after edge processing in the first embodiment.
- the vertical axis represents the pixel value of the pixel
- the horizontal axis represents the pixel coordinate.
- a in the figure is an example of the distribution of pixel values before edge processing. For example, an area indicated by a dotted line a in FIG. 4 is extracted as an edge area by the high-pass filter 271 because the change in pixel value is large.
- FIG. 5 is an example of the distribution of pixel values when the edge strength is increased.
- the edge processing unit 270 increases the pixel value of the edge region exemplified in a in the figure and synthesizes it with the extraction source stereoscopic caption image, the pixel value of the edge region changes as shown in b in the figure. It becomes larger and the edge is emphasized.
- C in FIG. 5 is an example of the distribution of pixel values when the edge strength is weakened.
- the edge processing unit 270 reduces the pixel value of the edge region exemplified in a in the figure and synthesizes it to the extraction source stereoscopic caption image, the pixel value of the edge region changes as shown in c in the figure. It becomes smaller and the edges are blurred.
- FIG. 6 is a diagram illustrating a configuration example of a moving image stream according to the first embodiment.
- the moving image stream is encoded in a unit called GOP (Group Of Pictures), and is decoded in the decoding unit 230 in units of the GOP.
- This GOP is a set of images including at least one I (Intra) picture that serves as a reference in encoding.
- FIG. 9A a state in which the GOP 610 is configured by a total of 15 images 611 including one I picture, four P (Predirective) pictures, and 10 B (Bidirectionally predictive) pictures is shown. Yes.
- the I picture is an image used as a reference in encoding.
- the P picture is an image that is encoded using a difference from the temporally preceding I picture or P picture.
- a B picture is an image that is encoded using a difference from an I picture or a P picture in both the front and rear directions in terms of time.
- the 15 images in the GOP are encoded with a part of the order changed as illustrated in FIG. This is based on the characteristics of the encoding method in the MPEG standard, and is for avoiding waiting for a subsequent image in time at the time of decoding. For example, in order to decode a B picture (B5), it is necessary to refer to an I picture (I3) and a P picture (P6). For this reason, the replacement as shown in b in the figure must be performed so that the necessary image data (I3 and P6) are prepared when the B picture (B5) is decoded. In order to define the order relationship of the images 521, time stamps of PTS 622 and DTS (Decoding Time Stamp) 623 are added to the pack header of V_PCK.
- PTS 622 and DTS Decoding Time Stamp
- the PTS 622 is reproduction output time management information, and indicates when a unit image to which the time stamp is attached is reproduced and output.
- the DTS 623 is decoding time management information, and indicates when the unit image to which the time stamp is given is decoded.
- Each encoded image is stored in one or more packs as illustrated in c in FIG.
- a pack is obtained by connecting a plurality of PES packets and adding a pack header.
- the I picture (I3) is held as V_PCK_I3 (530)
- the B picture (B1) is held as V_PCK_B1 (531).
- ARI_PCK520 including auxiliary data is multiplexed together with A_PCK520.
- the multiplexed pack group constitutes a moving image stream.
- FIG. 7 is a diagram illustrating a configuration example of a subtitle stream in the embodiment.
- the subtitle stream is composed of a PES packet group independent of the moving image stream.
- This PES packet is a packet obtained by dividing data (caption data, parallax, etc.) constituting a caption stream as necessary and adding a header.
- Each PES packet in the subtitle stream includes a packet header and a payload.
- the packet header describes PTS and the like.
- the payload stores subtitle data displayed at the timing indicated by the PTS and the parallax of the subtitle data. Also, the payload stores the horizontal and vertical coordinates of the area where the caption data is displayed, and the configuration of the main image (horizontal and vertical coordinate ranges, etc.) in which the caption data is synthesized.
- FIG. 8 is a diagram illustrating an example of a data configuration of the PES packet in the caption stream according to the embodiment.
- data is described according to the DVB (Digital Video Broadcasting) standard.
- the header of the PES packet describes the identification information (Stream_id) of the caption stream, the PES packet length (PES_packet_length), the PTS of the caption data, and the like.
- an indicator (PES_alignment_indicator) indicating that caption data is arranged in the PES packet is described.
- the field of “PES_packet_data_byte” stores the payload of the PES packet (data in “PES_data_field”).
- each component data of a subtitle stream is called a “segment”.
- the details of each “segment” are described in the field “subtitle_segment ()” in FIG. Specifically, information (sync_byte) for specifying the start position of “segment” is described in “subtitle_segment ()”. Also, in this field, the type (segment_type) of “segment”, its length (segment_length), and identification information (page_id) of the main image in which “segment” is used are described.
- the type of “segment” includes, for example, caption data, parallax, composition information of caption data (such as horizontal coordinates and vertical coordinates of the displayed area), and composition of the main image (horizontal coordinates and Vertical coordinate range).
- FIG. 9 is a diagram illustrating an example of data stored in the PES packet according to the embodiment.
- an area called “segment_type” or “segment_data_field ()” is provided in “subtitle_segment ()” in the payload of the PES packet.
- caption data and parallax are stored in “segment_data_field ()”.
- subtitle data is stored as “segment” in “segment_data_field ()”
- “0x13” indicating that “segment” is subtitle data is described in the “segment_type” field, as indicated by a in FIG.
- FIG. 10 is a diagram illustrating a configuration example of the caption data buffer 240.
- the subtitle data buffer 240 holds parallax and subtitle data in association with the PTS.
- the parallax acquired from the PES packet to which the PTS is added is stored in the caption data buffer 240 in association with the PTS.
- the caption data acquired from the PES packet to which the PTS is added is stored in the caption data buffer 240 in association with the PTS.
- Subtitle data and parallax with a common PTS are held in association with the PTS. For example, when “subtitle data # 1” and the parallax of “10” are held in association with “PTS # 1”, “subtitle data # 1” and “10” are stored at the timing of “PTS # 1”. Read out. “Subtitle data # 1” is stereoscopically displayed at a position corresponding to the parallax “10”.
- FIG. 11 is a diagram illustrating an example of the operation of the image processing apparatus 200 according to the embodiment. This operation starts when, for example, a moving image stream and a caption stream are input to the image processing apparatus 200.
- the parallax acquisition unit 210 in the image processing apparatus 200 acquires the PTS and the parallax from the subtitle stream, and stores them in the subtitle data buffer 240 (step S901). Also, the caption data acquisition unit 220 acquires caption data and parallax from the caption stream and stores them in the caption data buffer 240 (step S902).
- the synchronization control unit 250 reads caption data and parallax corresponding to the PTS acquired from the video stream from the caption data buffer 240. Then, the stereoscopic caption image generation unit 260 generates a stereoscopic caption image from the read caption data (step S903).
- the edge processing unit 270 extracts an edge from the stereoscopic caption image (step S904), and changes the edge strength according to the acquired parallax (step S905).
- the caption image synthesis unit synthesizes the stereoscopic caption image with the changed edge strength with the stereoscopic main image (step S906). After step S906, the image processing apparatus 200 returns to step S901.
- FIG. 12 is a diagram for explaining the parallax in the embodiment.
- Reference horizontal coordinates of the right image displayed on the display surface of the display device 300 e.g., the center of the horizontal coordinates
- the value of the horizontal coordinate is smaller as it is on the left side when viewed from the viewer.
- a value obtained by subtracting X L from X R is used as the parallax D.
- the distance between the left eye and the right eye is set as a base distance B
- the distance from the viewer to the display device 300 is set as f
- the display position of a stereoscopic image viewed stereoscopically in the depth direction is set as Zp.
- D: f B: Zp
- the parallax D to be displayed on Zp is obtained by Expression 4 and distributed by the subtitle stream.
- the edge strength of the subtitle image is changed by the gain G obtained by Expression 1.
- the degree of perspective due to the gain G is adjusted by changing the correction coefficient ⁇ in Equation 1.
- FIG. 13 is a diagram illustrating an example of a stereoscopic display method according to the embodiment.
- a in the figure is a figure which shows an example of the display method for displaying a subtitle image on the near side.
- the coordinates of the right subtitle image 701 are on the left side when viewed from the viewer, and the coordinates of the left subtitle image 702 are on the right side when viewed from the viewer.
- the display device 300 displays these images so that the left subtitle image 702 appears in the left eye of the viewer and the right subtitle image 701 appears in the right eye, the viewer displays the subtitle image 801 on the near side. Can be visually recognized.
- 13b is a diagram illustrating an example of a display method for displaying a caption image at the reference position. It is assumed that the horizontal coordinates of the right subtitle image 701 and the left subtitle image 702 do not change. In this case, when the display device 300 displays these images so that the left caption image 702 appears on the viewer's left eye and the right caption image 701 appears on the right eye, the caption appears on the display surface (reference position) of the display device 300. It is visually recognized as an image 801 is displayed. At this time, the caption image 801 is not viewed stereoscopically.
- 13c is a diagram illustrating an example of a display method for displaying a caption image on the back side.
- the coordinates of the right subtitle image 701 are on the right side when viewed from the viewer, and the coordinates of the left subtitle image 702 are on the left side when viewed from the viewer.
- the display device 300 displays these images so that the left caption image 702 appears in the viewer's left eye and the right caption image 701 appears in the right eye, the viewer displays the caption image 801 on the back side. As can be seen, it can be viewed three-dimensionally.
- FIG. 14 is a diagram illustrating an example of a three-dimensional subtitle image that emphasizes perspective in the embodiment.
- a in the same figure is a figure which shows an example of the three-dimensional caption image displayed on the near side.
- the image processing apparatus 200 increases the edge strength according to the parallax in the stereoscopic caption images (701 and 702). As a result, the edge of the caption image 801 is emphasized as the display position of the caption image 801 visually recognized by the viewer is closer to the front.
- 14b is a diagram illustrating an example of a stereoscopic caption image in which a caption image is displayed on the back side.
- the image processing apparatus 200 weakens the edge strength according to the parallax in the stereoscopic caption images (701 and 702).
- the edge of the subtitle image 801 is blurred as the display position of the subtitle image 801 visually recognized by the viewer is farther away.
- the image processing device 200 can enhance the perspective of the caption image by changing the edge strength of the stereoscopic caption image according to the parallax. .
- the viewer does not feel lack of perspective of the caption image.
- the image processing apparatus 200 supplies the stereoscopic subtitle image to the high-pass filter 271 as it is.
- the image processing apparatus 200 can also supply the stereoscopic caption image to the high-pass filter 271 after converting it into a periodic function.
- the image processing apparatus 200 according to the modified example is different from the first embodiment in that the stereoscopic caption image is converted into a handwritten function before the high-pass filter 271.
- the edge processing unit 270 further includes a periodic function conversion unit 275 and an inverse conversion unit 276.
- the periodic function conversion unit 275 converts a coordinate space function into a frequency space function (periodic function) in the stereoscopic caption image. Specifically, the periodic function conversion unit 275 converts the stereoscopic caption image into a periodic function using, for example, the following Expression 5.
- the transformation according to Equation 3 is called Fourier transformation.
- the periodic function conversion unit 275 may use an expression other than Expression 5 as long as it can be converted into a periodic function.
- x is the horizontal coordinate of the stereoscopic caption image
- y is the vertical coordinate.
- P (x, y) is a function in the coordinate space that returns the pixel value of the coordinates when the coordinates (x, y) are input.
- k is a spatial frequency in the horizontal direction
- l is a spatial frequency in the vertical direction
- F (k, l) is a function that, when a spatial frequency (k, l) is input, returns a periodic function representing a set of component waves having the spatial frequency.
- the component wave is a wave having, as a waveform, a locus of pixel values that periodically changes with changes in coordinates in the image.
- M is the number of pixels in the horizontal direction of the stereoscopic caption image
- N is the number of pixels in the vertical direction of the stereoscopic caption image.
- W N and W N are exponential functions defined by the following equations 6 and 7.
- the periodic function conversion unit 275 supplies a set of component waves represented by the converted periodic function to the high pass filter 271.
- the high pass filter 271 extracts a component wave having a frequency equal to or higher than a predetermined threshold among the component waves as an edge component wave.
- the high pass filter 271 supplies the extracted edge component wave to the inverse transform unit 276.
- the inverse conversion unit 276 converts the edge component wave into a set of pixel values P (x, y) using the following Expression 8.
- the inverse conversion unit 276 sets an area including the pixel (x, y) from which the pixel value P (x, y) is obtained as an edge area.
- FIG. 16 is a diagram for explaining an edge region extraction method according to the modification of the first embodiment.
- a in the same figure is a figure which shows an example of distribution of a pixel value.
- the vertical axis of a in the figure is the pixel value P (x, y), and the horizontal axis is the coordinate (x, y).
- x is a horizontal coordinate
- y is a vertical coordinate.
- the pixel value P (x, y) is a pixel value at coordinates (x, y).
- B in FIG. 16 is a diagram illustrating an example of a frequency distribution obtained by performing a Fourier transform on the pixel value P (x, y).
- the vertical axis of b is the amplitude spectrum
- , and the horizontal axis is the spatial frequency k.
- the distribution of the spatial frequency l is omitted.
- a component wave having a threshold value Th_k or more is extracted as an edge component wave by the high-pass filter 271.
- 16 is a diagram illustrating an example of a distribution of pixel values P (x, y) obtained by inversely transforming the extracted edge component wave. As shown in c in the figure, an area composed of pixels (x, y) having a converted pixel value P (x, y) is extracted as an edge area.
- the image processing apparatus 200 extracts the edge component wave after generating the distribution of the periodic function, and thus can extract the edge region more accurately.
- FIG. 17 is a block diagram illustrating a configuration example of the image processing apparatus 200 according to the second embodiment.
- the image processing apparatus 200 according to the second embodiment is different from the first embodiment in that sub-pixel correction is further performed.
- the image processing apparatus 200 according to the first embodiment further includes a subpixel correction unit 290.
- the sub-pixel correction is an apparent pixel (hereinafter referred to as “sub-pixel”) between an actual pixel and a pixel on the display surface by mixing pixel values of adjacent pixels in the image. It is a process of making the viewer visually recognize that there is.
- an image subjected to subpixel correction is referred to as a “subpixel image”.
- the subpixel is an example of a subpixel described in the claims.
- the image processing apparatus 200 shifts the horizontal coordinates of the left caption image and the right caption image in units of pixels. .
- the image processing device 200 shifts the stereoscopic caption image in units of subpixels by replacing some stereoscopic caption images with subpixel images.
- adjacent pixels are mixed, so that the edge strength becomes weak. Therefore, when performing sub-pixel correction, it is desirable for the image processing apparatus 200 to increase the edge strength as much as it is weakened by the sub-pixel correction.
- the subpixel correction unit 290 performs subpixel correction on the stereoscopic caption image based on the parallax.
- a parallax change in which the pixel shift amount of the stereoscopic caption image corresponds to one pixel is performed within a period of n frames.
- the sub-pixel correction unit 290 performs sub-pixel correction on the n ⁇ 2 frames excluding the first and last frames in the time series out of the n frames to obtain a sub-pixel image.
- the sub-pixel correction unit 290 performs sub-subtraction on one frame other than the first and last frames out of the three frames. Perform pixel correction.
- phase difference the difference between the horizontal coordinate of the pixel closer to the sub-pixel and the horizontal coordinate of the sub-pixel. Since the subpixel is located between the pixels, the phase difference has a value of “ ⁇ 0.5” to “0.5”. However, a phase difference of “0” indicates that subpixel correction is not performed.
- This phase difference is determined according to the parallax. Specifically, when the parallax change corresponding to one pixel in the shift amount is performed within a period of n frames, the phase difference between the first and last frames in the time series among the n frames is set to “0”. .
- the phase difference P of the kth frame (k is an integer from 1 to n) in the time series increases as k approaches 1/2 from k, and k is n / 2. Is determined so as to become smaller as it approaches n.
- the shift direction is a negative direction
- the phase difference P is determined so as to decrease as k approaches 1/2 from n, and to increase as k approaches n / 2 from n / 2.
- the phase difference between the first and third frames is “0”, and the phase difference between the second frames is It is determined to be “0.5”.
- the subpixel correction unit 290 supplies the subtitle corrected stereoscopic caption image, the phase difference P, and the parallax D to the edge processing unit 270.
- the edge processing unit 270 calculates the gain using Expression 1.
- the gain is obtained using the following equation 9 instead of equation 1.
- G
- the gain increases according to the absolute value of the phase difference.
- the edge is emphasized as much as the edge intensity is weakened by the sub-pixel correction.
- the pixel unit parallax is D, but the sub-pixel unit parallax may be used as D.
- FIG. 18 is a diagram illustrating an example of sub-pixel correction in the second embodiment.
- a in the same figure is a figure which shows an example of the subpixel correction
- the pixel values of the pixels of horizontal coordinates X 1 , X 1 +1 and X 1 +2 are P X1 , P X1 + 1 and P X1 + 2 .
- the pixel values of adjacent pixels are mixed at a mixing ratio corresponding to the phase difference.
- the phase difference P is a positive number
- the pixel value P X1 ′ after subpixel correction at the horizontal coordinate X 1 is calculated by the following Expression 10.
- P X1 ′ P ⁇ P X1 + (1 ⁇ P) ⁇ P X1 + 1 Formula 10
- the pixel value P X1 ′ is an average value of the pixel values P X1 and P X1 + 1 .
- pixel values P X1 + 1 and P X1 + 2 are also replaced by the average between adjacent pixels.
- FIG. 18 is a diagram for explaining a subpixel correction method according to the second embodiment.
- the image processing apparatus 200 has a subpixel between the actual pixel and the pixel. Can show.
- FIG. 19 is a diagram illustrating an example of the left subtitle image and the right subtitle image before and after subpixel correction in the second embodiment.
- a in the same figure is a figure which shows an example of the left subtitle image and right subtitle image in the case of performing the change of the parallax in which the shift amount is equivalent to 1 pixel without subpixel correction within the period of 3 frames.
- the image processing device 200 makes the left end coordinates of the left subtitle images # 1 and # 2 equal and sets the next left subtitle image # 3. Is shifted by one pixel to change the parallax.
- the left subtitle image # 3 is shifted to the right as viewed from the viewer.
- the image processing apparatus 200 changes the parallax by shifting only the right subtitle image # 3 by one pixel. Note that the left subtitle image # 2 and the right subtitle image # 2 are omitted in a in FIG.
- FIG. 19B is a diagram illustrating an example of the left subtitle image and the right subtitle image when the change in parallax corresponding to one pixel in the shift amount is performed by sub-pixel correction within the period of three frames.
- the image processing device 200 replaces the left subtitle image # 2 among the left subtitle images # 1, # 2 and # 3 with a subpixel image, and the right subtitle image # 1 among the right subtitle images # 1, # 2 and # 3. Replace 2 with the subpixel image.
- the left subtitle image and the right subtitle image are shifted in units of sub-pixels, and the depth is smoothly changed as compared with the case of being shifted in units of pixels.
- FIG. 20 is a graph illustrating an example of a relationship between a change in parallax and a change in coordinates of a caption image in the second embodiment.
- the vertical axis is the horizontal coordinate of the left end of the left subtitle image
- the horizontal axis is the parallax.
- An alternate long and short dash line indicates a change in the coordinates of the caption image with respect to a change in parallax when the subpixel correction is not performed.
- a solid line indicates a change in the coordinates of the caption image with respect to a change in parallax when subpixel correction is performed.
- the left subtitle image is shifted in units of pixels in accordance with a change in parallax.
- the right subtitle image is also shifted in units of pixels.
- the left subtitle image is shifted in units of sub-pixels according to the change in parallax.
- the right subtitle image is also shifted in subpixel units. For this reason, the depth of the stereoscopic caption image is smoothly changed as compared with the case where the left caption image and the right caption image are shifted in units of pixels.
- the image processing apparatus 200 changes the edge strength according to the mixing ratio and the parallax in the sub-pixel correction, so that the subtitle is changed while smoothly changing the depth.
- the perspective of the image can be emphasized.
- the processing procedure described in the above embodiment may be regarded as a method having a series of these procedures, and a program for causing a computer to execute these series of procedures or a recording medium storing the program. You may catch it.
- a recording medium for example, a CD (Compact Disc), an MD (MiniDisc), a DVD (Digital Versatile Disc), a memory card, a Blu-ray disc (Blu-ray (registered trademark) Disc), or the like can be used.
- this technique can also take the following structures.
- a caption information acquisition unit that acquires caption information to be combined with a stereoscopic main image;
- a parallax acquisition unit for acquiring parallax for stereoscopic display of the caption information;
- a stereoscopic caption image generating unit that generates a stereoscopic caption image stereoscopically displayed at a display position corresponding to the parallax from the caption information;
- An image processing apparatus comprising: an edge processing unit that changes edge strength in the stereoscopic caption image according to the parallax.
- the edge processing unit increases the strength of the edge according to the parallax when the display position is on the near side from a predetermined reference position, and the display position is on the back side with respect to the reference position.
- the image processing apparatus wherein the edge intensity is decreased according to the parallax. (3) further comprising a pixel mixing unit that mixes pixel values of each of the adjacent pixels based on a mixing ratio according to a position of a sub-pixel to be displayed between adjacent pixels in the stereoscopic caption image; The image processing apparatus according to (1) or (2), wherein the edge processing unit changes the intensity of the edge according to the position and the parallax. (4) The image processing device according to (3), wherein the pixel mixing unit sets a position corresponding to the parallax as a position of the sub-pixel.
- the edge processing unit An edge extraction unit that extracts the edge region in the stereoscopic caption image; A correction unit that increases or decreases the pixel value in the extracted edge region according to the parallax; 5.
- the image processing apparatus according to any one of (1) to (4), further including an edge composition unit configured to modify the edge strength by compositing the edge region in which the pixel value is increased or decreased with the stereoscopic caption image.
- Image processing apparatus (6) The image processing apparatus according to (5), wherein the edge extraction unit extracts, as the edge region, a region in which a pixel value distribution frequency is higher than a predetermined threshold in the stereoscopic caption image.
- the image processing device further including a caption synthesizing unit that synthesizes the stereoscopic caption image with the edge strength changed to the stereoscopic main image.
- a subtitle information acquisition unit in which the subtitle information acquisition unit acquires subtitle information to be combined with the stereoscopic main image;
- a parallax acquisition unit for acquiring parallax for stereoscopic display of the caption information;
- a stereoscopic subtitle image generation unit for generating a stereoscopic subtitle image stereoscopically displayed at a display position corresponding to the parallax from the caption information;
- An image processing method comprising: an edge processing procedure in which an edge processing unit changes an edge strength in the stereoscopic caption image according to the parallax.
- a subtitle information acquisition unit for acquiring subtitle information to be combined with the stereoscopic main image;
- a parallax acquisition unit for acquiring parallax for stereoscopic display of the caption information;
- a stereoscopic subtitle image generation unit for generating a stereoscopic subtitle image stereoscopically displayed at a display position corresponding to the parallax from the caption information;
- a program for causing an computer to execute an edge processing procedure in which an edge processing unit changes edge strength in the stereoscopic caption image according to the parallax.
- DESCRIPTION OF SYMBOLS 100 Receiver 200 Image processor 210 Parallax acquisition part 220 Subtitle data acquisition part 230 Decoding part 240 Subtitle data buffer 250 Synchronization control part 260 Three-dimensional subtitle image generation part 270 Edge processing part 271 High pass filter 272 Gain correction part 273 Delay buffer 274 Edge composition Unit 275 periodic function conversion unit 276 inverse conversion unit 280 subtitle image synthesis unit 290 subpixel correction unit 300 display device
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Controls And Circuits For Display Device (AREA)
- Processing Or Creating Images (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
字幕画像の遠近感を強調する。 画像処理装置は、字幕情報取得部、視差取得部、立体字幕画像生成部、および、エッジ処理部を備える。字幕情報取得部は、立体主画像に合成される字幕情報を取得する。視差取得部は、字幕情報を立体表示させるための視差を取得する。立体字幕画像生成部は、視差に応じた表示位置に立体表示される立体字幕画像を字幕情報から生成する。エッジ処理部は、立体字幕画像におけるエッジの強度を前記視差に応じて変更する。
Description
本技術は、画像処理装置、画像処理方法および当該方法をコンピュータに実行させるためのプログラムに関する。詳しくは、字幕を動画に合成する画像処理装置、画像処理方法および当該方法をコンピュータに実行させるためのプログラムに関する。
従来から、立体的に視認できるように動画を表示(すなわち、立体表示)する表示装置が用いられている。例えば、動画を構成する画像として視差のある左側画像および右側画像を撮像しておき、左側画像が左目に映り右側画像が右目に映るように、表示装置がそれらを表示することにより、動画を立体的に見せることができる。表示の際には、時分割で左右の画像を表示装置が交互に表示し、その切り替えタイミングに同期して、専用メガネが左右のシャッターを動作させるアクティブシャッターグラス方式などが用いられる。
上述のような表示装置において、動画にクローズドキャプションを合成する技術が提案されている(例えば、特許文献1参照。)。クローズドキャプションとは、表示装置が、字幕の表示、非表示などを制御することができるように動画と独立して生成された字幕である。これに対して、動画に合成された形式で供給され、表示装置が表示、非表示等を制御することができない字幕はオープンキャプションと呼ばれる。
表示装置がクローズドキャプションを合成する場合、そのクローズドキャプションも立体表示させることが考えられる。字幕の立体表示の際には、通常、字幕を表す平面的な字幕画像が生成され、その字幕画像は、2D-3D変換の技術を利用して、立体表示させるための画像に変換される。この2D-3D変換は、立体表示するための画像でないものを、立体表示させるための画像に変換する技術である。具体的には、平面的な通常の画像を水平方向において左右にずらして2枚の画像を生成し、それらの一方を左目に映すための左側画像とし、他方を右目に映すための右側画像とする手法が用いられる(例えば、特許文献2参照)。
しかしながら、上述の従来技術では、字幕画像を立体表示させる場合に遠近感を強調することができない。特許文献2に記載の2D-3D変換では、平面的な画像を単にシフトさせているだけであり、このような手法を用いて平面的な字幕画像を立体表示させても、立体物が写った動画を立体表示した場合と比較して、字幕画像の遠近感が不足してしまう。このため、字幕画像を立体表示する場合は、その字幕画像の遠近感を強調することが望ましい。ところが、上述の従来技術では、画像の遠近感を変更する処理を行わないため、字幕画像を立体表示させる場合にこれらの技術を適用すると、遠近感が不足してしまうという問題がある。
本技術はこのような状況に鑑みて生み出されたものであり、字幕画像の遠近感を強調することを目的とする。
本技術は、上述の問題点を解消するためになされたものであり、その第1の側面は、立体主画像に合成される字幕情報を取得する字幕情報取得部と、前記字幕情報を立体表示させるための視差を取得する視差取得部と、前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成部と、前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理部とを具備する画像処理装置、およびその画像処理方法ならびに当該方法をコンピュータに実行させるためのプログラムである。これにより、視差に応じて立体字幕画像におけるエッジの強度が変更される。
また、この第1の側面において、前記エッジ処理部は、前記表示位置が所定の基準位置より手前側である場合には前記視差に応じて前記エッジの強度を強くし、前記表示位置が前記基準位置より奥側である場合には前記視差に応じて前記エッジの強度を弱くしてもよい。これにより、表示位置が基準位置より手前側である場合には視差に応じてエッジの強度が強くなり、表示位置が基準位置より奥側である場合には視差に応じてエッジの強度が弱くなる。
また、この第1の側面において、前記立体字幕画像において隣接する画素間に表示させる副画素の位置に応じた混合率に基づいて前記隣接する画素の各々の画素値を混合する画素混合部をさらに具備し、前記エッジ処理部は、前記位置および前記視差に応じて前記エッジの強度を変更してもよい。これにより、副画素の位置および視差に応じてエッジの強度が変更される。
また、この第1の側面において、前記画素混合部は、前記視差に応じた位置を前記副画素の位置としてもよい。これにより、視差に応じた位置が副画素の位置とされる。
また、この第1の側面において、前記エッジ処理部は、前記立体字幕画像において前記エッジの領域を抽出するエッジ抽出部と前記抽出されたエッジの領域における画素値を前記視差に応じて増大または減少させる補正部と、前記画素値が増大または減少された前記エッジの領域を前記立体字幕画像に合成することにより前記エッジの強度を変更するエッジ合成部とを具備してもよい。これにより、視差に応じて画素値を増大または減少したエッジの領域を前記立体字幕画像に合成することによりエッジの強度が変更されるという作用をもたらす。
また、この第1の側面において、前記画素値が増大または減少された前記エッジの領域を前記立体字幕画像に合成することにより前記エッジの強度を変更する前記エッジ抽出部は、前記立体字幕画像において画素値の分布の周波数が所定の閾値より高い領域を前記エッジの領域として抽出してもよい。これにより、立体字幕画像において画素値の分布の周波数が所定の閾値より高い領域がエッジの領域として抽出されるという作用をもたらす。
また、この第1の側面において、前記エッジの強度が変更された前記立体字幕画像を前記立体主画像に合成する字幕合成部をさらに具備してもよい。これにより、エッジの強度が変更された前記立体字幕画像が前記立体主画像に合成されるという作用をもたらす。
本技術によれば、字幕画像の遠近感を強調することができるという優れた効果を奏し得る。
以下、本技術を実施するための形態(以下、実施の形態と称する)について説明する。説明は以下の順序により行う。
1.第1の実施の形態(視差に応じてエッジ強度を変更する例)
2.第2の実施の形態(混合率および視差に基づいてエッジ強度を変更する例)
1.第1の実施の形態(視差に応じてエッジ強度を変更する例)
2.第2の実施の形態(混合率および視差に基づいてエッジ強度を変更する例)
<1.第1の実施の形態>
[情報処理システムの構成例]
図1は、実施の形態における情報処理システムの一例を示す全体図である。この情報処理システムは、受信装置100、画像処理装置200、および、表示装置300を備える。
[情報処理システムの構成例]
図1は、実施の形態における情報処理システムの一例を示す全体図である。この情報処理システムは、受信装置100、画像処理装置200、および、表示装置300を備える。
受信装置100は、動画ストリームおよび字幕ストリームを受信するものである。この動画ストリームは、所定の放送規格に準拠して放送局などから配信された動画のデータである。放送規格としては、例えば、DVB(Digital Video Broadcast)が使用される。この動画は、時系列に沿って表示される複数の画像を含む。また、この動画は、立体表示させるために作成された動画であり、動画内の画像の各々を以下、「立体主画像」と称する。立体主画像の各々は、視聴者の左目に映すための左側主画像と、右目に映すための右側主画像とを含む。
また、動画は、所定の符号化方式に従って必要に応じて符号化されている。符号化方式としては、例えば、MPEG(Moving Picture Expert Group)2-TS(Transport Stream)規格が用いられる。MPEG2-TSにおいて、符号化された画像は、PES(Packetized Elementary Stream)パケットに格納され、それぞれの画像にはPTS(Presentation Time Stamp)が付与される。PTSは、再生出力の時刻管理情報であり、そのタイムスタンプが付与された画像をいつ再生出力するかを示す。
なお、受信装置100は、アナログ放送を受信し、その放送波をA/D(Analog to Digital)変換することにより動画ストリームを生成してもよい。
受信装置100が受信する字幕ストリームは、放送局などから配信された字幕に関するデータである。具体的には、字幕ストリームは、字幕データおよび視差を含む。字幕データは、例えば、字幕を表わす画像(以下「字幕画像」と称する。)や字幕を表わす文字列を含む。視差は、字幕を立体表示させるためのものである。具体的には、字幕データから左側字幕画像および右側字幕画像が生成された場合において、それらの画像の水平方向におけるずれが視差に該当する。この左側字幕画像および右側字幕画像からなる画像を以下、「立体字幕画像」と称する。字幕データおよび視差も必要に応じて符号化されてPESパケットに格納され、各々の字幕データおよび視差にはPTSが付与される。このPTSは字幕をいつ再生出力するかを示す時刻管理情報であり、動画と同期して字幕を再生するために用いられる。
字幕ストリームは、動画ストリームに多重化されて配信される。受信装置100は、動画ストリームから字幕ストリームを分離し、分離後の動画ストリームおよび字幕ストリームを画像処理装置200に供給する。なお、受信装置100の代わりに、画像処理装置200が字幕ストリームを分離してもよい。
画像処理装置200は、動画ストリームおよび字幕ストリームに基づいて、動画に字幕を合成するものである。具体的には、画像処理装置200は、字幕ストリームから、視差および字幕データを取得し、その視差に応じた位置に立体表示される立体字幕画像を字幕データから生成する。画像処理装置200は、その立体字幕画像を動画に合成する。そして、画像処理装置200は、立体字幕画像が合成された動画を表示装置300に供給する。
なお、画像処理装置200は、放送局などから配信された動画ストリームおよび字幕ストリームを受信装置100から取得する構成としているが、動画記録装置などに記録された動画ストリームおよび字幕ストリームを画像処理装置200が取得してもよい。
表示装置300は、立体字幕画像が合成された動画を立体表示するものである。立体表示の方式としては、アクティブシャッターグラス方式、偏光表示方式や、視差バリア方式などが用いられる。
[画像処理装置の構成例]
図2は、画像処理装置200の一構成例を示すブロック図である。この画像処理装置200は、視差取得部210、字幕データ取得部220、復号部230、字幕データバッファ240、同期制御部250、立体字幕画像生成部260、エッジ処理部270、および、字幕画像合成部280を含む。
図2は、画像処理装置200の一構成例を示すブロック図である。この画像処理装置200は、視差取得部210、字幕データ取得部220、復号部230、字幕データバッファ240、同期制御部250、立体字幕画像生成部260、エッジ処理部270、および、字幕画像合成部280を含む。
視差取得部210は、字幕ストリームから視差およびPTSを取得するものである。具体的には、視差取得部210は、字幕ストリームにおけるPESパケットのヘッダからPTSを取得し、そのPESパケットのペイロードから視差を取得する。視差取得部210は、同じPESパケットから取得したPTSおよび視差を対応付けて字幕データバッファ240に保持させる。
字幕データ取得部220は、字幕ストリームから字幕データおよびPTSを取得するものである。具体的には、字幕データ取得部220は、字幕ストリームにおけるPESパケットのヘッダからPTSを取得し、そのPESパケットのペイロードから字幕データを取得する。視差取得部210は、同じPESパケットから取得したPTSおよび字幕データを対応付けて字幕データバッファ240に保持させる。なお、字幕データ取得部220は、特許請求の範囲に記載の字幕情報取得部の一例である。
復号部230は、動画ストリームが符号化されている場合に、その動画ストリームを復号するものである。この復号部230は、動画ストリームの符号化方式と対応する復号方式に従って、動画ストリームを復号する。復号部230は、復号した動画ストリームを字幕画像合成部280に供給する。また、復号部230は、字幕ストリームからPTSを取得して、同期制御部250に供給する。
同期制御部250は、動画の表示タイミングに同期して字幕データおよび視差を立体字幕画像生成部260に供給するものである。具体的には、同期制御部250は、復号部230が取得したPTSを受け取り、そのPTSに一致する値のPTSが字幕データバッファ240に保持されているか否かを判断する。保持されていれば、同期制御部250は、そのPTSと対応する字幕データおよび視差を字幕データバッファ240から読み出す。同期制御部250は、読み出した字幕データおよび視差を立体字幕画像生成部260に供給する。
立体字幕画像生成部260は、視差に応じた表示位置に立体表示するための立体字幕画像(左側字幕画像および右側字幕画像)を字幕データから生成するものである。具体的には、字幕データが字幕画像を含む場合には、立体字幕画像生成部260は、画像内において、その字幕画像を視差に応じて、視聴者から見て左方向にずらした画像と、右方向にずらした画像とを生成する。立体字幕画像生成部260は、これらの一方を左側字幕画像とし、他方を右側字幕画像とする。字幕データが、字幕を表わす文字列を含む場合は、立体字幕画像生成部260は、その文字列が描画された画像を字幕画像として生成し、その字幕画像を左右にずらして左側字幕画像および右側字幕画像を生成する。立体字幕画像生成部260は、生成した立体字幕画像を視差とともにエッジ処理部270に供給する。
エッジ処理部270は、立体字幕画像におけるエッジ強度を視差に応じて変更するものである。ここで、エッジ強度は、エッジ周辺の画素値の急峻な変化の度合いを意味する。変化の度合いが大きい(すなわち、エッジ強度が強い)と、エッジが鮮明に見える。一方、変化の度合いが小さい(すなわち、エッジ強度が弱い)と、エッジがぼけたように見える。
このエッジ処理部270は、立体字幕画像が表示される表示位置が基準位置より手前側である場合には、エッジ強度を視差に応じて強くしてエッジを強調する。一方、立体字幕画像の表示位置が基準位置より奥側である場合には、エッジ処理部270は、エッジ強度を視差に応じて弱くしてエッジをぼかす。この様な処理によって目の錯覚を利用して遠近感の強調を行う事が可能になる。この基準位置は、例えば、表示装置300の表示面の位置に設定される。エッジ処理部270は、エッジ強度を変更した立体字幕画像を字幕画像合成部280に供給する。
字幕画像合成部280は、エッジ強度が変更された立体字幕画像を動画に合成するものである。字幕画像合成部280は、立体字幕画像を合成した動画ストリームを表示装置300に供給する。
[エッジ処理部の構成例]
図3は、第1の実施の形態におけるエッジ処理部270の一構成例を示すブロック図である。エッジ処理部270は、ハイパスフィルター271、ゲイン補正部272、遅延バッファ273、および、エッジ合成部274を備える。
図3は、第1の実施の形態におけるエッジ処理部270の一構成例を示すブロック図である。エッジ処理部270は、ハイパスフィルター271、ゲイン補正部272、遅延バッファ273、および、エッジ合成部274を備える。
ハイパスフィルター271は、立体字幕画像において画素値(例えば、輝度値)の分布の周波数が所定の閾値より高い領域をエッジ領域として抽出するものである。ハイパスフィルター271は、抽出した領域をエッジ領域としてゲイン補正部272に供給する。なお、ハイパスフィルター271は、特許請求の範囲に記載のエッジ抽出部の一例である。
ゲイン補正部272は、エッジ領域の画素値を視差に応じて補正するものである。具体的には、ゲイン補正部272は、次の式1に従って、画素値を増大または減少させるためのゲインGを求める。ゲインの単位は、例えば、デジベル(dB)である。
G=(-α)×D/Dm 式1
式1において、αは、ゲインを補正するための補正係数であり、実数が設定される。視差取得部210において取得された視差Dのみに基づいて決定されたゲインGでは、遠近感の不足が解消されないことや、逆に遠近感が強調されすぎることがあるため、その場合には、補正係数αを用いてゲインが補正される。具体的には、遠近感が不足するとユーザが判断する場合にはより大きな補正係数αがユーザにより設定され、強調されすぎるとユーザが判断する場合にはより小さな補正係数がユーザにより設定される。Dは、Dmを基準として定義される視差であり、Dmは、手前側または奥側のそれぞれの範囲の視差を区分する段階数を示すものである。それぞれの範囲の視差Dを128段階で区分する場合、「128」が段階数Dmとして使用され、視差Dとして「-128」乃至「127」の値が画像処理装置200により取得される。取得された視差Dは、右側字幕画像を基準として左側字幕画像および右側字幕画像を水平方向にずらす量として用いられる。視差Dが負数である場合には、奥行き方向において、字幕画像が基準位置より手前側に立体表示され、視差Dが正数である場合には、字幕画像が基準位置より奥側に立体表示される。視差Dが「0」である場合には、字幕画像は基準位置に表示されるが、立体的には視認されない。
G=(-α)×D/Dm 式1
式1において、αは、ゲインを補正するための補正係数であり、実数が設定される。視差取得部210において取得された視差Dのみに基づいて決定されたゲインGでは、遠近感の不足が解消されないことや、逆に遠近感が強調されすぎることがあるため、その場合には、補正係数αを用いてゲインが補正される。具体的には、遠近感が不足するとユーザが判断する場合にはより大きな補正係数αがユーザにより設定され、強調されすぎるとユーザが判断する場合にはより小さな補正係数がユーザにより設定される。Dは、Dmを基準として定義される視差であり、Dmは、手前側または奥側のそれぞれの範囲の視差を区分する段階数を示すものである。それぞれの範囲の視差Dを128段階で区分する場合、「128」が段階数Dmとして使用され、視差Dとして「-128」乃至「127」の値が画像処理装置200により取得される。取得された視差Dは、右側字幕画像を基準として左側字幕画像および右側字幕画像を水平方向にずらす量として用いられる。視差Dが負数である場合には、奥行き方向において、字幕画像が基準位置より手前側に立体表示され、視差Dが正数である場合には、字幕画像が基準位置より奥側に立体表示される。視差Dが「0」である場合には、字幕画像は基準位置に表示されるが、立体的には視認されない。
エッジ処理部270は、例えば、次の式2に従ってエッジ領域の画素値を増大または減少させ、そのエッジ領域をエッジ合成部274に供給する。
G=20×log(Pout/Pin) 式2
式2において、Pinは、増大または減少前の画素値であり、/Poutは、増大または減少後の画素値である。式1および式2より、視差Dが負数(すなわち、表示位置が手前側)である場合には、「0」より大きなゲインGが算出され、エッジ領域の画素値が増大する。一方、視差Dが正数(すなわち、表示位置が奥側)である場合には、「0」より小さなゲインGが算出され、エッジ領域の画素値が減少する。なお、ゲイン補正部272は、特許請求の範囲に記載の補正部の一例である。
G=20×log(Pout/Pin) 式2
式2において、Pinは、増大または減少前の画素値であり、/Poutは、増大または減少後の画素値である。式1および式2より、視差Dが負数(すなわち、表示位置が手前側)である場合には、「0」より大きなゲインGが算出され、エッジ領域の画素値が増大する。一方、視差Dが正数(すなわち、表示位置が奥側)である場合には、「0」より小さなゲインGが算出され、エッジ領域の画素値が減少する。なお、ゲイン補正部272は、特許請求の範囲に記載の補正部の一例である。
遅延バッファ273は、立体字幕画像生成部260から入力された立体字幕画像を遅延させてエッジ合成部274に供給するものである。遅延させる時間は、例えば、ハイパスフィルター271およびゲイン補正部272における処理にかかる時間以上に設定される。
エッジ合成部274は、立体字幕画像にエッジ領域を合成するものである。画素値が変更されたエッジ領域の合成により、エッジ強度が変更される。具体的には、画素値が増大したエッジ領域が合成された場合には、エッジ強度が強くなりエッジが強調される。一方、画素値が減少したエッジ領域が合成された場合には、エッジ強度が弱くなりエッジがぼかされる。エッジ合成部274は、エッジ領域を合成した立体字幕画像を字幕画像合成部280に供給する。
なお、エッジ処理部270は、ハイパスフィルター271によりエッジを抽出しているが、他の方法を使用してエッジを抽出してもよい。例えば、画像を1次微分して勾配を計算し、その勾配の方向からエッジの方向を予測し、その方向の勾配が局所的に極大となる箇所をエッジとして抽出してもよい。
また、エッジ処理部270は、ゲインの補正により、エッジをぼかしているが、他の方法によりエッジをぼかしてもよい。例えば、注目した画素の周辺の画素値の平均値を、その注目した画素の画素値に置き換える平均フィルタを使用して、エッジをぼかしてもよい。
また、エッジ処理部270では、右側字幕画像を基準として視差Dを定義しているが、逆に左側字幕画像を基準として、左側字幕画像および右側字幕画像の水平方向におけるずれを視差Dとして用いてもよい。この場合には、表示位置が手前側である場合に視差Dが正数となり、奥側である場合に視差Dが負数となる。このため、次の式3を使用してGが算出される。
G=α×D/Dm 式3
式3より、視差Dが正数である場合には、「0」より大きなゲインGが算出され、視差Dが負数である場合には、「0」より小さなゲインGが算出される。
G=α×D/Dm 式3
式3より、視差Dが正数である場合には、「0」より大きなゲインGが算出され、視差Dが負数である場合には、「0」より小さなゲインGが算出される。
図4は、第1の実施の形態におけるゲイン補正の一例を示す図である。図4において横軸は、ゲイン補正部272に入力された信号レベル(すなわち、画素値)であり、縦軸は、ゲイン補正が行われて出力された信号レベル(画素値)である。図4に例示するように、ゲインが「0」よりも大きい場合には、信号レベルが増幅され、出力信号レベルは入力信号レベルより大きくなる。このエッジ領域の合成により、エッジが強調される。一方、ゲインが「0」よりも小さい場合には、信号レベルが減衰され、出力信号レベルは入力信号レベルより小さくなる。このエッジ領域の合成により、エッジがぼかされる。
図5は、第1の実施の形態におけるエッジ処理前後の画素値の分布の一例を示す図である。図5において、縦軸は画素の画素値であり、横軸は画素の座標である。同図におけるaは、エッジ処理前の画素値の分布の一例である。例えば、同図におけるaの点線で示した領域は、画素値の変化が大きいため、ハイパスフィルター271によりエッジ領域として抽出される。
図5におけるbは、エッジ強度を強くした場合の画素値の分布の一例である。エッジ処理部270が、同図におけるaに例示したエッジ領域の画素値を増大させて、抽出元の立体字幕画像に合成すると、同図におけるbに例示するようにエッジ領域の画素値の変化がより大きくなり、エッジが強調される。
図5におけるcは、エッジ強度を弱くした場合の画素値の分布の一例である。エッジ処理部270が、同図におけるaに例示したエッジ領域の画素値を減少させて、抽出元の立体字幕画像に合成すると、同図におけるcに例示するようにエッジ領域の画素値の変化がより小さくなり、エッジがぼかされる。
図6は、第1の実施の形態における動画ストリームの一構成例を示す図である。動画ストリームは、GOP(Group Of Pictures)と呼ばれる単位で符号化されており、このGOP単位で復号部230において復号される。このGOPは、符号化において基準となるI(Intra)ピクチャを少なくとも1枚含む画像の集合である。同図におけるaでは、1枚のIピクチャと、4枚のP(Predirective)ピクチャと、10枚のB(Bidirectionally predictive)ピクチャとの計15枚の画像611によりGOP610を構成する様子が示されている。ここで、Iピクチャは、符号化において基準とされる画像である。Pピクチャは、時間的に先行するIピクチャまたはPピクチャとの差分を利用して符号化される画像である。Bピクチャは、時間的に前後両方向のIピクチャまたはPピクチャとの差分を利用して符号化される画像である。
GOP内の15枚の画像は、図6におけるbに例示するように一部の順序が入れ替えられて符号化される。これは、MPEG規格における符号化方式の特徴に基づくものであり、復号の際に時間的に後続の画像を待つことを回避するためである。例えば、Bピクチャ(B5)を復号化するためにはIピクチャ(I3)とPピクチャ(P6)を参照する必要がある。このため、Bピクチャ(B5)を復号する時点で必要な画像データ(I3およびP6)が揃うように、同図におけるbのような入れ替えをしなければならない。なお、このような画像521の順序関係を定義するために、V_PCKのパックヘッダにおいてPTS622およびDTS(Decoding Time Stamp)623というタイムスタンプが付与される。PTS622は前述したように、再生出力の時刻管理情報であり、そのタイムスタンプが付与された単位画像をいつ再生出力するかを示す。一方、DTS623は復号の時刻管理情報であり、そのタイムスタンプが付与された単位画像をいつ復号するかを示す。
符号化された各画像は、図6におけるcに例示するように、それぞれ1つ以上のパックに収められる。パックとは、複数のPESパケットを連結してパックヘッダを付加したものである。例えば、Iピクチャ(I3)はV_PCK_I3(530)として保持され、Bピクチャ(B1)はV_PCK_B1(531)として保持される。そして、1個のGOP610を構成するV_PCK530の集合においては、補助的なデータを含むARI_PCK520がA_PCK520とともに多重化される。多重化されたパック群は、動画ストリームを構成する。
図7は、実施の形態における字幕ストリームの一構成例を示す図である。字幕ストリームは、動画ストリームとは独立したPESパケット群から構成される。このPESパケットは、字幕ストリームを構成するデータ(字幕データや視差など)を必要に応じて分割し、ヘッダを付加してパケット化したものである。字幕ストリームにおける各々のPESパケットは、パケットヘッダおよびペイロードを含む。パケットヘッダには、PTSなどが記載される。ペイロードには、PTSの示すタイミングで表示される字幕データや、その字幕データの視差が格納される。また、ペイロードには、字幕データが表示される領域の水平座標や垂直座標、字幕データが合成される主画像の構成(水平座標および垂直座標の範囲など)が格納される。
図8は、実施の形態における字幕ストリーム内のPESパケットのデータ構成の一例を示す図である。このPESパケットにおいては、例えば、DVB(Digital Video Broadcasting)規格に従ってデータが記述される。DVB規格において、PESパケットのヘッダには、字幕ストリームの識別情報(Stream_id)、PESパケット長(PES_packet_length)、および、字幕データのPTSなどが記載される。また、字幕データがPESパケット内に配置されることを示すインジケータ(PES_alignment_indicator)が記載される。「PES_packet_data_byte」のフィールドには、PESパケットのペイロード(「PES_data_field」内のデータ)が格納される。このペイロードには、「subtitle_segment()」のフィールドが設けられる。DVB規格においては、字幕ストリームの構成要素のデータのそれぞれは「segment」と呼ばれる。それぞれの「segment」の詳細は、図8における「subtitle_segment()」のフィールドにおいて記述される。具体的には、「subtitle_segment()」には、「segment」の開始位置を特定するための情報(sync_byte)が記載される。また、このフィールドには、「segment」の種類(segment_type)、その長さ(segment_length)、および、「segment」が用いられる主画像の識別情報(page_id)が記載される。また、「segment」のデータ自体は「segment_data_field」に格納される。「segment」の種類(segment_type)は、例えば、字幕データ、視差、字幕データの構成情報(表示される領域の水平座標や垂直座標など)、字幕データが合成される主画像の構成(水平座標および垂直座標の範囲など)である。
図9は、実施の形態におけるPESパケットに格納されるデータの一例を示す図である。前述したように、PESパケットのペイロード内の「subtitle_segment()」には、「segment_type」や「segment_data_field()」と呼ばれる領域が設けられる。「segment_data_field()」には、字幕データや視差が格納される。同図におけるaに示すように「segment_data_field()」に「segment」として字幕データが格納される場合には「segment_type」のフィールドにおいて「segment」が字幕データであることを示す「0x13」が記載される。また、同図におけるbに示すように、「segment_data_field()」に「segment」として視差が格納される場合には、「segment_type」のフィールドにおいて、「segment」が視差であることを示す「0x15」が記載される。
図10は、字幕データバッファ240の一構成例を示す図である。字幕データバッファ240には、PTSに対応付けて視差および字幕データが保持される。PTSが付与されたPESパケットから取得された視差は、そのPTSに対応付けて字幕データバッファ240に保持される。また、PTSが付与されたPESパケットから取得された字幕データは、そのPTSに対応付けて字幕データバッファ240に保持される。PTSが共通の字幕データおよび視差は、そのPTSに対応付けて保持される。例えば、「PTS#1」に対応付けて「字幕データ#1」と「10」の視差とが保持される場合、「PTS#1」のタイミングにおいて、「字幕データ#1」および「10」が読み出される。そして、「字幕データ#1」は、視差「10」に応じた位置に立体表示される。
[画像処理装置の動作例]
図11は、実施の形態における画像処理装置200の動作の一例を示す図である。この動作は、例えば、画像処理装置200に動画ストリームおよび字幕ストリームが入力されたときに開始する。
図11は、実施の形態における画像処理装置200の動作の一例を示す図である。この動作は、例えば、画像処理装置200に動画ストリームおよび字幕ストリームが入力されたときに開始する。
画像処理装置200における視差取得部210は、字幕ストリームからPTSおよび視差を取得して字幕データバッファ240に保持させる(ステップS901)。また、字幕データ取得部220は、字幕ストリームから字幕データおよび視差を取得して字幕データバッファ240に保持させる(ステップS902)。同期制御部250は、動画ストリームから取得されたPTSに対応する字幕データおよび視差を字幕データバッファ240から読み出す。そして、立体字幕画像生成部260は、読み出された字幕データから立体字幕画像を生成する(ステップS903)。
エッジ処理部270は、立体字幕画像においてエッジを抽出し(ステップS904)、取得された視差に応じてエッジ強度を変更する(ステップS905)。字幕画像合成部は、エッジ強度が変更された立体字幕画像を立体主画像に合成する(ステップS906)。ステップS906の後、画像処理装置200はステップS901に戻る。
図12は、実施の形態における視差を説明するための図である。表示装置300の表示面に表示される右側画像の基準の水平座標(例えば、中央の水平座標)をXRとし、左側画像の基準の水平座標をXLとする。水平座標は、視聴者から見て左側であるほど、値が小さいものとする。この場合において、例えば、XRからXLを減じた値が視差Dとして用いられる。
ここで、左目と右目との間の距離をベース距離Bとし、視聴者から表示装置300までの距離をfとし、奥行き方向に立体的に視認される立体画像の表示位置をZpとする。このとき、右目、左目および立体画像の中心のなす三角形と、XR、XLおよび立体画像の中心のなす三角形とは相似であるため、次の式4が成立する。
D:f=B:Zp 式4
式4により、Zpに表示させるための視差Dが求められて、字幕ストリームにより配信される。Zpに表示された位置では、字幕画像の遠近感が不足する場合には、式1により求められたゲインGにより、字幕画像のエッジ強度が変更される。そのゲインGによる遠近感の程度は、式1における補正係数αを変更することにより調整される。
D:f=B:Zp 式4
式4により、Zpに表示させるための視差Dが求められて、字幕ストリームにより配信される。Zpに表示された位置では、字幕画像の遠近感が不足する場合には、式1により求められたゲインGにより、字幕画像のエッジ強度が変更される。そのゲインGによる遠近感の程度は、式1における補正係数αを変更することにより調整される。
図13は、実施の形態における立体表示の方法の一例を示す図である。同図におけるaは、字幕画像を手前側に表示するための表示方法の一例を示す図である。水平方向において、右側字幕画像701の座標は視聴者から見て左側であり、左側字幕画像702の座標が視聴者から見て右側であるものとする。この場合において、視聴者の左目に左側字幕画像702が映り、右目に右側字幕画像701が映るように、表示装置300がこれらの画像を表示すると、視聴者は、字幕画像801が手前側に表示されているように視認することができる。
図13におけるbは、基準位置に字幕画像を表示する表示方法の一例を示す図である。右側字幕画像701および左側字幕画像702の水平座標は変わらないものとする。この場合において、視聴者の左目に左側字幕画像702が映り、右目に右側字幕画像701が映るように、表示装置300がこれらの画像を表示すると、表示装置300の表示面(基準位置)に字幕画像801が表示されているように視認される。このときは、字幕画像801は、立体的に視認されない。
図13におけるcは、字幕画像を奥側に表示するための表示方法の一例を示す図である。水平方向において、右側字幕画像701の座標は視聴者から見て右側であり、左側字幕画像702の座標が視聴者から見て左側であるものとする。この場合において、視聴者の左目に左側字幕画像702が映り、右目に右側字幕画像701が映るように、表示装置300がこれらの画像を表示すると、視聴者は、字幕画像801が奥側に表示されているように、立体的に視認することができる。
図14は、実施の形態における遠近感を強調した立体字幕画像の一例を示す図である。同図におけるaは、手前側に表示される立体字幕画像の一例を示す図である。この場合、画像処理装置200は、立体字幕画像(701および702)において視差に応じてエッジ強度を強くする。これにより、視聴者が視認する字幕画像801の表示位置が手前側であるほど、字幕画像801におけるエッジが強調される。
図14におけるbは、字幕画像を奥側に表示される立体字幕画像場合の一例を示す図である。この場合、画像処理装置200は、立体字幕画像(701および702)において視差に応じてエッジ強度を弱くする。これにより、視聴者が視認する字幕画像801の表示位置が奥側であるほど、字幕画像801におけるエッジがぼかされる。
このように、本技術の第1の実施の形態によれば、画像処理装置200は、視差に応じて立体字幕画像のエッジ強度を変更することにより、字幕画像の遠近感を強調することができる。これにより、立体表示される動画において、2D-3D変換された字幕画像を合成する場合において、視聴者が字幕画像の遠近感の不足を感じることがなくなる。
[変形例]
図15を参照して第1の実施の形態における変形例について説明する。第1の実施の形態においては、画像処理装置200は、立体字幕画像をそのままハイパスフィルター271に供給していたが、周期関数に変換してからハイパスフィルター271に供給することもできる。変形例の画像処理装置200は、ハイパスフィルター271の前段において立体字幕画像を手記関数に変換する点において第1の実施の形態と異なる。具体的には、エッジ処理部270は、周期関数変換部275および逆変換部276をさらに備える。
図15を参照して第1の実施の形態における変形例について説明する。第1の実施の形態においては、画像処理装置200は、立体字幕画像をそのままハイパスフィルター271に供給していたが、周期関数に変換してからハイパスフィルター271に供給することもできる。変形例の画像処理装置200は、ハイパスフィルター271の前段において立体字幕画像を手記関数に変換する点において第1の実施の形態と異なる。具体的には、エッジ処理部270は、周期関数変換部275および逆変換部276をさらに備える。
周期関数変換部275は、立体字幕画像において、座標空間の関数を周波数空間の関数(周期関数)に変換するものである。具体的には、周期関数変換部275は、例えば、次の式5を使用して立体字幕画像を周期関数に変換する。式3による変換は、フーリエ変換と呼ばれる。なお、周期関数変換部275は、周期関数に変換することができるのであれば、式5以外の式を使用してもよい。
式5において、xは立体字幕画像の水平座標であり、yは垂直座標である。P(x,y)は、座標(x,y)が入力されると、その座標の画素値を返す座標空間の関数である。kは、水平方向における空間周波数であり、lは垂直方向における空間周波数である。F(k,l)は、空間周波数(k,l)が入力されると、その空間周波数を有する成分波の集合を表わす周期関数を返す関数である。成分波は、画像内の座標の変化に伴って周期的に変化する画素値の軌跡を波形として有する波である。Mは、立体字幕画像の水平方向の画素数であり、Nは、立体字幕画像の垂直方向の画素数である。WNおよびWNは、次の式6および式7により定義される指数関数である。
周期関数変換部275は、変換した周期関数により表わされる成分波の集合をハイパスフィルター271に供給する。ハイパスフィルター271は、それらの成分波のうち、所定の閾値以上の周波数を有する成分波をエッジ成分波として抽出する。ハイパスフィルター271は、抽出したエッジ成分波を逆変換部276に供給する。逆変換部276は、エッジ成分波を次の式8を使用して、画素値P(x,y)の集合に変換する。逆変換部276は、その画素値P(x,y)が得られた画素(x,y)からなる領域をエッジ領域とする。
図16は、第1の実施の形態の変形例におけるエッジ領域の抽出方法を説明するための図である。同図におけるaは、画素値の分布の一例を示す図である。同図におけるaの、縦軸は画素値P(x,y)であり、横軸は座標(x,y)である。xは水平座標であり、yは、垂直座標である。画素値P(x,y)は、座標(x,y)における画素値である。
図16におけるbは、画素値P(x,y)をフーリエ変換した周波数の分布の一例を示す図である。同図におけるbの縦軸は振幅スペクトル|F(k,l)|であり、横軸は、空間周波数kである。同図におけるbでは、空間周波数lの分布は省略されている。同図におけるbに示すように、ハイパスフィルター271により、閾値Th_k以上の成分波が、エッジ成分波として抽出される。
図16におけるcは、抽出されたエッジ成分波を逆変換した画素値P(x,y)の分布の一例を示す図である。同図におけるcに示すように、変換された画素値P(x,y)を有する画素(x,y)からなる領域がエッジ領域として抽出される。
このように、変形例によれば、画像処理装置200は、周期関数の分布を生成してからエッジ成分波を抽出するため、エッジ領域をより正確に抽出することができる。
<2.第1の実施の形態>
[画像処理装置の構成例]
図17は、第2の実施の形態における画像処理装置200の一構成例を示すブロック図である。第2の実施の形態における画像処理装置200は、サブピクセル補正をさらに実行する点において第1の実施の形態と異なる。具体的には、第1の実施の形態の画像処理装置200は、サブピクセル補正部290をさらに備える。ここで、サブピクセル補正とは、画像において隣接する画素の各々の画素値を混合することにより、表示面上の実際の画素と画素との間に見かけ上の画素(以下、「サブピクセル」と称する。)があるように視聴者に視認させる処理である。以下、サブピクセル補正を行った画像を「サブピクセル画像」と称する。なお、サブピクセルは、特許請求の範囲に記載の副画素の一例である。
[画像処理装置の構成例]
図17は、第2の実施の形態における画像処理装置200の一構成例を示すブロック図である。第2の実施の形態における画像処理装置200は、サブピクセル補正をさらに実行する点において第1の実施の形態と異なる。具体的には、第1の実施の形態の画像処理装置200は、サブピクセル補正部290をさらに備える。ここで、サブピクセル補正とは、画像において隣接する画素の各々の画素値を混合することにより、表示面上の実際の画素と画素との間に見かけ上の画素(以下、「サブピクセル」と称する。)があるように視聴者に視認させる処理である。以下、サブピクセル補正を行った画像を「サブピクセル画像」と称する。なお、サブピクセルは、特許請求の範囲に記載の副画素の一例である。
第1の実施の形態において字幕画像の奥行きを時間の経過に応じて少しずつ変更する場合、画像処理装置200は、左側字幕画像および右側字幕画像のそれぞれの水平座標を画素単位でシフトしていた。しかし、より滑らかに奥行きを変更させるためには、画素単位よりも、サブピクセル単位で左側字幕画像および右側字幕画像をシフトさせることが望ましい。そこで、第2の実施の形態の画像処理装置200は、一部の立体字幕画像をサブピクセル画像に置き換えることにより、サブピクセル単位で立体字幕画像をシフトさせている。ただし、前述したように、サブピクセル補正においては、隣接する画素の混合が行われるため、エッジ強度が弱くなってしまう。したがって、サブピクセル補正を行う場合には、画像処理装置200は、サブピクセル補正により弱くなった分、エッジ強度を強くすることが望ましい。
サブピクセル補正部290は、視差に基づいて立体字幕画像に対してサブピクセル補正を行うものである。1枚の立体字幕画像をフレームとし、立体字幕画像の画素のシフト量が1画素に相当する視差の変更をnフレームの期間内に行う場合を考える。この場合は、サブピクセル補正部290は、nフレームのうち、時系列において最初および最後のフレームを除くn-2フレームに対してサブピクセル補正を実行してサブピクセル画像とする。例えば、シフト量が1画素に相当する視差の変更を3フレームの期間内に行う場合、サブピクセル補正部290は、3フレームのうち、最初および最後のフレームを除く1枚のフレームに対してサブピクセル補正を実行する。
ここで、水平方向においてサブピクセルに隣接する左右の画素のうち、サブピクセルに近い方の画素の水平座標と、そのサブピクセルの水平座標との差を「位相差」と称する。サブピクセルは、画素間に位置するため、位相差は「-0.5」乃至「0.5」の値となる。ただし、「0」の位相差は、サブピクセル補正が行われないことを示す。
この位相差は、視差に応じて決定される。具体的には、シフト量が1画素に相当する視差の変更をnフレームの期間内に行う場合、nフレームのうち、時系列において最初および最後のフレームの位相差は「0」に設定される。シフト方向が正方向である場合、時系列においてk(kは、1乃至nの整数)番目のフレームの位相差Pは、kが1からn/2に近づくほど大きくなり、kがn/2からnに近づくほど小さくなるように決定される。一方、シフト方向が負方向の場合には、位相差Pは、kが1からn/2に近づくほど小さくなり、kがn/2からnに近づくほど大きくなるように決定される。
例えば、正方向におけるシフト量が1画素に相当する視差の変更を3フレームの期間内に行う場合、1番目および3番目のフレームの位相差は「0」に、2番目のフレームの位相差は「0.5」に決定される。サブピクセル補正部290は、サブピクセル補正後の立体字幕画像、その位相差P、および、視差Dをエッジ処理部270に供給する。
エッジ処理部270は、位相差Pが「0」である場合には式1を使用してゲインを求める。一方、位相差Pが「0」でない場合には式1の代わりに、次の式9を使用してゲインを求める。
G=|P|×(-α)×D/Dm 式9
式9を使用することにより、位相差の絶対値に応じてゲインが上昇する。これにより、サブピクセル補正によりエッジ強度が弱くなった分、エッジが強調される。なお、式9において、画素単位の視差をDとしているが、サブピクセル単位の視差をDとして使用してもよい。
G=|P|×(-α)×D/Dm 式9
式9を使用することにより、位相差の絶対値に応じてゲインが上昇する。これにより、サブピクセル補正によりエッジ強度が弱くなった分、エッジが強調される。なお、式9において、画素単位の視差をDとしているが、サブピクセル単位の視差をDとして使用してもよい。
図18は、第2の実施の形態におけるサブピクセル補正の一例を示す図である。同図におけるaは、位相差「0.5」に決定した場合におけるサブピクセル補正の一例を示す図である。左側字幕画像において水平座標X1、X1+1およびX1+2の画素の画素値をPX1、PX1+1およびPX1+2とする。サブピクセル補正を行う場合、隣接する画素の各々の画素値は、位相差に応じた混合率で混合される。具体的には、位相差Pが正数である場合、水平座標X1におけるサブピクセル補正後の画素値PX1'は、次の式10により算出される。
PX1'=P×PX1+(1-P)×PX1+1 式10
PX1'=P×PX1+(1-P)×PX1+1 式10
例えば、位相差Pが0.5である場合には、画素値PX1'は、画素値PX1およびPX1+1の平均値となる。同様の計算により、画素値PX1+1およびPX1+2も、隣接する画素との間の平均により置き換えられる。
図18におけるbは、第2の実施の形態におけるサブピクセル補正の方法を説明するための図である。同図におけるbに例示したように隣接する画素同士を混合することにより、サブピクセル画像(左側字幕画像)において、画像処理装置200は、実際の画素と画素との間にサブピクセルがあるように見せることができる。
図19は、第2の実施の形態におけるサブピクセル補正前後の左側字幕画像および右側字幕画像の一例を示す図である。同図におけるaは、シフト量が1画素に相当する視差の変更を3フレームの期間内に、サブピクセル補正なしに行う場合の左側字幕画像および右側字幕画像の一例を示す図である。時系列順に左側字幕画像#1、#2および#3を表示する場合、例えば、画像処理装置200は、左側字幕画像#1および#2の左端の座標を等しくし、次の左側字幕画像#3を1画素ずらすことにより視差を変更する。視差を小さくする場合には、左側字幕画像#3は視聴者から見て右側にシフトされる。一方、時系列順に右側字幕画像#1、#2および#3を表示する場合、画像処理装置200は、右側字幕画像#3のみを1画素ずらすことにより視差を変更する。なお、左側字幕画像#2および右側字幕画像#2は、同図におけるaにおいて省略されている。
図19におけるbは、シフト量が1画素に相当する視差の変更を3フレームの期間内に、サブピクセル補正により行う場合の左側字幕画像および右側字幕画像の一例を示す図である。画像処理装置200は、左側字幕画像#1、#2および#3のうち、左側字幕画像#2をサブピクセル画像に置き換え、右側字幕画像#1、#2および#3のうち、右側字幕画像#2をサブピクセル画像に置き換える。これにより、左側字幕画像および右側字幕画像は、サブピクセル単位でシフトされ、画素単位でシフトされた場合と比較して奥行きが滑らかに変更される。
図20は、第2の実施の形態における視差の変化と字幕画像の座標の変化との間の関係の一例を示すグラフである。図20において縦軸は左側字幕画像の左端の水平座標であり、横軸は視差である。一点鎖線は、サブピクセル補正を行わない場合における視差の変化に対する字幕画像の座標の変化を示す。実線は、サブピクセル補正を行った場合における視差の変化に対する字幕画像の座標の変化を示す。図20に例示するように、サブピクセル補正を行わない場合には、視差の変化に応じて画素単位で左側字幕画像がシフトされる。右側字幕画像も画素単位でシフトされる。一方、サブピクセル補正を行った場合には、視差の変化に応じてサブピクセル単位で左側字幕画像がシフトされる。右側字幕画像もサブピクセル単位でシフトされる。このため、左側字幕画像および右側字幕画像が画素単位でシフトされる場合と比較して立体字幕画像の奥行きが滑らかに変更される。
このように、本技術の第2の実施の形態によれば、画像処理装置200は、サブピクセル補正における混合率および視差に応じてエッジ強度を変更するため、奥行きを滑らかに変更しつつ、字幕画像の遠近感を強調することができる。
なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。
また、上述の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、CD(Compact Disc)、MD(MiniDisc)、DVD(Digital Versatile Disc)、メモリカード、ブルーレイディスク(Blu-ray(登録商標)Disc)等を用いることができる。
なお、本技術は以下のような構成もとることができる。
(1)立体主画像に合成される字幕情報を取得する字幕情報取得部と、
前記字幕情報を立体表示させるための視差を取得する視差取得部と、
前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成部と、
前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理部と
を具備する画像処理装置。
(2)前記エッジ処理部は、前記表示位置が所定の基準位置より手前側である場合には前記視差に応じて前記エッジの強度を強くし、前記表示位置が前記基準位置より奥側である場合には前記視差に応じて前記エッジの強度を弱くする
前記(1)記載の画像処理装置。
(3)前記立体字幕画像において隣接する画素間に表示させる副画素の位置に応じた混合率に基づいて前記隣接する画素の各々の画素値を混合する画素混合部をさらに具備し、
前記エッジ処理部は、前記位置および前記視差に応じて前記エッジの強度を変更する
前記(1)または(2)記載の画像処理装置。
(4)前記画素混合部は、前記視差に応じた位置を前記副画素の位置とする
前記(3)記載の画像処理装置。
(5)前記エッジ処理部は、
前記立体字幕画像において前記エッジの領域を抽出するエッジ抽出部と、
前記抽出されたエッジの領域における画素値を前記視差に応じて増大または減少させる補正部と、
前記画素値が増大または減少された前記エッジの領域を前記立体字幕画像に合成することにより前記エッジの強度を変更するエッジ合成部と
を具備する前記(1)乃至(4)のいずれかに記載の画像処理装置。
(6)前記エッジ抽出部は、前記立体字幕画像において画素値の分布の周波数が所定の閾値より高い領域を前記エッジの領域として抽出する
前記(5)記載の画像処理装置。
(7)前記エッジの強度が変更された前記立体字幕画像を前記立体主画像に合成する字幕合成部をさらに具備する前記(1)乃至(6)のいずれかに記載の画像処理装置。
(8)字幕情報取得部が、立体主画像に合成される字幕情報を取得する字幕情報取得手順と、
視差取得部が、前記字幕情報を立体表示させるための視差を取得する視差取得手順と、
立体字幕画像生成部が、前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成手順と、
エッジ処理部が、前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理手順と
を具備する画像処理方法。
(9)字幕情報取得部が、立体主画像に合成される字幕情報を取得する字幕情報取得手順と、
視差取得部が、前記字幕情報を立体表示させるための視差を取得する視差取得手順と、
立体字幕画像生成部が、前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成手順と、
エッジ処理部が、前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理手順と
をコンピュータに実行させるためのプログラム。
(1)立体主画像に合成される字幕情報を取得する字幕情報取得部と、
前記字幕情報を立体表示させるための視差を取得する視差取得部と、
前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成部と、
前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理部と
を具備する画像処理装置。
(2)前記エッジ処理部は、前記表示位置が所定の基準位置より手前側である場合には前記視差に応じて前記エッジの強度を強くし、前記表示位置が前記基準位置より奥側である場合には前記視差に応じて前記エッジの強度を弱くする
前記(1)記載の画像処理装置。
(3)前記立体字幕画像において隣接する画素間に表示させる副画素の位置に応じた混合率に基づいて前記隣接する画素の各々の画素値を混合する画素混合部をさらに具備し、
前記エッジ処理部は、前記位置および前記視差に応じて前記エッジの強度を変更する
前記(1)または(2)記載の画像処理装置。
(4)前記画素混合部は、前記視差に応じた位置を前記副画素の位置とする
前記(3)記載の画像処理装置。
(5)前記エッジ処理部は、
前記立体字幕画像において前記エッジの領域を抽出するエッジ抽出部と、
前記抽出されたエッジの領域における画素値を前記視差に応じて増大または減少させる補正部と、
前記画素値が増大または減少された前記エッジの領域を前記立体字幕画像に合成することにより前記エッジの強度を変更するエッジ合成部と
を具備する前記(1)乃至(4)のいずれかに記載の画像処理装置。
(6)前記エッジ抽出部は、前記立体字幕画像において画素値の分布の周波数が所定の閾値より高い領域を前記エッジの領域として抽出する
前記(5)記載の画像処理装置。
(7)前記エッジの強度が変更された前記立体字幕画像を前記立体主画像に合成する字幕合成部をさらに具備する前記(1)乃至(6)のいずれかに記載の画像処理装置。
(8)字幕情報取得部が、立体主画像に合成される字幕情報を取得する字幕情報取得手順と、
視差取得部が、前記字幕情報を立体表示させるための視差を取得する視差取得手順と、
立体字幕画像生成部が、前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成手順と、
エッジ処理部が、前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理手順と
を具備する画像処理方法。
(9)字幕情報取得部が、立体主画像に合成される字幕情報を取得する字幕情報取得手順と、
視差取得部が、前記字幕情報を立体表示させるための視差を取得する視差取得手順と、
立体字幕画像生成部が、前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成手順と、
エッジ処理部が、前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理手順と
をコンピュータに実行させるためのプログラム。
100 受信装置
200 画像処理装置
210 視差取得部
220 字幕データ取得部
230 復号部
240 字幕データバッファ
250 同期制御部
260 立体字幕画像生成部
270 エッジ処理部
271 ハイパスフィルター
272 ゲイン補正部
273 遅延バッファ
274 エッジ合成部
275 周期関数変換部
276 逆変換部
280 字幕画像合成部
290 サブピクセル補正部
300 表示装置
200 画像処理装置
210 視差取得部
220 字幕データ取得部
230 復号部
240 字幕データバッファ
250 同期制御部
260 立体字幕画像生成部
270 エッジ処理部
271 ハイパスフィルター
272 ゲイン補正部
273 遅延バッファ
274 エッジ合成部
275 周期関数変換部
276 逆変換部
280 字幕画像合成部
290 サブピクセル補正部
300 表示装置
Claims (9)
- 立体主画像に合成される字幕情報を取得する字幕情報取得部と、
前記字幕情報を立体表示させるための視差を取得する視差取得部と、
前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成部と、
前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理部と
を具備する画像処理装置。 - 前記エッジ処理部は、前記表示位置が所定の基準位置より手前側である場合には前記視差に応じて前記エッジの強度を強くし、前記表示位置が前記基準位置より奥側である場合には前記視差に応じて前記エッジの強度を弱くする
請求項1記載の画像処理装置。 - 前記立体字幕画像において隣接する画素間に表示させる副画素の位置に応じた混合率に基づいて前記隣接する画素の各々の画素値を混合する画素混合部をさらに具備し、
前記エッジ処理部は、前記位置および前記視差に応じて前記エッジの強度を変更する
請求項1記載の画像処理装置。 - 前記画素混合部は、前記視差に応じた位置を前記副画素の位置とする
請求項3記載の画像処理装置。 - 前記エッジ処理部は、
前記立体字幕画像において前記エッジの領域を抽出するエッジ抽出部と、
前記抽出されたエッジの領域における画素値を前記視差に応じて増大または減少させる補正部と、
前記画素値が増大または減少された前記エッジの領域を前記立体字幕画像に合成することにより前記エッジの強度を変更するエッジ合成部と
を具備する請求項1記載の画像処理装置。 - 前記エッジ抽出部は、前記立体字幕画像において画素値の分布の周波数が所定の閾値より高い領域を前記エッジの領域として抽出する
請求項5記載の画像処理装置。 - 前記エッジの強度が変更された前記立体字幕画像を前記立体主画像に合成する字幕合成部をさらに具備する請求項1記載の画像処理装置。
- 字幕情報取得部が、立体主画像に合成される字幕情報を取得する字幕情報取得手順と、
視差取得部が、前記字幕情報を立体表示させるための視差を取得する視差取得手順と、
立体字幕画像生成部が、前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成手順と、
エッジ処理部が、前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理手順と
を具備する画像処理方法。 - 字幕情報取得部が、立体主画像に合成される字幕情報を取得する字幕情報取得手順と、
視差取得部が、前記字幕情報を立体表示させるための視差を取得する視差取得手順と、
立体字幕画像生成部が、前記視差に応じた表示位置に立体表示される立体字幕画像を前記字幕情報から生成する立体字幕画像生成手順と、
エッジ処理部が、前記立体字幕画像におけるエッジの強度を前記視差に応じて変更するエッジ処理手順と
をコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13791643.3A EP2852164A4 (en) | 2012-05-14 | 2013-03-27 | IMAGE PROCESSING DEVICE, METHOD, AND PROGRAM |
US14/400,384 US9686529B2 (en) | 2012-05-14 | 2013-03-27 | Image processing apparatus, image processing method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012110718A JP2013239833A (ja) | 2012-05-14 | 2012-05-14 | 画像処理装置、画像処理方法およびプログラム |
JP2012-110718 | 2012-05-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013172098A1 true WO2013172098A1 (ja) | 2013-11-21 |
Family
ID=49583517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/058975 WO2013172098A1 (ja) | 2012-05-14 | 2013-03-27 | 画像処理装置、画像処理方法およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9686529B2 (ja) |
EP (1) | EP2852164A4 (ja) |
JP (1) | JP2013239833A (ja) |
WO (1) | WO2013172098A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6307213B2 (ja) * | 2012-05-14 | 2018-04-04 | サターン ライセンシング エルエルシーSaturn Licensing LLC | 画像処理装置、画像処理方法およびプログラム |
US9948913B2 (en) * | 2014-12-24 | 2018-04-17 | Samsung Electronics Co., Ltd. | Image processing method and apparatus for processing an image pair |
CN113553128B (zh) * | 2020-04-24 | 2024-11-05 | 北京小米移动软件有限公司 | 画面边角生成方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008033897A (ja) * | 2006-06-29 | 2008-02-14 | Matsushita Electric Ind Co Ltd | 画像処理装置、画像処理方法、プログラム、記録媒体および集積回路 |
JP2011249945A (ja) * | 2010-05-24 | 2011-12-08 | Sony Corp | 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法 |
JP2012049920A (ja) * | 2010-08-27 | 2012-03-08 | Canon Inc | 画像処理装置及びその制御方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3086577B2 (ja) | 1993-12-22 | 2000-09-11 | 三洋電機株式会社 | 2次元画像の3次元化方法 |
US7079190B2 (en) * | 2001-12-27 | 2006-07-18 | Zoran Corporation | Technique for determining the slope of a field pixel |
CN102292993B (zh) | 2009-01-20 | 2015-05-13 | Lg电子株式会社 | 三维字幕显示方法以及用于实现该方法的三维显示装置 |
CN102318352B (zh) * | 2009-02-17 | 2014-12-10 | 皇家飞利浦电子股份有限公司 | 组合3d图像和图形数据 |
EP2460360A1 (en) * | 2009-07-27 | 2012-06-06 | Koninklijke Philips Electronics N.V. | Combining 3d video and auxiliary data |
WO2011028547A2 (en) * | 2009-08-24 | 2011-03-10 | Next3D Inc. | Stereoscopic video encoding and decoding methods and apparatus |
US8508581B2 (en) | 2009-10-29 | 2013-08-13 | Industrial Technology Research Institute | Pixel data transformation method and apparatus for three dimensional display |
JP2012004654A (ja) | 2010-06-14 | 2012-01-05 | Sharp Corp | 映像表示装置及びその表示制御方法 |
US8692870B2 (en) * | 2010-06-28 | 2014-04-08 | Microsoft Corporation | Adaptive adjustment of depth cues in a stereo telepresence system |
CN102202224B (zh) * | 2011-06-22 | 2013-03-27 | 清华大学 | 用于平面视频立体转换的字幕去抖方法及字幕去抖装置 |
-
2012
- 2012-05-14 JP JP2012110718A patent/JP2013239833A/ja not_active Ceased
-
2013
- 2013-03-27 US US14/400,384 patent/US9686529B2/en not_active Expired - Fee Related
- 2013-03-27 WO PCT/JP2013/058975 patent/WO2013172098A1/ja active Application Filing
- 2013-03-27 EP EP13791643.3A patent/EP2852164A4/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008033897A (ja) * | 2006-06-29 | 2008-02-14 | Matsushita Electric Ind Co Ltd | 画像処理装置、画像処理方法、プログラム、記録媒体および集積回路 |
JP2011249945A (ja) * | 2010-05-24 | 2011-12-08 | Sony Corp | 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法 |
JP2012049920A (ja) * | 2010-08-27 | 2012-03-08 | Canon Inc | 画像処理装置及びその制御方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2013239833A (ja) | 2013-11-28 |
EP2852164A4 (en) | 2016-01-06 |
US9686529B2 (en) | 2017-06-20 |
US20150138315A1 (en) | 2015-05-21 |
EP2852164A1 (en) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10158841B2 (en) | Method and device for overlaying 3D graphics over 3D video | |
JP5647242B2 (ja) | 3dビデオ及び補助データの結合 | |
KR101651442B1 (ko) | 이미지 기반 3d 비디오 포맷 | |
US20100269065A1 (en) | Data structure, recording medium, playback apparatus and method, and program | |
US8994787B2 (en) | Video signal processing device and video signal processing method | |
US8848037B2 (en) | Data structure, recording medium, playing device and playing method, and program | |
JP2010034704A (ja) | 再生装置及び再生方法 | |
JP2006222978A (ja) | イメージ変換及び符号化技術 | |
KR20110113186A (ko) | 비디오 인터페이스를 통해 송신하고 3d 비디오 및 3d 오버레이들을 합성하기 위한 방법 및 시스템 | |
US20120020640A1 (en) | Data structure, recording medium, playing device and playing method, and program | |
WO2013172098A1 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP6092525B2 (ja) | 画像処理装置、情報処理システム、画像処理方法およびプログラム | |
JP4733764B2 (ja) | 三次元映像処理装置及び三次元映像処理方法 | |
WO2012014489A1 (ja) | 映像信号処理装置及び映像信号処理方法 | |
JP6307213B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP5017445B2 (ja) | 視差画像変換装置 | |
JP5759728B2 (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
JP5422597B2 (ja) | 三次元映像処理装置 | |
JP4951148B2 (ja) | 映像表示装置及び映像表示方法 | |
JP5777920B2 (ja) | 画像処理装置および画像処理方法 | |
JP2007235398A (ja) | 立体映像の映像データ構成方法、映像データ構成装置及び立体視システム | |
JP2012070117A (ja) | 三次元ビデオストリームの生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13791643 Country of ref document: EP Kind code of ref document: A1 |
|
REEP | Request for entry into the european phase |
Ref document number: 2013791643 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2013791643 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14400384 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |