WO2016042765A1 - 映像音声処理装置、映像音声処理方法およびプログラム - Google Patents

映像音声処理装置、映像音声処理方法およびプログラム Download PDF

Info

Publication number
WO2016042765A1
WO2016042765A1 PCT/JP2015/004718 JP2015004718W WO2016042765A1 WO 2016042765 A1 WO2016042765 A1 WO 2016042765A1 JP 2015004718 W JP2015004718 W JP 2015004718W WO 2016042765 A1 WO2016042765 A1 WO 2016042765A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
moving image
audio
sound output
volume
Prior art date
Application number
PCT/JP2015/004718
Other languages
English (en)
French (fr)
Inventor
鈴木 達也
義幸 笹川
達人 堀部
田中 俊介
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to US15/303,774 priority Critical patent/US20170034568A1/en
Priority to JP2016548562A priority patent/JP6609795B2/ja
Publication of WO2016042765A1 publication Critical patent/WO2016042765A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals

Definitions

  • the present disclosure relates to a video / audio processing apparatus and a video / audio processing method for generating a video for displaying a plurality of moving images on one display screen.
  • Patent Document 1 discloses an information processing apparatus using a technique for displaying a plurality of moving images in one display screen.
  • the information processing apparatus determines the audio output coordinates of each program so as to be interlocked with the program display scroll operation, and synthesizes the audio of each program based on the audio output coordinates.
  • a video / audio processing apparatus that generates video that displays a plurality of moving images on one display screen, it is desirable that the user can generate audio that is easy to hear.
  • the present disclosure provides a video / audio processing apparatus and a video / audio processing method capable of generating audio that can be easily heard by a user.
  • the video / audio processing apparatus includes a video generation unit, a selection unit, and a volume adjustment unit.
  • the video generation unit generates a video signal of a display video in which a region where a plurality of moving images are displayed automatically moves in a predetermined direction within the display screen.
  • the selection unit selects an audio signal of one moving image from the plurality of moving images according to the positions of the plurality of moving images in the display screen.
  • the volume adjustment unit adjusts the volume of each audio signal of the plurality of moving images so that the audio signal selected by the selection unit is output at a volume higher than that of the other audio signals.
  • the video / audio processing device can generate audio that is easy for the user to hear when a plurality of moving images are displayed in one display screen.
  • FIG. 1 is a block diagram illustrating a configuration example of a video / audio processing apparatus according to the first embodiment.
  • FIG. 2 is a diagram schematically illustrating an example of a display image generated by the video / audio processing apparatus according to the first embodiment.
  • FIG. 3 is a diagram schematically showing an outline of the audio adjustment process performed by the video / audio processing apparatus according to the first embodiment.
  • FIG. 4 is a diagram schematically showing an example of the operation of the video / audio processing apparatus when two moving images are included in the sound output area in the first embodiment.
  • FIG. 5 is a diagram schematically illustrating an example of a temporal change in volume of each moving image when two moving images are included in the sound output area in the first embodiment.
  • FIG. 1 is a block diagram illustrating a configuration example of a video / audio processing apparatus according to the first embodiment.
  • FIG. 2 is a diagram schematically illustrating an example of a display image generated by the video / audio processing apparatus according to the first embodiment.
  • FIG. 3 is
  • FIG. 6 is a flowchart illustrating an example of a video / audio generation process executed by the video / audio processing apparatus according to the first embodiment.
  • FIG. 7 is a flowchart illustrating an example of the initial volume setting process according to the first embodiment.
  • FIG. 8 is a diagram schematically illustrating an example of a temporal change in volume of a moving image included in the sound output area in Modification 1 of the other embodiment.
  • FIG. 9 is a diagram schematically illustrating an example of the operation of the video / audio processing device when two moving images are included in the sound output area in the second modification of the other embodiment.
  • FIG. 10 is a diagram schematically illustrating an example of a temporal change in volume of each moving image when two moving images are included in the sound output area in the second modification of the other embodiment.
  • FIG. 11 is a flowchart illustrating an example of a video / audio generation process executed by the video / audio processing apparatus according to Modification 2 of the other embodiment.
  • FIG. 12 is a diagram schematically illustrating an outline of the audio adjustment processing in the third modification of the other embodiment.
  • FIG. 13 is a flowchart illustrating an example of a video / audio generation process executed by the video / audio processing apparatus according to Modification 3 of the other embodiment.
  • FIG. 14 is a block diagram illustrating a configuration example of a video / audio processing apparatus according to Modification 4 of the other embodiment.
  • FIG. 15 is a diagram schematically illustrating an example of a display image in Modification 4 of the other embodiment.
  • FIG. 1 is a block diagram showing a configuration example of the video / audio processing apparatus 100 according to the first embodiment.
  • the video / audio processing apparatus 100 shown in FIG. 1 generates a video signal in which a plurality of moving images are displayed in one display screen.
  • the video / audio processing apparatus 100 is mounted on a television, a recorder, a personal computer, a portable terminal, a smartphone, or the like.
  • the video / audio processing apparatus 100 includes a video generation unit 101, an operation reception unit 102, a control unit 103, a video output unit 104, a selection unit 105, a volume adjustment unit 106, and an audio output unit 107.
  • the video generation unit 101 displays a video signal of a display video (hereinafter referred to as “scroll”) in which a region where a plurality of moving images are displayed automatically moves in a predetermined direction within the display screen (hereinafter referred to as “scroll”). Generated and output "display video signal”. In addition, the video generation unit 101 outputs a plurality of audio signals corresponding to the plurality of moving images.
  • the video generation unit 101 includes a channel selection unit 111, a broadcast signal separation unit 112, a content data separation unit 113, a video reproduction unit 114, an audio reproduction unit 115, an OSD (On Screen Display) generation unit 116, and a display composition. Part 117.
  • the channel selection unit 111 selects a broadcast program signal to be reproduced from a plurality of broadcast signals received by the antenna 131, and outputs the selected broadcast program signal to the broadcast signal separation unit 112. For example, the channel selection unit 111 outputs a TS (transport stream) to the broadcast signal separation unit 112.
  • the broadcast signal separation unit 112 separates video data and audio data from the TS output from the channel selection unit 111, outputs the video data to the video reproduction unit 114, and outputs the audio data to the audio reproduction unit 115.
  • the content data separation unit 113 acquires moving image content from the storage device 132, outputs video data of the acquired moving image content to the video reproduction unit 114, and outputs audio data to the audio reproduction unit 115.
  • the storage device 132 is a large-capacity storage device such as an HDD (Hard Disk Drive). The storage device 132 accumulates a plurality of moving image contents and outputs the moving image content selected by the user.
  • the video reproduction unit 114 reproduces the video data of the broadcast program output from the broadcast signal separation unit 112 and the video data of the moving image content output from the content data separation unit 113 to generate a plurality of video signals, The generated plurality of video signals are output to the display composition unit 117.
  • the audio reproduction unit 115 reproduces the audio data of the broadcast program output from the broadcast signal separation unit 112 and the audio data of the moving image content output from the content data separation unit 113 to generate a plurality of audio signals, The plurality of generated audio signals are output to the volume adjustment unit 106.
  • the audio / video processing apparatus 100 is configured to be able to reproduce both video content and broadcast programs, but the present disclosure is not limited to this configuration.
  • the video / audio processing apparatus 100 may be configured to reproduce only one of them.
  • the video reproduction unit 114 and the audio reproduction unit 115 reproduce only one of the plurality of moving image contents and the plurality of broadcast programs.
  • the video reproduction unit 114 and the audio reproduction unit 115 may reproduce only one of a plurality of moving image contents and a plurality of broadcast programs.
  • FIG. 1 illustrates a configuration example in which the antenna 131 and the storage device 132 are both installed outside the video / audio processing device 100, but the present disclosure is not limited to this configuration. At least one of the antenna 131 and the storage device 132 may be included in the video / audio processing device 100.
  • the video / audio processing apparatus 100 may be configured to hold the moving image content by itself and reproduce the stored moving image content. Further, the video / audio processing apparatus 100 may be configured to acquire, for example, moving image content stored in a moving image server or the like via the Internet or the like.
  • the OSD generation unit 116 generates an OSD video signal for displaying the OSD video on the display screen.
  • the display synthesis unit 117 generates a display video signal by synthesizing a plurality of video signals and OSD video signals reproduced by the video reproduction unit 114, and outputs the generated display video signal.
  • the generated display video signal is a video signal for displaying a display video including a plurality of moving images on the display screen. In this way, the display synthesis unit 117 generates a display video signal in which a plurality of video signals reproduced by the video reproduction unit 114 are superimposed on each other.
  • the operation reception unit 102 receives a user operation.
  • the user operation includes, for example, a direct operation on the video / audio processing apparatus 100 by a user, a remote operation on the video / audio processing apparatus 100 using a remote controller (not shown), and the like.
  • the control unit 103 controls the video generation unit 101 according to the user operation received by the operation receiving unit 102.
  • the control unit 103 specifies the broadcast signal to be selected by the channel selection unit 111, specifies the moving image content to be acquired by the content data separation unit 113, specifies the broadcast program to be processed by the broadcast signal separation unit 112, and the OSD generation unit 116.
  • the video output unit 104 outputs the display video signal generated by the display synthesis unit 117 to a display unit such as a monitor.
  • FIG. 1 illustrates a configuration example in which the monitor is installed outside the video / audio processing apparatus 100, but the present disclosure is not limited to this configuration.
  • the video / audio processing apparatus 100 may be configured to include a display unit and display a display video on the display unit.
  • the selection unit 105 selects one audio signal from among the plurality of audio signals output from the audio reproduction unit 115 based on the display video signal output from the display synthesis unit 117. That is, the selection unit 105 selects an audio signal of one moving image from the plurality of moving images according to the positions of the plurality of moving images in the display screen.
  • the audio signal is also simply referred to as “audio”.
  • the volume adjusting unit 106 adjusts the volume of the plurality of audio signals output from the audio reproducing unit 115 to generate an output audio signal, and outputs the generated output audio signal to the audio output unit 107. At this time, the volume adjustment unit 106 adjusts the volume of each audio signal of the plurality of moving images so that the audio signal selected by the selection unit 105 is output at a higher volume than the other audio signals.
  • the audio output unit 107 outputs the output audio signal generated by the volume adjustment unit 106 to the speaker.
  • 1 illustrates a configuration example in which the speaker is installed outside the audio / video processing apparatus 100, the present disclosure is not limited to this configuration.
  • the video / audio processing apparatus 100 may include a speaker and be configured to output sound from the speaker.
  • FIG. 2 is a diagram schematically illustrating an example of a display image generated by the video / audio processing apparatus 100 according to the first embodiment.
  • FIG. 2 shows an example in which an image in which the moving image 202A, the moving image 202B, and the moving image 202C move from the right to the left of the screen 201 as time passes is displayed on the screen 201.
  • the moving images 202A to 202C correspond to a plurality of video signals generated by the video playback unit 114.
  • Each of the moving images 202A to 202C is, for example, a broadcast program, moving image content recorded or shot by a user, or moving image content acquired from an external moving image server or the like via the Internet or the like.
  • an image including a plurality of moving images (for example, moving images 202A to 202C) is automatically scrolled from the right to the left on the screen 201. . Accordingly, a plurality of moving images are sequentially displayed on the screen 201.
  • other information may be displayed on the screen 201 outside the moving image display area.
  • the other information may be, for example, a still image, text information, menu, icon, or link information (for example, URL (Uniform Resource Locator)).
  • URL Uniform Resource Locator
  • FIG. 2 shows an example in which three moving images 202A to 202C are displayed on the screen 201.
  • the number of moving images displayed on the screen 201 may be two or less, and may be four or more. It may be.
  • the sizes of the moving images displayed on the screen 201 may be the same or different from each other.
  • the arrangement positions of the moving images 202A to 202C on the screen 201 shown in FIG. 2 are merely an example, and each moving image may be arranged appropriately.
  • FIG. 2 shows an example in which an image including a plurality of moving images (for example, moving images 202A to 202C) scrolls from the right to the left of the screen 201 in the display video generated by the video / audio processing apparatus 100.
  • the image may be scrolled from the left to the right of the screen 201, or may be scrolled from the top to the bottom of the screen 201 or from the bottom to the top.
  • the image may be scrolled in an oblique direction.
  • FIG. 2 shows an operation example in which the image is linearly scrolled. However, the image may be scrolled while drawing a predetermined locus such as a wave shape.
  • the entire screen may be scrolled, or only a part of the area including the plurality of moving images may be scrolled.
  • the video / audio processing apparatus 100 operates, for example, as shown in FIG. 2 in which a moving image is automatically scrolled (hereinafter referred to as “automatic scrolling operation”) in a display video when a user operation is not performed for a certain period of time. May be started).
  • the audio / video processing apparatus 100 may cancel the automatic scroll operation when a user operation is performed during the automatic scroll operation.
  • the video / audio processing apparatus 100 may start or cancel the automatic scroll operation when a predetermined user operation is received.
  • FIG. 3 is a diagram schematically showing an outline of the audio adjustment process performed by the video / audio processing apparatus 100 according to the first embodiment.
  • (A) of FIG. 3 is a figure which shows typically a mode that the moving image 202A and a part of moving image 202B are displayed on the screen 201.
  • FIG. 3A schematically shows the display area of the screen 201.
  • the horizontal axis represents the horizontal direction (longitudinal direction) of the screen 201, and the vertical axis represents the vertical direction (short side) of the screen 201. Direction).
  • FIG. 3 is a diagram schematically showing an outline of the audio adjustment process performed by the video / audio processing apparatus 100 according to the first embodiment.
  • (A) of FIG. 3 is a figure which shows typically a mode that the moving image 202A and a part of moving image 202B are displayed on the screen 201.
  • FIG. 3A schematically shows the display area of the screen 201.
  • the horizontal axis represents the horizontal direction (longit
  • FIG. 3A is a diagram schematically showing the volume of the moving image included in the sound output area.
  • the vertical axis of FIG. 3B represents the volume level.
  • the audio / video processing apparatus 100 provides a sound output area 203 in the screen 201 as shown in FIG.
  • the sound output area 203 is an area from the position X1 to the position X2 shown in FIG. 3A, and is an area where the audio / video processing apparatus 100 outputs the sound of a moving image.
  • the sound output area 203 is set near the center of the screen 201 in the audio / video processing apparatus 100, but the present disclosure does not limit the sound output area 203 to the range illustrated in FIG. 3 at all.
  • the sound output area 203 may be set so as to cover the entire screen 201.
  • the moving image 202 ⁇ / b> A and a part of the moving image 202 ⁇ / b> B are displayed on the screen 201, the moving image 202 ⁇ / b> A is included in the sound output region 203, and the moving image 202 ⁇ / b> B is included in the sound output region 203. Absent.
  • the video / audio processing apparatus 100 selects the moving image 202A included in the sound output area 203 as a moving image (hereinafter, also referred to as “target moving image”) to be output with sound.
  • volume V2 the sound volume of the target moving image
  • volume V1 the sound volume of the moving image other than the target moving image
  • the volume V1 may be 0 (zero). That is, the video / audio processing apparatus 100 may operate so as to output only the sound of the target moving image and not output the sound other than the target moving image.
  • the video / audio processing apparatus 100 when a moving image is included in the sound output region 203 and becomes a target moving image, gradually increases the volume of the moving image from the volume V1 to the volume V2. When the target moving image moves from the sound output area 203 to the outside of the sound output area 203 and is no longer the target moving image, the video / audio processing apparatus 100 gradually decreases the volume of the moving image from the volume V2 and returns it to the volume V1. . It is desirable that the time until the volume of the target moving image reaches the volume V2 from the volume V1 and the time until the volume reaches the volume V1 from the volume V2 are set appropriately so that the user does not feel uncomfortable.
  • volume graph shown in FIG. 3 indicates the gain that the volume adjustment unit 106 multiplies to the original audio signal.
  • the position of the moving image used for determination is the left end of the moving image. That is, when the left end of the moving image is included in the sound output region 203, the selection unit 105 of the video / audio processing apparatus 100 determines that the moving image is included in the sound output region 203, and the left end of the moving image is the sound output region. When moving out of the sound output area 203 from 203, it is determined that the moving image is no longer included in the sound output area 203.
  • the position of the moving image used for determination is not limited to the left end of the moving image. For example, the center of the moving image may be used for the determination, or the right end of the moving image may be used for the determination. Alternatively, positions other than those may be used for the determination.
  • volume V1 is set to 0 (zero)
  • the volume V1 is not limited to 0 at all, and may be another numerical value.
  • the video / audio processing apparatus 100 When two moving images are simultaneously included in the sound output area 203, the video / audio processing apparatus 100 outputs the sound of the moving image included in the sound output area 203 first.
  • the video / audio processing apparatus 100 moves a moving image that is outputting sound from the sound output region 203 to the outside of the sound output region 203 and is not included in the sound output region 203. Then, switching to the moving image included in the sound output area 203 is performed later.
  • the selection unit 105 selects the sound signal of the moving image included in the sound output region 203 earliest from among the plurality of moving images.
  • the selection unit 105 outputs the sound at that time.
  • the audio signal of the moving image included in the sound output region 203 is selected earliest among the plurality of moving images included in the region 203.
  • FIG. 4 is a diagram schematically illustrating an example of the operation of the video / audio processing apparatus 100 when two moving images (the moving image 202A and the moving image 202B) are included in the sound output area 203 in the first embodiment.
  • FIG. 4 schematically shows a display image on the screen 201, and it is assumed that time elapses in the order of (a), (b), and (c).
  • the scroll direction of the moving image is indicated by a white arrow. Also, in FIG.
  • the moving image 202A is first included in the sound output area 203, and the moving image 202B (the left end of the moving image 202B) is moved before the moving image 202A (the left end of the moving image 202A) moves from the sound output area 203 to the outside of the sound output area 203.
  • Is included in the sound output area 203 and then an operation example when the moving image 202 ⁇ / b> A (the left end of the moving image 202 ⁇ / b> A) moves out of the sound output area 203 and is not included in the sound output area 203 is shown.
  • the white arrow indicating the scroll direction in FIG. 4 is shown for convenience and is not displayed on the screen 201.
  • FIG. 5 is a diagram schematically illustrating an example of a temporal change in volume of each moving image when two moving images (moving image 202A and moving image 202B) are included in the sound output area 203 in the first embodiment.
  • FIG. 4A shows a state from time T1 to time T2 in FIG. 4 and 5, the moving image 202A (the left end of the moving image 202A) is included in the sound output region 203 at time T1, and the moving image 202B (the left end of the moving image 202B) is included in the sound output region 203 at time T2.
  • the moving image 202A (the left end of the moving image 202A) moves out of the sound output region 203 and is not included in the sound output region 203 at T3. Therefore, in the period from time T1 to time T2, the moving image 202A is included in the sound output region 203, and the moving image 202B is outside the sound output region 203 and is not included in the sound output region 203.
  • the audio / video processing apparatus 100 outputs the audio of the moving image 202A.
  • FIG. 4B shows a state from time T2 to time T3 in FIG.
  • the video / audio processing apparatus 100 continues to output the sound of the moving image 202A and does not output the sound of the moving image 202B.
  • FIG. 4C shows a state after time T3 in FIG. Since the moving image 202A moves from the sound output area 203 to the outside of the sound output area 203 at time T3 and is not included in the sound output area 203, the video / audio processing apparatus 100 selects a moving image to be output as an audio at time T3. Switching from the moving image 202A to the moving image 202B. At this time, the volume adjustment unit 106 of the video / audio processing apparatus 100 gradually lowers the sound of the moving image 202A to fade out, and gradually increases the sound of the moving image 202B to fade in.
  • the volume adjustment unit 106 gradually decreases the volume of the unselected audio and gradually increases the volume of the newly selected audio when switching the audio selected by the selection unit 105 to another audio. To do.
  • FIG. 6 is a flowchart illustrating an example of a video / audio generation process executed by the video / audio processing apparatus 100 according to the first embodiment.
  • the video reproduction unit 114 starts reproduction of video data of a plurality of moving image contents
  • the audio reproduction unit 115 starts reproduction of audio data of the plurality of moving image contents (step S101).
  • the display composition unit 117 generates a display image including a plurality of moving images reproduced in step S101 (step S102).
  • the display video generated in step S102 may include, for example, an OSD video.
  • step S103 the selection unit 105 and the volume adjustment unit 106 perform an initial volume setting process. Note that, at the time when step S103 is executed, image scrolling has not started in the display video.
  • step S103 the initial volume setting process in step S103 will be described with reference to FIG.
  • FIG. 7 is a flowchart showing an example of the initial volume setting process in the first embodiment.
  • the selection unit 105 determines whether or not a moving image exists in the sound output area 203 (step S121).
  • step S121 If it is determined in step S121 that there is no moving image in the sound output area 203 (No in step S121), the selection unit 105 does not select any moving image sound, and the volume adjustment unit 106 Also does not output the audio of the video.
  • this operation is an operation when the volume V1 is set to zero. If the volume V1 is not 0, the volume adjustment unit 106 adjusts the volume of the sound of the moving image outside the sound output area 203 (that is, the sound not selected by the selection unit 105) to a preset volume V1. .
  • the selection unit 105 selects the sound of the moving image included in the sound output area 203 (step S122). If a plurality of moving images are included in the sound output area 203, the selection unit 105 determines that the sound output area 203 is included in the sound output area 203 earliest based on the scroll direction of the display video among the plurality of moving images. Select the audio of the video to be played. In the example illustrated in FIG. 4, the selection unit 105 selects the sound of the moving image located on the leftmost side.
  • the volume adjustment unit 106 sets the volume of the audio selected by the selection unit 105 to the volume V2, and sets the volume of the audio not selected by the selection unit 105 to a volume V1 (for example, 0) smaller than the volume V2. Setting is made (step S123).
  • the volume adjusting unit 106 generates an output audio signal by synthesizing the plurality of audio signals after the volume adjustment, and outputs the output audio signal to the audio output unit 107.
  • the above processing is the initial volume setting processing.
  • step S103 the processing after step S103 will be described.
  • the display composition unit 117 scrolls the display video in a predetermined direction (for example, from the right to the left of the screen 201), and updates the display position of the display video (step S104).
  • the selection unit 105 determines whether or not the current sound output moving image is no longer included in the sound output region 203 by the processing executed in step S104 (that is, updating of the display position of the moving image in the display video). Is determined (step S105).
  • the determination in step S105 is performed based on, for example, whether or not the left end of the moving image is included in the sound output area 203.
  • This determination criterion is the same in the determination performed in step S109 described later. This determination criterion is an example, and another determination criterion may be set.
  • step S105 If it is determined in step S105 that the moving image currently being output has moved from the output region 203 outside the output region 203 and is no longer included in the output region 203 (Yes in step S105), the selection unit 105 cancels the selection of the sound of the moving image, and the volume adjusting unit 106 gradually decreases the volume of the moving image currently being output (step S106).
  • the selection unit 105 determines whether or not the sound output area 203 includes a moving image other than the current moving image (hereinafter also referred to as “other moving images”) (step S107). ).
  • step S107 If it is determined in step S107 that the sound output area 203 includes another moving image (Yes in step S107), the selection unit 105 selects the sound of the other moving image included in the sound output area 203. To do. Then, the volume adjustment unit 106 gradually increases the volume of the sound selected by the selection unit 105 (step S108).
  • step S108 if there are a plurality of other moving images, the selection unit 105 determines that, among the plurality of other moving images, the earliest included in the sound output region 203 based on the scroll direction of the display video. Select the audio for the video to be played. For example, the selection unit 105 selects the sound of the moving image located on the leftmost side from among the plurality of other moving images.
  • step S105 When it is determined in step S105 that the moving image currently being output is included in the output region 203 (No in step S105), or in step S107, another moving image is included in the output region 203. If it is determined that it is not (No in Step S107), or after Step S108, the selection unit 105 determines whether or not a new moving image is included in the sound output area 203 (Step S109).
  • step S109 If it is determined in step S109 that a new moving image is included in the sound output region 203 (Yes in step S109), the selection unit 105 determines whether another sound image is included in the sound output region 203 or not. Is determined (step S110). That is, the selection unit 105 determines whether or not a moving image that is currently sounding is present in the sound output region 203.
  • step S110 If it is determined in step S110 that the sound output region 203 does not include a moving image currently being output (No in step S110), the selection unit 105 newly adds a moving image included in the sound output region 203. Select the sound. Then, the volume adjustment unit 106 gradually increases the volume of the sound selected by the selection unit 105 (step S111).
  • step S110 If it is determined in step S110 that the sound output area 203 includes a moving image that is currently being output (Yes in step S110), the selection unit 105 selects the current output included in the sound output area 203. Continue sound selection of moving images in sound. That is, the selection unit 105 does not select the sound of the moving image newly included in the sound output area 203.
  • control unit 103 determines whether or not the automatic scrolling operation is continued (step S112).
  • step S112 when it is determined that the automatic scrolling moving image is continued (Yes in step S112), the process returns to step S104, and the processes after step S104 are executed.
  • step S112 If it is determined in step S112 that the automatic scrolling video has ended (No in step S112), the video / audio processing apparatus 100 ends the process. For example, the video / audio processing device 100 ends the process when receiving an operation by the user.
  • step S106 the operation example in which the sound is faded in (the sound volume is gradually increased) in steps S108 and S111 and the sound is faded out (the sound volume is gradually decreased) in step S106 has been described.
  • the present disclosure is not limited to this operation example.
  • At least one of the fade-in of step S108, step S111 and the fade-out of step S106 may not be performed.
  • processing similar to the initial voice setting processing in step S103 may be performed instead of the processing in steps S105 to S111.
  • the operation example in which it is determined that a moving image is included in the sound output region 203 when the left end of the moving image is included in the sound output region 203 has been described. It is not limited to this operation example. This determination may be performed based on the center or the right end of the moving image. Alternatively, this determination may be performed based on other determination criteria (for example, the area of a moving image, etc.).
  • the video / audio processing apparatus includes the video generation unit, the selection unit, and the volume adjustment unit.
  • the video generation unit generates a video signal of a display video in which a region where a plurality of moving images are displayed automatically moves in a predetermined direction within the display screen.
  • the selection unit selects an audio signal of one moving image from the plurality of moving images according to the positions of the plurality of moving images in the display screen.
  • the volume adjustment unit adjusts the volume of each audio signal of the plurality of moving images so that the audio signal selected by the selection unit is output at a volume higher than that of the other audio signals.
  • the video / audio processing apparatus 100 and the video / audio processing apparatus 100A described later are examples of the video / audio processing apparatus.
  • the video generation unit 101 is an example of a video generation unit.
  • the selection unit 105 is an example of a selection unit.
  • the volume adjustment unit 106 is an example of a volume adjustment unit.
  • the moving image 202A, the moving image 202B, and the moving image 202C are examples of a plurality of moving images.
  • a screen 201 is an example of a display screen.
  • the audio / video processing apparatus selects the audio signal of one moving image in the display image in which a plurality of moving images are automatically scrolled, and makes it easy for the user to hear the audio from the audio signal. You can adjust the volume of multiple voices. That is, the video / audio processing apparatus according to the present embodiment can generate audio that is easy for the user to hear when a plurality of moving images are displayed in one display screen.
  • the selection unit may select the audio signal of the moving image included in the predetermined sound output area in the display screen from the plurality of moving images.
  • the sound output area 203 is an example of a sound output area.
  • the video / audio processing apparatus can select and output a sound signal of a moving image existing in an area easily recognized by the user. That is, the video / audio processing apparatus can appropriately select one sound from a plurality of moving image sounds and output the sound.
  • the selection unit may select the audio signal of the moving image included in the sound output region 203 earliest among the plurality of moving images included in the sound output region.
  • the video / audio processing apparatus can prevent the audio of the moving image in which the user is paying attention from being switched to the audio of another moving image in the middle.
  • the volume adjustment unit gradually reduces the volume of the audio signal that has been deselected when the audio signal selected by the selection unit is switched to another audio signal, and is newly selected.
  • the volume of the audio signal may be gradually increased.
  • the video / audio processing apparatus can realize switching of audio that is easier for the user to hear when the audio signal selected by the selection unit is switched to another audio signal.
  • the first embodiment has been described as an example of the technique disclosed in the present application.
  • the technology in the present disclosure is not limited to this, and can also be applied to embodiments in which changes, replacements, additions, omissions, and the like are performed.
  • the volume adjusting unit 106 of the video / audio processing apparatus 100 takes time required for the audio to fade out in accordance with the scrolling speed of the moving image in the display video (time until the audio is gradually reduced from the volume V2 to the volume V1). Alternatively, the time required for fade-in (the time until the sound is gradually increased from the volume V1 to the volume V2) may be changed. That is, the volume adjustment unit 106 may change the amount of change in volume per unit time when the sound is faded out or faded in according to the scrolling speed of the moving image in the display video. In the first modification, a video / audio processing apparatus 100 configured to perform such an operation will be described.
  • FIG. 8 is a diagram schematically illustrating an example of a temporal change in volume of a moving image included in the sound output area 203 in Modification 1 of the other embodiment.
  • FIG. 8A shows the time change of the volume when the moving image scroll speed is relatively slow
  • FIG. 8B shows the volume when the moving image scroll speed is relatively fast. The time change of is shown.
  • the volume adjusting unit 106 determines the time t0 required for the audio to fade out or fade in when the moving image scrolling speed is relatively slow. If it is fast, it may be longer than the time t1 required to fade out or fade in the sound.
  • the sound volume adjusting unit moves a plurality of moving images within the display screen for the time required to change the sound signal volume. You may change according to speed.
  • the volume adjustment unit increases the time for gradually decreasing the volume of the sound that has been deselected when switching the sound to be selected by the selection unit as the moving image scrolling speed in the display video is faster, and newly selects The time for gradually increasing the volume of the generated voice may be shortened.
  • the audio can be appropriately faded out or faded in according to the scrolling speed.
  • the volume adjusting unit 106 is configured to select a sound when a new sound is selected from a state where no sound of a moving image is selected by the selection unit 105 and when a sound selected by the selection unit 105 is switched.
  • the time required for fade-in or fade-out may be changed.
  • the volume adjustment unit 106 selects a new sound from the state in which no sound is selected in the selection unit 105 as the time required for the sound to fade in or fade out when the sound selected in the selection unit 105 is switched. In this case, it may be shorter than the time required for the audio to fade in or fade out.
  • the volume adjusting unit 106 configured in this way can continuously switch the sound when the sound selected by the selecting unit 105 is switched.
  • the selection unit 105 and the volume adjustment unit 106 include a moving image previously included in the sound output region 203 among the plurality of moving images.
  • the operation example of selecting the voice and outputting the voice has been described.
  • the present disclosure is not limited to this configuration.
  • the selection unit 105 and the volume adjusting unit 106 select the sound of the moving image included in the sound output region 203 later and output the sound. May be configured.
  • the selection unit 105 selects the audio signal of the moving image included in the sound output area 203 latest among the plurality of moving images. Also good. In other words, when a new moving image is included in the sound output area 203, the selection unit 105 may operate so as to select an audio signal of the moving image.
  • the volume V1 is not limited to zero.
  • FIG. 9 is a diagram schematically illustrating an example of the operation of the video / audio processing device 100 when two moving images (moving image 202A and moving image 202B) are included in the sound output region 203 in the second modification of the other embodiment. It is.
  • FIG. 9 schematically shows a display image on the screen 201, and it is assumed that time elapses in the order of (a), (b), and (c). Further, in FIG. 9, the scroll direction of the moving image is indicated by a white arrow.
  • FIG. 9 schematically shows a display image on the screen 201, and it is assumed that time elapses in the order of (a), (b), and (c). Further, in FIG. 9, the scroll direction of the moving image is indicated by a white arrow.
  • the moving image 202A is first included in the sound output region 203, and the moving image 202B (the left end of the moving image 202B) is moved before the moving image 202A (the left end of the moving image 202A) moves from the sound output region 203 to the outside of the sound output region 203.
  • Is included in the sound output area 203 and then an operation example when the moving image 202 ⁇ / b> A (the left end of the moving image 202 ⁇ / b> A) moves out of the sound output area 203 and is not included in the sound output area 203 is shown.
  • the white arrow indicating the scroll direction in FIG. 9 is shown for convenience and is not displayed on the screen 201.
  • FIG. 10 schematically illustrates an example of a temporal change in volume of each moving image when two moving images (moving image 202A and moving image 202B) are included in the sound output area 203 in Modification 2 of the other embodiment.
  • FIG. 10 schematically illustrates an example of a temporal change in volume of each moving image when two moving images (moving image 202A and moving image 202B) are included in the sound output area 203 in Modification 2 of the other embodiment.
  • FIG. 9A shows a state from time T1 to time T2 in FIG. 9 and 10, the moving image 202A (the left end of the moving image 202A) is included in the sound output area 203 at time T1, and the moving image 202B (the left end of the moving image 202B) is included in the sound output area 203 at time T2.
  • the moving image 202A (the left end of the moving image 202A) moves out of the sound output region 203 and is not included in the sound output region 203 at T3. Therefore, in the period from time T1 to time T2, the moving image 202A is included in the sound output region 203, and the moving image 202B is outside the sound output region 203 and is not included in the sound output region 203.
  • the audio / video processing apparatus 100 outputs the audio of the moving image 202A.
  • FIG. 9B shows a state from time T2 to time T3 in FIG.
  • the moving image 202A is included in the sound output region 203, but at time T2, the moving image 202B (the left end of the moving image 202B) moves from outside the sound output region 203 into the sound output region 203 and outputs sound. Since it is included in the region 203, the video / audio processing apparatus 100 switches the moving image to be output from the moving image 202A to the moving image 202B. At this time, the volume adjustment unit 106 of the video / audio processing apparatus 100 gradually lowers the sound of the moving image 202A to fade out, and gradually increases the sound of the moving image 202B to fade in.
  • FIG. 9C shows the state after time T3 in FIG. Since the moving image 202B is included in the sound output area 203 from time T3 to time T4, the video / audio processing apparatus 100 continues to output the sound of the moving image 202B.
  • FIG. 11 is a flowchart illustrating an example of a video / audio generation process executed by the video / audio processing apparatus 100 according to the second modification of the other embodiment.
  • the processes in steps S101 to S105 and step S112 are substantially the same as the processes shown in the same step of the flowchart in FIG.
  • step S105 in the flowchart of FIG. 6 it is determined whether or not the moving image currently being output has moved from the sound output area 203 to the outside of the sound output area 203 and is no longer included in the sound output area 203. explained. However, in step S105 in the flowchart of FIG. 11, the moving image is simply moved from the sound output area 203 to the outside of the sound output area 203 and is not included in the sound output area 203 regardless of whether or not it is a sound output sound. It is determined whether or not. This determination is performed based on, for example, whether or not the left end of the moving image is included in the sound output area 203 as in the first embodiment. The same applies to the other modifications described below. However, the present disclosure is not limited to this operation example. For example, this determination may be performed based on the center or right end of the moving image. Alternatively, this determination may be performed based on other determination criteria (for example, the area of a moving image, etc.).
  • step S105 If it is determined in step S105 that the moving image has moved out of the sound output area 203 from the sound output area 203 and is no longer included in the sound output area 203 (Yes in step S105), the selection unit 105 outputs the sound. It is determined whether another moving image is included in the area 203 (step S106A).
  • step S106A when it is determined that no other moving images are included in the sound output area 203 (No in step S106A), the sound output area 203 moves from the sound output area 203 to the outside of the sound output area 203 in step S105.
  • the moving image determined not to be included in 203 is a moving image that is currently being produced. Therefore, the selection unit 105 moves from the sound output area 203 to the outside of the sound output area 203 and cancels the sound selection of the moving image that is no longer included in the sound output area 203. Then, the volume adjustment unit 106 gradually decreases the volume of the sound whose selection is canceled by the selection unit 105 (step S107A).
  • step S106A If it is determined in step S106A that another moving image is included in the sound output area 203 (Yes in step S106A), the sound output area 203 is output from the sound output area 203 in step S105 in the flowchart shown in FIG. A moving image determined to have moved out of 203 and no longer included in the sound output area 203 is not a moving image currently being output. Therefore, the selection unit 105 and the volume adjustment unit 106 do not change the currently selected voice (without switching the voice selection) and continue the current state.
  • step S105 When it is determined in step S105 that the moving image has not moved from the sound output area 203 to the outside of the sound output area 203 (No in step S105), or in step S106A, another moving image is present in the sound output area 203.
  • the selection unit 105 determines whether or not a new moving image is included in the sound output area 203 (step S108A). .
  • step S108A If it is determined in step S108A that a new moving image is included in the sound output region 203 (Yes in step S108A), the selection unit 105 selects the sound of the moving image newly included in the sound output region 203. . Then, the volume adjustment unit 106 gradually increases the volume of the voice newly selected by the selection unit 105 (step S109A).
  • the selection unit 105 determines whether or not a moving image (another moving image) other than the moving image newly included in the sound output area 203 is included in the sound output area 203 (step S110A).
  • step S110A when it is determined that another moving image is included in the sound output area 203 (Yes in step S110A), a sound is currently being output in addition to the moving image newly included in the sound output area 203. Are present in the sound output area 203. Therefore, the selection unit 105 cancels the sound selection of the moving image currently being sounded other than the moving image newly included in the sound output area 203. Then, the volume adjustment unit 106 gradually decreases the volume of the sound whose selection is canceled by the selection unit 105 (step S111A).
  • the selection unit may select the audio signal of the moving image included in the sound output region the latest among the plurality of moving images included in the sound output region.
  • the video / audio processing apparatus configured as described above can always output the sound of a moving image newly included in the sound output area.
  • the selection unit 105 moves to the sound output region 203 when a moving image corresponding to the sound signal being selected by the selection unit 105 moves from the sound output region 203 to the outside of the sound output region 203 and is not included in the sound output region 203. Audio signals of moving images that are not included in the set transition target area 204 (see FIG. 12) may be excluded from the next selection target.
  • FIG. 12 is a diagram schematically showing an outline of the audio adjustment processing in the third modification of the other embodiment.
  • the sound selected by the selection unit 105 is immediately switched from the sound of the moving image 202A to the sound of the moving image 202B.
  • 202B moves out of the sound output area 203 from the sound output area 203. For this reason, the period during which the audio of the moving image 202B is output is relatively short.
  • the transition target area 204 may be provided in the sound output area 203 based on the scroll direction of the moving image.
  • the transition target area 204 is set in the sound output area 203 excluding the area on the exit side of the moving image to be scrolled.
  • the region on the right side of the sound output region 203 is the transition target region 204.
  • the transition target area 204 is an area set as follows. That is, the selection unit 105 moves the moving image 202A from the sound output region 203 to the outside of the sound output region 203 and does not include the sound output region 203. If the moving image 202B is included in the transition target region 204, The voice of 202B is selected. However, if the moving image 202B is not included in the transition target area 204, the sound of the moving image 202B is not selected.
  • FIG. 13 is a flowchart illustrating an example of a video / audio generation process executed by the video / audio processing apparatus 100 according to Modification 3 of the other embodiment.
  • Each process shown in the flowchart of FIG. 13 is different from the process shown in the flowchart of FIG. 6 in that step S107 is replaced with step S107B.
  • step S107B is replaced with step S107B.
  • the two are substantially the same, so detailed description will be omitted, and only the processing of step S107B will be described.
  • the selection unit 105 determines whether or not the transition target area 204 includes a moving image other than the moving image currently being output (step S107B).
  • step S107B If it is determined in step S107B that the transition target area 204 includes a moving image other than the moving image currently being output (Yes in step S107B), the same processing as step S108 shown in the flowchart of FIG. 6 is performed. Step S108 is executed.
  • step S107B If it is determined in step S107B that the transition target area 204 does not include a moving image other than the currently output moving image (No in step S107B), the same processing as step S109 shown in the flowchart of FIG. 6 is performed. Step S109 is executed.
  • the selection unit 105 includes, for example, two sound images in the sound output area 203, and one of the moving images (the moving image previously included in the sound output area 203) is output from the sound output area 203.
  • the other moving image moving image included later in the sound output area 203
  • the sound of the other moving image is selected
  • the other moving image is not included in the transition target area 204
  • an operation of not selecting the sound of the other moving image may be performed. In this operation, when two sound images are included in the sound output area 203 and one of the moving images moves out of the sound output area 203 from the sound output area 203, the other moving image is set to a predetermined time. In other words, when moving outside the sound output area 203 from the sound output area 203, the other moving image is not selected.
  • the selection unit moves the sound output region when the moving image corresponding to the sound signal being selected by the selection unit moves from the sound output region to the outside of the sound output region 203 and is not included in the sound output region 203.
  • a moving image that is not included in the transition target area set in the above may be excluded from the next selection target.
  • transition target area 204 is an example of a transition target area.
  • the audio of the moving image included in the sound output area is output only for a short period later. Can be prevented from occurring.
  • the video generation unit may generate an icon indicating the volume of the audio signal selected by the selection unit.
  • an icon indicating the volume of each moving image may be superimposed and displayed on each moving image that scrolls in the display screen.
  • FIG. 14 is a block diagram illustrating a configuration example of the video / audio processing device 100A according to Modification 4 of the other embodiment.
  • the video / audio processing apparatus 100A includes a video generation unit 101A, an operation reception unit 102, a control unit 103, a video output unit 104, a selection unit 105, a volume adjustment unit 106, and an audio output unit 107.
  • the video generation unit 101A includes a channel selection unit 111, a broadcast signal separation unit 112, a content data separation unit 113, a video reproduction unit 114, an audio reproduction unit 115, an OSD generation unit 116, and a display synthesis unit 117A. Prepare.
  • the video / audio processing device 100A shown in FIG. 14 is different from the video / audio processing device 100 shown in FIG. 1 in that the function of the display synthesis unit 117A of the video generation unit 101A is the same as that of the display synthesis unit 117 of the video generation unit 101. Different from function. However, except for this point, the two are substantially the same, so detailed description will be omitted, and only the display composition unit 117A will be described.
  • the display synthesis unit 117A of the video / audio processing device 100A shown in FIG. 14 indicates the volume of a moving image that scrolls in the display screen, in addition to the functions of the display synthesis unit 117 of the video / audio processing device 100 shown in FIG. It has a function of generating an icon and displaying it superimposed on each moving image.
  • FIG. 1 An example of an icon indicating the volume of a moving image generated by the display composition unit 117A is shown in FIG.
  • FIG. 15 is a diagram schematically illustrating an example of a display image in Modification 4 of the other embodiment.
  • the display composition unit 117A generates an icon 205A as an icon indicating the volume of the moving image 202A, and generates an icon 205B as an icon indicating the volume of the moving image 202B. Then, the display composition unit 117A superimposes the icon 205A on the moving image 202A and the icon 205B on the moving image 202B, and synthesizes them to generate a display video signal.
  • the moving image 202A on which the icon 205A is superimposed and the moving image 202B on which the icon 205B is superimposed are displayed on the screen 201, and these moving images scroll in the screen 201 from right to left.
  • the display composition unit 117A generates an icon with a size corresponding to the volume level. That is, the display composition unit 117A generates a relatively large icon for a moving image with a relatively large volume and superimposes the icon on the moving image, and relatively small for a moving image with a relatively small volume. An icon is generated and superimposed on the moving image. Therefore, for example, in the example shown in FIG. 15, the user can easily understand that the currently output sound is the sound of the moving image 202A by comparing the icon 205A and the icon 205B displayed on the screen 201. .
  • the display composition unit 117A may generate an icon indicating the volume only for the sound selected by the selection unit 105, and may not generate an icon indicating the volume for a sound not selected by the selection unit 105.
  • the display composition unit 117A may display only the icon 205A of the moving image 202A on the screen 201 and may not display the icon 205B of the moving image 202B on the screen 201. In that case, the user can easily understand that the currently output sound is the sound of the moving image 202 ⁇ / b> A by looking at the icon 205 ⁇ / b> A displayed on the screen 201.
  • the display composition unit 117A may represent the volume level by the icon color instead of the icon size.
  • the display composition unit 117A may change the icon design in conjunction with the effect at the time of sound fade-in or sound fade-out.
  • the display composition unit 117A may display an icon indicating the volume level not on the moving image but on the periphery of the moving image so that the moving image is not hidden by the icon.
  • the video generation unit may generate an icon indicating the volume of the audio signal selected by the selection unit. Thereby, the user can visually confirm the volume of the moving image that scrolls the display screen.
  • these general or specific aspects may be realized by an apparatus, a system, a method, an integrated circuit, a computer program, or a recording medium such as a computer-readable CD-ROM. You may implement
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • division of functional blocks in the block diagram is an example, and a plurality of functional blocks can be realized as one functional block, a single functional block can be divided into a plurality of functions, or some functions can be transferred to other functional blocks. May be.
  • the functions of a plurality of functional blocks having similar functions may be processed in parallel or in time division by a single hardware or software.
  • This disclosure is applicable to a video / audio processing apparatus. Specifically, the present disclosure can be applied to a television, a recorder, a personal computer, a tablet terminal device, or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Receiver Circuits (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 ユーザが聞き取りやすい音声を生成できる映像音声処理装置を提供する。映像音声処理装置は、映像生成部と、選択部と、音量調整部と、を備える。映像生成部は、複数の動画像が表示される領域が、表示画面内を、予め定められた方向に自動的に移動する表示映像の映像信号を生成する。選択部は、複数の動画像の表示画面内における位置に応じて、それら複数の動画像の中から1つの動画像の音声信号を選択する。音量調整部は、選択部で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の動画像のそれぞれの音声信号の音量を調整する。

Description

映像音声処理装置、映像音声処理方法およびプログラム
 本開示は、複数の動画像を1つの表示画面内に表示する映像を生成する映像音声処理装置および映像音声処理方法に関する。
 特許文献1は、複数の動画像を1つの表示画面内に表示する技術を用いた情報処理装置を開示する。その情報処理装置は、番組表示のスクロール操作と連動するように、各番組の音声出力座標を決定し、それらの音声出力座標に基づいて各番組の音声を合成する。
特開2003-87681号公報
 複数の動画像を1つの表示画面内に表示する映像を生成する映像音声処理装置では、ユーザが聞き取りやすい音声を生成できることが望ましい。
 本開示は、ユーザが聞き取りやすい音声を生成できる映像音声処理装置および映像音声処理方法を提供する。
 本開示における映像音声処理装置は、映像生成部と、選択部と、音量調整部と、を備える。映像生成部は、複数の動画像が表示される領域が、表示画面内を、予め定められた方向に自動的に移動する表示映像の映像信号、を生成する。選択部は、複数の動画像の表示画面内における位置に応じて、それら複数の動画像の中から1つの動画像の音声信号を選択する。音量調整部は、選択部で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の動画像のそれぞれの音声信号の音量を調整する。
 本開示における映像音声処理装置は、複数の動画像が1つの表示画面内に表示されるときに、ユーザが聞き取りやすい音声を生成することができる。
図1は、実施の形態1における映像音声処理装置の一構成例を示すブロック図である。 図2は、実施の形態1における映像音声処理装置で生成される表示映像の一例を模式的に示す図である。 図3は、実施の形態1における映像音声処理装置で行う音声調整処理の概要を模式的に示す図である。 図4は、実施の形態1において2つの動画像が出音領域に含まれるときの映像音声処理装置の動作の一例を模式的に示す図である。 図5は、実施の形態1において2つの動画像が出音領域に含まれるときの各動画像の音量の時間変化の一例を模式的に示す図である。 図6は、実施の形態1における映像音声処理装置で実行する映像音声生成処理の一例を示すフローチャートである。 図7は、実施の形態1における初期音量設定処理の一例を示すフローチャートである。 図8は、他の実施の形態の変形例1における出音領域に含まれる動画像の音量の時間変化の一例を模式的に示す図である。 図9は、他の実施の形態の変形例2において2つの動画像が出音領域に含まれるときの映像音声処理装置の動作の一例を模式的に示す図である。 図10は、他の実施の形態の変形例2において2つの動画像が出音領域に含まれるときの各動画像の音量の時間変化の一例を模式的に示す図である。 図11は、他の実施の形態の変形例2における映像音声処理装置で実行する映像音声生成処理の一例を示すフローチャートである。 図12は、他の実施の形態の変形例3における音声調整処理の概要を模式的に示す図である。 図13は、他の実施の形態の変形例3における映像音声処理装置で実行する映像音声生成処理の一例を示すフローチャートである。 図14は、他の実施の形態の変形例4における映像音声処理装置の一構成例を示すブロック図である。 図15は、他の実施の形態の変形例4における表示映像の一例を模式的に示す図である。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
 また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成要素については同じ符号を付している。
 (実施の形態1)
 以下、図1~図15を用いて、実施の形態1を説明する。
 まず、映像音声処理装置100の構成を説明する。
 [1-1.映像音声処理装置の構成]
 図1は、実施の形態1における映像音声処理装置100の一構成例を示すブロック図である。
 図1に示す映像音声処理装置100は、複数の動画像が1つの表示画面内に表示される映像信号を生成する。例えば、映像音声処理装置100は、テレビ、レコーダ、パーソナルコンピュータ、携帯端末またはスマートフォン、等に搭載される。
 映像音声処理装置100は、映像生成部101と、操作受付部102と、制御部103と、映像出力部104と、選択部105と、音量調整部106と、音声出力部107と、を備える。
 映像生成部101は、複数の動画像が表示される領域が、表示画面内を予め定められた方向に自動的に移動(以下、「スクロール」と記す)する表示映像の映像信号(以下、「表示映像信号」とも記す)を生成して出力する。また、映像生成部101は、それら複数の動画像に対応した複数の音声の音声信号を出力する。
 映像生成部101は、選局部111と、放送信号分離部112と、コンテンツデータ分離部113と、映像再生部114と、音声再生部115と、OSD(On Screen Display)生成部116と、表示合成部117と、を備える。
 選局部111は、アンテナ131で受信された複数の放送信号から、再生の対象となる放送番組の信号を選択し、選択した放送番組の信号を放送信号分離部112へ出力する。選局部111は、例えば、TS(トランスポート・ストリーム)を放送信号分離部112へ出力する。
 放送信号分離部112は、選局部111から出力されるTSから、映像データと音声データとを分離し、映像データを映像再生部114へ出力し、音声データを音声再生部115へ出力する。
 コンテンツデータ分離部113は、記憶装置132から動画コンテンツを取得し、取得した動画コンテンツの映像データを映像再生部114へ出力し、音声データを音声再生部115へ出力する。なお、記憶装置132は、例えばHDD(Hard Disk Drive)等の大容量記憶装置である。記憶装置132は、複数の動画コンテンツを蓄積し、ユーザに選択された動画コンテンツを出力する。
 映像再生部114は、放送信号分離部112から出力される放送番組の映像データ、および、コンテンツデータ分離部113から出力される動画コンテンツの映像データをそれぞれ再生して複数の映像信号を生成し、生成した複数の映像信号を表示合成部117へ出力する。
 音声再生部115は、放送信号分離部112から出力される放送番組の音声データ、および、コンテンツデータ分離部113から出力される動画コンテンツの音声データをそれぞれ再生して複数の音声信号を生成し、生成した複数の音声信号を音量調整部106へ出力する。
 なお、本実施の形態では、映像音声処理装置100が、動画コンテンツおよび放送番組の両方を再生できるように構成された構成例を示すが、本開示は何らこの構成に限定されない。映像音声処理装置100は、それらのいずれか一方のみを再生するように構成されていてもよい。そのように映像音声処理装置100が構成されている場合、映像再生部114および音声再生部115は、複数の動画コンテンツおよび複数の放送番組のいずれか一方のみを再生する。なお、図1に示す映像音声処理装置100において、映像再生部114および音声再生部115は、複数の動画コンテンツおよび複数の放送番組のいずれか一方のみを再生してもよい。
 なお、図1には、アンテナ131および記憶装置132が共に映像音声処理装置100の外部に設置された構成例を示したが、本開示は何らこの構成に限定されない。アンテナ131および記憶装置132の少なくとも一方が、映像音声処理装置100に含まれてもよい。映像音声処理装置100は、動画コンテンツを自身で保持し、保持した動画コンテンツを再生するように構成されてもよい。また、映像音声処理装置100は、例えば動画サーバ等に蓄積された動画コンテンツを、インターネット等を介して取得するように構成されてもよい。
 OSD生成部116は、OSD映像を表示画面に表示するためのOSD映像信号を生成する。
 表示合成部117は、映像再生部114で再生された複数の映像信号およびOSD映像信号を互いに合成して表示映像信号を生成し、生成した表示映像信号を出力する。生成された表示映像信号は、複数の動画像を含む表示映像を表示画面に表示するための映像信号である。このように、表示合成部117は、映像再生部114で再生された複数の映像信号を互いに重畳した表示映像信号を生成する。
 操作受付部102は、ユーザ操作を受ける。ユーザ操作には、例えば、ユーザによる、映像音声処理装置100への直接操作や、リモートコントローラ(図示せず)を使用した映像音声処理装置100への遠隔操作、等が含まれる。
 制御部103は、操作受付部102が受け付けたユーザ操作等に応じて、映像生成部101を制御する。例えば、制御部103は、選局部111が選局する放送信号の指定、コンテンツデータ分離部113が取得する動画コンテンツの指定、放送信号分離部112が処理する放送番組の指定、OSD生成部116へのOSD生成指示、および表示合成部117への表示映像信号の生成指示、等を行う。
 映像出力部104は、表示合成部117で生成された表示映像信号を、モニタ等の表示部へ出力する。なお、図1には、モニタが映像音声処理装置100の外部に設置された構成例を示したが、本開示は何らこの構成に限定されない。映像音声処理装置100は、表示部を備え、その表示部に表示映像を表示するように構成されてもよい。
 選択部105は、表示合成部117から出力される表示映像信号にもとづき、音声再生部115から出力される複数の音声信号のうちの一つの音声信号を選択する。すなわち、選択部105は、複数の動画像の表示画面内における位置に応じて、それら複数の動画像の中から1つの動画像の音声信号を選択する。以下、音声信号を単に「音声」とも記す。
 音量調整部106は、音声再生部115から出力される複数の音声信号の音量を調整して出力音声信号を生成し、生成した出力音声信号を音声出力部107へ出力する。このとき、音量調整部106は、選択部105で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の動画像のそれぞれの音声信号の音量を調整する。
 音声出力部107は、音量調整部106で生成された出力音声信号をスピーカへ出力する。なお、図1には、スピーカが映像音声処理装置100の外部に設置された構成例を示したが、本開示は何らこの構成に限定されない。映像音声処理装置100は、スピーカを備え、そのスピーカから音声を出すように構成されてもよい。
 次に、映像音声処理装置100で生成される表示映像について説明する。
 [1-2.表示映像]
 図2は、実施の形態1における映像音声処理装置100で生成される表示映像の一例を模式的に示す図である。
 図2には、画面201に、動画202A、動画202B、動画202Cが時間の経過と共に画面201の右から左へ移動する映像が表示される例を示す。なお、動画202A~202Cは、映像再生部114で生成される複数の映像信号に対応する。動画202A~202Cの各々は、例えば、放送番組、ユーザが録画または撮影した動画コンテンツ、または、インターネット等を経由して外部の動画サーバ等から取得された動画コンテンツ、等である。
 図2に示すように、映像音声処理装置100で生成される表示映像では、複数の動画像(例えば、動画202A~202C)を含む画像が、画面201の右から左方向に自動的にスクロールする。これにより、複数の動画像が、順次、画面201に表示される。
 なお、図示していないが、画面201において、動画像の表示領域外に、他の情報が表示されてもよい。他の情報は、例えば、静止画、テキスト情報、メニュー、アイコン、またはリンク情報(例えば、URL(Uniform Resource Locator))、等、であってもよい。
 なお、図2には、画面201に3つの動画202A~202Cが表示される例を示したが、画面201に表示される動画像の数は、2つ以下であってもよく、4つ以上であってもよい。また、画面201に表示される各動画像のサイズは、互いに同じであってもよく、互いに異なっていてもよい。また、図2に示す画面201における動画202A~202Cの配置位置は、単なる一例に過ぎず、各動画像は適切に配置されればよい。
 なお、図2には、映像音声処理装置100で生成される表示映像において、複数の動画像(例えば、動画202A~202C)を含む画像が、画面201の右から左方向にスクロールする例を示しているが、本開示は、スクロールの方向を何ら限定しない。画像は、画面201の左から右方向にスクロールしてもよいし、あるいは画面201の上から下方向または下から上方向にスクロールしてもよい。また、画像は斜め方向にスクロールしてもよい。また、図2には、画像が直線的にスクロールする動作例を示しているが、例えば波状等、所定の軌跡を描きながらスクロールしてもよい。
 また、映像音声処理装置100で生成される表示映像においては、画面全体がスクロールしてもよいし、複数の動画像を含む、画面内の一部の領域のみがスクロールしてもよい。
 なお、映像音声処理装置100は、例えば、ユーザ操作が一定時間行われなかった場合に、表示映像において、図2に示すような、動画像が自動的にスクロールする動作(以下、「自動スクロール動作」とも記す)を開始してもよい。また、映像音声処理装置100は、自動スクロール動作を行っている最中にユーザ操作が行われたときに、自動スクロール動作を解除してもよい。あるいは、映像音声処理装置100は、所定のユーザ操作を受け付けたときに、自動スクロール動作の開始、または解除、を行ってもよい。
 次に、映像音声処理装置100で行う音声調整処理を説明する。
 [1-3.音声調整処理]
 図3は、実施の形態1における映像音声処理装置100で行う音声調整処理の概要を模式的に示す図である。図3の(a)は、画面201に、動画202Aと、動画202Bの一部と、が表示されている様子を模式的に示す図である。なお、図3の(a)には、画面201の表示領域を模式的に示しており、横軸は画面201の横方向(長手方向)を表し、縦軸は画面201の縦方向(短手方向)を表す。また、図3の(a)に示す例では、動画202Bの約1/3は画面201に表示され、約2/3は画面201外にあるが、動画202Bはスクロールにより左方向に徐々に移動して画面201に表示される面積が徐々に大きくなることを示している。図3の(b)は、出音領域に含まれる動画像の音量を模式的に示す図である。図3の(b)の縦軸は音量の大きさを表す。
 映像音声処理装置100は、図3に示すように、画面201内に出音領域203を設ける。出音領域203とは、図3(a)に示す位置X1から位置X2までの領域のことであり、映像音声処理装置100が、動画像の音声を出力する領域のことである。図3に示す例では、映像音声処理装置100において、出音領域203を画面201の中心付近に設定しているが、本開示は、出音領域203を何ら図3に示す範囲に限定しない。例えば、出音領域203は、画面201の全体を覆うように設定されてもよい。
 図3に示す例では、画面201に、動画202Aと、動画202Bの一部と、が表示され、動画202Aは出音領域203に含まれており、動画202Bは出音領域203に含まれていない。この例では、映像音声処理装置100は、出音領域203に含まれる動画202Aを、音声を出力する対象の動画像(以下、「対象動画」とも記す)として選択する。そして、対象動画の音声の音量(以下、「音量V2」と記す)を、対象動画以外の動画像の音声の音量(以下、「音量V1」と記す)よりも大きい音量に設定する。なお、音量V1は、0(ゼロ)であってもよい。すなわち、映像音声処理装置100は、対象動画の音声のみを出力し、対象動画以外の音声は出力しないように動作してもよい。
 図3に示すように、動画像が出音領域203に含まれて対象動画になると、映像音声処理装置100は、その動画像の音量を音量V1から徐々に大きくし、音量V2にする。また、対象動画が出音領域203から出音領域203外に移動して対象動画でなくなると、映像音声処理装置100は、その動画像の音量を音量V2から徐々に小さくし、音量V1に戻す。なお、対象動画の音量が音量V1から音量V2に達するまでの時間、および音量V2から音量V1に達するまでの時間は、ユーザが違和感を感じないようにそれぞれ適切に設定されることが望ましい。
 なお、図3に示す音量のグラフは、音量調整部106が元の音声信号に乗算する利得(ゲイン)を示す。
 なお、以下では、判定に用いる動画像の位置を、動画像の左端とする動作例を示す。すなわち、映像音声処理装置100の選択部105は、動画像の左端が出音領域203に含まれると、その動画像は出音領域203に含まれたと判定し、動画像の左端が出音領域203から出音領域203外に移動すると、その動画像は出音領域203に含まれなくなったと判定する。しかし、判定に用いる動画像の位置は、何ら動画像の左端に限定されるものではない。例えば、動画像の中心が判定に用いられてもよく、または動画像の右端が判定に用いられてもよい。あるいは、それら以外の位置が判定に用いられてもよい。
 以下、2つの動画202A、動画202Bが出音領域203に含まれるときの動作例を説明する。なお、以下では、音量V1が0(ゼロ)に設定された動作例を説明する。また、3つ以上の動画像が出音領域203に含まれるときでも、以下の説明と同様の処理を適用することができる。なお、音量V1は何ら0に限定されるものではなく、他の数値でもよい。
 2つの動画像が出音領域203に同時に含まれる場合、映像音声処理装置100は、先に出音領域203に含まれた方の動画像の音声を出力する。また、映像音声処理装置100は、音声を出力している動画像が出音領域203から出音領域203外に移動して出音領域203に含まれなくなると、音声の出力対象の動画像を、後から出音領域203に含まれた方の動画像に切り替える。
 すなわち、選択部105は、出音領域203に複数の動画像が含まれていれば、それら複数の動画像のうち、最も早く出音領域203に含まれた動画像の音声信号を選択する。また、選択部105は、それまで選択していた音声信号に対応する動画像が出音領域203から出音領域203外に移動して選択の対象外となったときは、その時点で出音領域203に含まれている複数の動画像のうち、最も早く出音領域203に含まれた動画像の音声信号を選択する。
 図4は、実施の形態1において2つの動画像(動画202A、動画202B)が出音領域203に含まれるときの映像音声処理装置100の動作の一例を模式的に示す図である。なお、図4には、画面201の表示映像を模式的に示しており、(a)、(b)、(c)の順に時間が経過するものとする。また、図4には動画像のスクロール方向を白抜きの矢印で示す。また、図4には、まず動画202Aが出音領域203に含まれ、動画202A(動画202Aの左端)が出音領域203から出音領域203外に移動する前に動画202B(動画202Bの左端)が出音領域203に含まれ、その後、動画202A(動画202Aの左端)が出音領域203から出音領域203外に移動して出音領域203に含まれなくなるときの動作例を示す。なお、図4のスクロール方向を示す白抜きの矢印は、便宜的に示したものであり、画面201に表示されるわけではない。
 図5は、実施の形態1において2つの動画像(動画202A、動画202B)が出音領域203に含まれるときの各動画像の音量の時間変化の一例を模式的に示す図である。
 まず、図4の(a)に、図5の時刻T1から時刻T2までの状態を示す。なお、図4、図5では、時刻T1に動画202A(動画202Aの左端)が出音領域203に含まれ、時刻T2に動画202B(動画202Bの左端)が出音領域203に含まれ、時刻T3に動画202A(動画202Aの左端)が出音領域203から出音領域203外に移動して出音領域203に含まれなくなるものとする。したがって、時刻T1から時刻T2までの期間では、動画202Aは出音領域203に含まれ、動画202Bは出音領域203外にあり出音領域203に含まれない。この場合、映像音声処理装置100は動画202Aの音声を出力する。
 次に、図4の(b)に、図5の時刻T2から時刻T3までの状態を示す。時刻T2から時刻T3までの期間は、動画202Aは出音領域203に含まれるので、映像音声処理装置100は、引き続き動画202Aの音声を出力し、動画202Bの音声は出力しない。
 次に、図4の(c)に、図5の時刻T3以降の状態を示す。時刻T3に動画202Aは出音領域203から出音領域203外に移動して出音領域203に含まれなくなるので、映像音声処理装置100は、時刻T3で、音声の出力対象の動画像を、動画202Aから動画202Bに切り替える。このとき、映像音声処理装置100の音量調整部106は、動画202Aの音声を徐々に下げてフェードアウトさせ、動画202Bの音声を徐々に上げてフェードインさせる。
 すなわち、音量調整部106は、選択部105が選択する音声を他の音声に切り替えるときに、選択を外れた音声の音量を徐々に小さくするとともに、新たに選択された音声の音量を徐々に大きくする。
 次に、映像音声生成処理を説明する。
 [1-4.映像音声生成処理の流れ]
 図6は、実施の形態1における映像音声処理装置100で実行する映像音声生成処理の一例を示すフローチャートである。
 まず、映像再生部114は、複数の動画コンテンツの映像データの再生を開始し、音声再生部115は、複数の動画コンテンツの音声データの再生を開始する(ステップS101)。
 次に、表示合成部117は、ステップS101で再生された複数の動画像を含む表示映像を生成する(ステップS102)。ステップS102で生成される表示映像には、例えばOSD映像が含まれていてもよい。
 次に、選択部105および音量調整部106は、初期音量設定処理を行う(ステップS103)。なお、ステップS103が実行された時点では、表示映像において画像のスクロールは開始されていない。
 ここで、ステップS103の初期音量設定処理を、図7を用いて説明する。
 図7は、実施の形態1における初期音量設定処理の一例を示すフローチャートである。
 まず、選択部105は、出音領域203内に動画像が存在するか否かを判定する(ステップS121)。
 ステップS121において、出音領域203内に動画像は存在しないと判定された場合(ステップS121のNo)、選択部105は、いずれの動画像の音声も選択せず、音量調整部106は、いずれの動画像の音声も出力しない。
 なお、この動作は、音量V1が0に設定されたときの動作である。音量V1が0でなければ、音量調整部106は、出音領域203外の動画像の音声(すなわち、選択部105で選択されなかった音声)の音量を、あらかじめ設定された音量V1に調整する。
 ステップS121において、出音領域203内に動画像は存在すると判定された場合(ステップS121のYes)、選択部105は、出音領域203に含まれる動画像の音声を選択する(ステップS122)。出音領域203内に複数の動画像が含まれていれば、選択部105は、それら複数の動画像のうち、表示映像のスクロールの方向にもとづき、最も早く出音領域203に含まれたと判断される動画像の音声を選択する。図4に示す例では、選択部105は、最も左側に位置する動画像の音声を選択する。
 次に、音量調整部106は、選択部105で選択された音声の音量を音量V2に設定し、選択部105で選択されなかった音声の音量を音量V2より小さい音量V1(例えば、0)に設定する(ステップS123)。
 そして、音量調整部106は、音量調整後の複数の音声信号を合成して出力音声信号を生成し、音声出力部107に出力する。
 以上の処理が、初期音量設定処理である。
 図6に戻り、ステップS103以降の処理を説明する。
 ステップS103の後、表示合成部117は、表示映像をあらかじめ定められた方向(例えば、画面201の右から左方向)にスクロールして、表示映像の表示位置を更新する(ステップS104)。
 次に、選択部105は、ステップS104で実行された処理(すなわち、表示映像における動画像の表示位置の更新)により、現在出音中の動画像が、出音領域203に含まれなくなったか否かを判定する(ステップS105)。ステップS105の判定は、例えば、動画像の左端が出音領域203に含まれているか否かに基づき、行われる。この判定基準は、後述のステップS109で行われる判定においても同様である。なお、この判定基準は一例であり、他の判定基準が設定されてもよい。
 ステップS105において、現在出音中の動画像は出音領域203から出音領域203外に移動して出音領域203に含まれなくなった、と判定された場合(ステップS105のYes)、選択部105は、その動画像の音声の選択を解除し、音量調整部106は、現在出音中の動画像の音量を徐々に小さくする(ステップS106)。
 次に、選択部105は、出音領域203に、現在出音中の動画像以外の動画像(以下、「他の動画像」とも記す)が含まれているか否かを判定する(ステップS107)。
 ステップS107において、出音領域203に他の動画像が含まれていると判定された場合(ステップS107のYes)、選択部105は、出音領域203に含まれる他の動画像の音声を選択する。そして、音量調整部106は、選択部105で選択された音声の音量を徐々に大きくする(ステップS108)。
 ステップS108において、他の動画像が複数であれば、選択部105は、それら複数の他の動画像のうち、表示映像のスクロールの方向にもとづき、最も早く出音領域203に含まれたと判断される動画像の音声を選択する。例えば、選択部105は、それら複数の他の動画像のうち、最も左側に位置する動画像の音声を選択する。
 ステップS105において、現在出音中の動画像は出音領域203に含まれる、と判定された場合(ステップS105のNo)、または、ステップS107において、出音領域203に他の動画像は含まれていないと判定された場合(ステップS107のNo)、または、ステップS108の後、選択部105は、出音領域203に新たな動画像が含まれたか否かを判定する(ステップS109)。
 ステップS109において、出音領域203に新たな動画像が含まれたと判定された場合(ステップS109のYes)、選択部105は、出音領域203に、他の動画像が含まれているか否かを判定する(ステップS110)。すなわち、選択部105は、現在出音中の動画像が出音領域203に存在するか否かを判定する。
 ステップS110において、出音領域203に現在出音中の動画像は含まれていないと判定された場合(ステップS110のNo)、選択部105は、出音領域203に新たに含まれた動画像の音声を選択する。そして、音量調整部106は、選択部105で選択された音声の音量を徐々に大きくする(ステップS111)。
 ステップS110において、出音領域203に、現在出音中の動画像が含まれていると判定された場合(ステップS110のYes)、選択部105は、出音領域203に含まれている現在出音中の動画像の音声選択を継続する。すなわち、選択部105は、出音領域203に新たに含まれた動画像の音声を選択しない。
 次に、制御部103は、自動スクロール動作が継続されているか否かを判定する(ステップS112)。
 ステップS112において、自動スクロール動画は継続されていると判定された場合(ステップS112のYes)、処理はステップS104に戻り、ステップS104以降の処理が実行される。
 ステップS112において、自動スクロール動画は終了したと判定された場合(ステップS112のNo)、映像音声処理装置100は処理を終了する。映像音声処理装置100は、例えば、ユーザによる操作を受け付けた場合、等に処理を終了する。
 なお、実施の形態1では、ステップS108、ステップS111において音声をフェードイン(音声の音量を徐々に大きく)し、ステップS106において音声をフェードアウト(音声の音量を徐々に小さく)する動作例を説明したが、本開示は何らこの動作例に限定されない。ステップS108、ステップS111のフェードインおよびステップS106のフェードアウトの少なくとも一方は行われなくてもよい。この場合、例えば、ステップS105~ステップS111の処理の代わりに、ステップS103の初期音声設定処理と同様の処理が行われればよい。
 また、実施の形態1では、出音領域203に動画像の左端が含まれたときに、出音領域203に動画像が含まれた、と判定される動作例を説明したが、本開示は何らこの動作例に限定されない。動画像の中央または右端に基づきこの判定が行われてもよい。あるいは、その他の判定基準(例えば、動画像の面積、等)に基づきこの判定が行われてもよい。
 [1-5.効果]
 以上のように、本実施の形態における映像音声処理装置は、映像生成部と、選択部と、音量調整部と、を備える。映像生成部は、複数の動画像が表示される領域が、表示画面内を、予め定められた方向に自動的に移動する表示映像の映像信号、を生成する。選択部は、複数の動画像の表示画面内における位置に応じて、それら複数の動画像の中から1つの動画像の音声信号を選択する。音量調整部は、選択部で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の動画像のそれぞれの音声信号の音量を調整する。
 なお、映像音声処理装置100および後述の映像音声処理装置100Aは、それぞれが映像音声処理装置の一例である。映像生成部101は映像生成部の一例である。選択部105は選択部の一例である。音量調整部106は音量調整部の一例である。動画202A、動画202B、動画202Cは、複数の動画像の一例である。画面201は表示画面の一例である。
 これにより、本実施の形態における映像音声処理装置は、複数の動画像が自動的にスクロールする表示映像において、一つの動画像の音声信号を選択し、その音声信号による音声がユーザに聞き取りやすいように複数の音声の音量を調整できる。すなわち、本実施の形態における映像音声処理装置は、複数の動画像が1つの表示画面内に表示されるときに、ユーザが聞き取りやすい音声を生成することができる。
 また、その映像音声処理装置において、選択部は、複数の動画像のうち、表示画面内の予め定められた出音領域に含まれる動画像の音声信号を選択してもよい。
 なお、出音領域203は出音領域の一例である。
 これにより、その映像音声処理装置は、ユーザに認識されやすい領域に存在する動画像の音声信号を選択して出音できる。すなわち、その映像音声処理装置は、複数の動画像の音声から1つの音声を適切に選択して出音することができる。
 また、その映像音声処理装置において、選択部は、出音領域に含まれる複数の動画像のうち、最も早く出音領域203に含まれた動画像の音声信号を選択してもよい。
 これにより、その映像音声処理装置は、ユーザが注目している動画像の音声が途中で他の動画像の音声に切り替わることを防止できる。
 また、その映像音声処理装置において、音量調整部は、選択部が選択する音声信号を他の音声信号に切り替えるときに、選択を外れた音声信号の音量を徐々に小さくするとともに、新たに選択された音声信号の音量を徐々に大きくしてもよい。
 これにより、その映像音声処理装置は、選択部が選択する音声信号を他の音声信号に切り替えるときに、ユーザがより聞きやすい音声の切り替えを実現することができる。
 (他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態1を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態1で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
 そこで、以下、他の実施の形態を例示する。
 [変形例1]
 映像音声処理装置100の音量調整部106は、表示映像における動画像のスクロールの速度に応じて、音声のフェードアウトに要する時間(音声を音量V2から徐々に小さくして音量V1にするまでの時間)またはフェードインに要する時間(音声を音量V1から徐々に大きくして音量V2にするまでの時間)を変更してもよい。すなわち、音量調整部106は、音声をフェードアウトまたはフェードインするときの単位時間当たりの音量の変化量を、表示映像における動画像のスクロールの速度に応じて変更してもよい。変形例1では、そのような動作をするように構成された映像音声処理装置100を説明する。
 図8は、他の実施の形態の変形例1における出音領域203に含まれる動画像の音量の時間変化の一例を模式的に示す図である。図8の(a)には動画像のスクロールの速度が相対的に遅い場合の音量の時間変化を示し、図8の(b)には動画像のスクロールの速度が相対的に速い場合の音量の時間変化を示す。
 図8に一例を示すように、音量調整部106は、動画像のスクロールの速度が相対的に遅い場合に音声のフェードアウトまたはフェードインに要する時間t0を、動画像のスクロールの速度が相対的に速い場合に音声のフェードアウトまたはフェードインに要する時間t1よりも長くしてもよい。
 このように、音量調整部は、選択部が選択する音声信号を他の音声信号に切り替えるときに、音声信号の音量を変化させるのに要する時間を、複数の動画像が表示画面内を移動する速さに応じて変更してもよい。
 すなわち、音量調整部は、表示映像における動画像のスクロールの速度が速いほど、選択部で選択する音声を切り替えるときの、選択を外れた音声の音量を徐々に小さくする時間、および、新たに選択された音声の音量を徐々に大きくする時間、を短くしてもよい。
 このように構成された音量調整部を備えた映像音声処理装置では、音声のフェードアウトまたはフェードインを、スクロールの速度に応じて適切に行うことができる。
 また、音量調整部106は、選択部105においてどの動画像の音声も選択されていない状態から新たな音声が選択される場合と、選択部105において選択される音声が切り替えられる場合とで、音声のフェードインまたはフェードアウトに要する時間を変更してもよい。例えば、音量調整部106は、選択部105において選択される音声が切り替えられる場合の音声のフェードインまたはフェードアウトに要する時間を、選択部105においてどの音声も選択されていない状態から新たな音声が選択される場合の音声のフェードインまたはフェードアウトに要する時間よりも短くしてもよい。このように構成された音量調整部106は、選択部105において選択される音声が切り替えられる場合に、音声を連続的に切り替えることができる。
 [変形例2]
 実施の形態1では、選択部105および音量調整部106は、複数の動画像が出音領域203に含まれる場合、それら複数の動画像のうち、先に出音領域203に含まれた動画像の音声を選択し、その音声を出力する動作例を説明した。しかし、本開示は何らこの構成に限定されない。例えば、選択部105および音量調整部106は、複数の動画像が出音領域203に含まれる場合、後から出音領域203に含まれた動画像の音声を選択し、その音声を出力するように構成されてもよい。
 すなわち、選択部105は、出音領域203に複数の動画像が含まれていれば、それら複数の動画像のうち、最も遅く出音領域203に含まれた動画像の音声信号を選択してもよい。言い換えると、選択部105は、新たな動画像が出音領域203に含まれたときは、その動画像の音声信号を選択するように動作してもよい。
 変形例2では、そのような動作をするように構成された映像音声処理装置100を説明する。
 以下、2つの動画202A、動画202Bが出音領域203に含まれるときの動作例を説明する。なお、以下では、音量V1が0に設定された動作例を説明する。また、3つ以上の動画像が出音領域203に含まれるときでも、以下の説明と同様の処理を適用することができる。なお、音量V1は何ら0に限定されるものではない。
 図9は、他の実施の形態の変形例2において2つの動画像(動画202A、動画202B)が出音領域203に含まれるときの映像音声処理装置100の動作の一例を模式的に示す図である。なお、図9には、画面201の表示映像を模式的に示しており、(a)、(b)、(c)の順に時間が経過するものとする。また、図9には動画像のスクロール方向を白抜きの矢印で示す。また、図9には、まず動画202Aが出音領域203に含まれ、動画202A(動画202Aの左端)が出音領域203から出音領域203外に移動する前に動画202B(動画202Bの左端)が出音領域203に含まれ、その後、動画202A(動画202Aの左端)が出音領域203から出音領域203外に移動して出音領域203に含まれなくなるときの動作例を示す。なお、図9のスクロール方向を示す白抜きの矢印は、便宜的に示したものであり、画面201に表示されるわけではない。
 図10は、他の実施の形態の変形例2において2つの動画像(動画202A、動画202B)が出音領域203に含まれるときの各動画像の音量の時間変化の一例を模式的に示す図である。
 まず、図9の(a)に、図10の時刻T1から時刻T2までの状態を示す。なお、図9、図10では、時刻T1に動画202A(動画202Aの左端)が出音領域203に含まれ、時刻T2に動画202B(動画202Bの左端)が出音領域203に含まれ、時刻T3に動画202A(動画202Aの左端)が出音領域203から出音領域203外に移動して出音領域203に含まれなくなるものとする。したがって、時刻T1から時刻T2までの期間では、動画202Aは出音領域203に含まれ、動画202Bは出音領域203外にあり出音領域203に含まれない。この場合、映像音声処理装置100は動画202Aの音声を出力する。
 次に、図9の(b)に、図10の時刻T2から時刻T3までの状態を示す。時刻T2から時刻T3までの期間は、動画202Aは出音領域203に含まれるが、時刻T2で動画202B(動画202Bの左端)が出音領域203外から出音領域203内に移動し出音領域203に含まれるので、映像音声処理装置100は、音声の出力対象の動画像を、動画202Aから動画202Bに切り替える。このとき、映像音声処理装置100の音量調整部106は、動画202Aの音声を徐々に下げてフェードアウトさせ、動画202Bの音声を徐々に上げてフェードインさせる。
 次に、図9の(c)に、図10の時刻T3以降の状態を示す。時刻T3以降、時刻T4までの期間は、動画202Bは出音領域203に含まれるので、映像音声処理装置100は、動画202Bの音声を引き続き出力する。
 図11は、他の実施の形態の変形例2における映像音声処理装置100で実行する映像音声生成処理の一例を示すフローチャートである。なお、図11に示すフローチャートにおいて、ステップS101~ステップS105およびステップS112の各処理は、図6のフローチャートの同ステップに示す処理と実質的に同じなので説明を省略する。
 なお、図6のフローチャートのステップS105では、現在出音中の動画像が出音領域203から出音領域203外に移動して出音領域203に含まれなくなったか否かが判定される処理を説明した。しかし、図11のフローチャートのステップS105では、出音中の動画像か否かにかかわらず、単に動画像が出音領域203から出音領域203外に移動して出音領域203に含まれなくなったか否かが判定される。この判定は、実施の形態1と同様に、例えば、動画像の左端が出音領域203に含まれているか否かに基づき行われる。これは、以下の他の変形例においても同様である。しかし、本開示は何らこの動作例に限定されない。例えば、動画像の中央または右端に基づきこの判定が行われてもよい。あるいは、その他の判定基準(例えば、動画像の面積、等)に基づきこの判定が行われてもよい。
 ステップS105において、動画像が出音領域203から出音領域203外に移動して出音領域203に含まれなくなった、と判定された場合(ステップS105のYes)、選択部105は、出音領域203に他の動画像が含まれているか否かを判定する(ステップS106A)。
 ステップS106Aにおいて、出音領域203に他の動画像は含まれていないと判定された場合(ステップS106AのNo)、ステップS105で出音領域203から出音領域203外に移動して出音領域203に含まれなくなったと判定された動画像は、現在出音中の動画像である。したがって、選択部105は、出音領域203から出音領域203外に移動して出音領域203に含まれなくなった動画像の音声選択を解除する。そして、音量調整部106は、選択部105で選択を解除された音声の音量を徐々に小さくする(ステップS107A)。
 なお、ステップS106Aにおいて、出音領域203に他の動画像が含まれていると判定された場合(ステップS106AのYes)、図11に示すフローチャートでは、ステップS105で出音領域203から出音領域203外に移動して出音領域203に含まれなくなったと判定された動画像は、現在出音中の動画像ではない。したがって、選択部105および音量調整部106は、選択中の音声を変更せず(音声の選択切り替えを行わず)、現在の状態を継続する。
 ステップS105において、動画像は出音領域203から出音領域203外に移動していないと判定された場合(ステップS105のNo)、または、ステップS106Aにおいて、出音領域203に他の動画像が含まれていると判定された場合(ステップS106AのYes)、または、ステップS107Aの後、選択部105は、出音領域203に新たな動画像が含まれたか否かを判定する(ステップS108A)。
 ステップS108Aにおいて、出音領域203に新たな動画像が含まれたと判定された場合(ステップS108AのYes)、選択部105は、出音領域203に新たに含まれた動画像の音声を選択する。そして、音量調整部106は、選択部105で新たに選択された音声の音量を徐々に大きくする(ステップS109A)。
 次に、選択部105は、新たに出音領域203に含まれた動画像以外の動画像(他の動画像)が出音領域203に含まれているか否かを判定する(ステップS110A)。
 ステップS110Aにおいて、出音領域203に他の動画像が含まれていると判定された場合(ステップS110AのYes)は、新たに出音領域203に含まれた動画像以外に、現在出音中の動画像が出音領域203に存在することになる。したがって、選択部105は、出音領域203に新たに含まれた動画像以外の、現在出音中の動画像の音声選択を解除する。そして、音量調整部106は、選択部105で選択を解除された音声の音量を徐々に小さくする(ステップS111A)。
 このように、選択部は、出音領域に含まれる複数の動画像のうち、最も遅く出音領域に含まれた動画像の音声信号を選択してもよい。
 このように構成された映像音声処理装置では、常に、新たに出音領域に含まれる動画像の音声を出音することができる。
 [変形例3]
 変形例3では、スクロールする複数の動画像間の距離が相対的に短い場合の、映像音声処理装置100の動作を説明する。
 選択部105は、選択部105が選択中の音声信号に対応する動画像が出音領域203から出音領域203外に移動して出音領域203に含まれなくなるときに、出音領域203に設定された遷移対象領域204(図12参照)に含まれない動画像の音声信号は、次の選択の対象外としてもよい。
 以下、2つの動画202A、動画202Bが出音領域203に含まれるときの動作例を説明する。3つ以上の動画像が出音領域203に含まれるときでも、以下の説明と同様の処理を適用することができる。
 図12は、他の実施の形態の変形例3における音声調整処理の概要を模式的に示す図である。
 図12に一例を示すように、動画202Aから動画202Bまでの距離が相対的に短い場合、選択部105で選択される音声が、動画202Aの音声から動画202Bの音声に切り替わった後、直ちに動画202Bは出音領域203から出音領域203外に移動してしまう。そのため、動画202Bの音声が出力される期間は相対的に短期間になる。
 このような状態の発生を防止するために、図12に一例を示すように、遷移対象領域204を、動画像のスクロール方向にもとづき、出音領域203内に設けてもよい。本変形例では、出音領域203内の、スクロールする動画像の出口側の領域を除く領域を遷移対象領域204に設定する。図12に示す例では、出音領域203の右側の領域を遷移対象領域204とする。
 遷移対象領域204とは、以下のように設定された領域である。すなわち、選択部105は、動画202Aが出音領域203から出音領域203外に移動して出音領域203に含まれなくなるときに、動画202Bが遷移対象領域204に含まれていれば、動画202Bの音声を選択する。しかし、動画202Bが遷移対象領域204に含まれていなければ、動画202Bの音声を選択しない。
 図13は、他の実施の形態の変形例3における映像音声処理装置100で実行する映像音声生成処理の一例を示すフローチャートである。なお、図13のフローチャートに示す各処理は、図6のフローチャートに示す各処理と比較して、ステップS107がステップS107Bに置き換えられている点が異なる。しかし、この点を除き、両者は実質的に同じであるので、詳細な説明は省略し、ステップS107Bの処理のみを説明する。
 選択部105は、遷移対象領域204に、現在出音中の動画像以外の動画像が含まれているか否かを判定する(ステップS107B)。
 ステップS107Bにおいて、遷移対象領域204に、現在出音中の動画像以外の動画像が含まれていると判定された場合(ステップS107BのYes)は、図6のフローチャートに示すステップS108と同様のステップS108が実行される。
 ステップS107Bにおいて、遷移対象領域204に、現在出音中の動画像以外の動画像は含まれていないと判定された場合(ステップS107BのNo)は、図6のフローチャートに示すステップS109と同様のステップS109が実行される。
 このように、選択部105は、例えば、出音領域203に2つの動画像が含まれ、そのうちの一方の動画像(先に出音領域203に含まれた動画像)が出音領域203から出音領域203外に移動したときに、他方の動画像(後に出音領域203に含まれた動画像)が遷移対象領域204に含まれていれば、他方の動画像の音声を選択し、他方の動画像が遷移対象領域204に含まれていなければ、他方の動画像の音声を選択しない、という動作をしてもよい。この動作は、出音領域203に2つの動画像が含まれ、そのうちの一方の動画像が出音領域203から出音領域203外に移動したときに、他方の動画像が予め定められた時間以内に出音領域203から出音領域203外に移動する場合には、他方の動画像を選択しない、と言い換えることができる。
 このように、選択部は、選択部が選択中の音声信号に対応する動画像が出音領域から出音領域203外に移動して出音領域203に含まれなくなったときに、出音領域に設定された遷移対象領域に含まれない動画像は次の選択の対象外としてもよい。
 なお、遷移対象領域204は遷移対象領域の一例である。
 このように構成された映像音声処理装置では、スクロールする複数の動画像間の距離が相対的に短い場合に、後から出音領域に含まれた動画像の音声が短期間だけ出力される、という現象が生じることを防止することができる。
 [変形例4]
 実施の形態1では、音量の表示について特に触れなかったが、映像生成部は、選択部によって選択された音声信号の音量を示すアイコンを生成してもよい。
 例えば、表示画面内をスクロールする動画像のそれぞれに、各動画像の音量を示すアイコンを重畳して表示してもよい。
 変形例4では、表示画面内をスクロールする動画像のそれぞれに、各動画像の音量を示すアイコンを重畳して表示するように構成された映像音声処理装置100Aを説明する。
 図14は、他の実施の形態の変形例4における映像音声処理装置100Aの一構成例を示すブロック図である。
 映像音声処理装置100Aは、映像生成部101Aと、操作受付部102と、制御部103と、映像出力部104と、選択部105と、音量調整部106と、音声出力部107と、を備える。
 映像生成部101Aは、選局部111と、放送信号分離部112と、コンテンツデータ分離部113と、映像再生部114と、音声再生部115と、OSD生成部116と、表示合成部117Aと、を備える。
 なお、図14に示す映像音声処理装置100Aは、図1に示す映像音声処理装置100と比較して、映像生成部101Aの表示合成部117Aの機能が、映像生成部101の表示合成部117の機能と異なる。しかし、この点を除き、両者は実質的に同じであるので、詳細な説明は省略し、表示合成部117Aのみを説明する。
 図14に示す映像音声処理装置100Aの表示合成部117Aは、図1に示す映像音声処理装置100の表示合成部117が有する機能に加え、さらに、表示画面内をスクロールする動画像の音量を示すアイコンを生成して各動画像に重畳して表示する機能を有する。
 表示合成部117Aが生成する、動画像の音量を示すアイコンの一例を、図15に示す。
 図15は、他の実施の形態の変形例4における表示映像の一例を模式的に示す図である。
 図15に示す例では、表示合成部117Aは、動画202Aの音量を示すアイコンとしてアイコン205Aを生成し、動画202Bの音量を示すアイコンとしてアイコン205Bを生成する。そして、表示合成部117Aは、動画202Aにはアイコン205Aを重畳し、動画202Bにはアイコン205Bを重畳し、それらを互いに合成して表示映像信号を生成する。
 したがって、画面201には、アイコン205Aが重畳された動画202A、およびアイコン205Bが重畳された動画202B、がそれぞれ表示され、それらの動画像が画面201内を右から左にスクロールする。
 図15に示す例では、表示合成部117Aは、音量の大きさに応じた大きさでアイコンを生成する。すなわち、表示合成部117Aは、音量が相対的に大きい動画像には、相対的に大きいアイコンを生成してその動画像に重畳し、音量が相対的に小さい動画像には、相対的に小さいアイコンを生成してその動画像に重畳する。したがって、ユーザは、例えば図15に示す例では、画面201に表示されたアイコン205Aとアイコン205Bとを見比べることで、現在出力されている音声は動画202Aの音声であることを、容易に理解できる。
 なお、本開示は、何ら図15に示す動作例に限定されない。例えば、表示合成部117Aは、選択部105で選択された音声に関してのみ音量を示すアイコンを生成し、選択部105で選択されていない音声に関しては音量を示すアイコンを生成しなくてもよい。図15に示す例では、表示合成部117Aは、動画202Aのアイコン205Aのみを画面201に表示し、動画202Bのアイコン205Bは画面201に表示しなくてもよい。その場合、ユーザは、画面201に表示されたアイコン205Aを見ることで、現在出力されている音声は動画202Aの音声であることを、容易に理解できる。
 また、表示合成部117Aは、音量の大きさを、アイコンの大きさでなく、アイコンの色で表してもよい。
 また、表示合成部117Aは、音声のフェードイン時、または音声のフェードアウト時に、その効果に連動してアイコンのデザインを変更してもよい。
 また、表示合成部117Aは、音量の大きさを示すアイコンを、動画像がそのアイコンで隠れないように、動画像の上でなく、動画像の周辺に表示してもよい。
 このように、映像生成部は、選択部によって選択された音声信号の音量を示すアイコンを生成してもよい。これにより、ユーザは、表示画面をスクロールする動画像の音量を視覚的に確認することができる。
 以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
 したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
 また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
 例えば、これらの全般的または具体的な態様は、装置、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。
 また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。
 また、上記のフローチャートに示す複数のステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
 本開示は、映像音声処理装置に適用可能である。具体的には、テレビ、レコーダ、パーソナルコンピュータまたはタブレット端末装置などに、本開示は適用可能である。
100,100A  映像音声処理装置
101,101A  映像生成部
102  操作受付部
103  制御部
104  映像出力部
105  選択部
106  音量調整部
107  音声出力部
111  選局部
112  放送信号分離部
113  コンテンツデータ分離部
114  映像再生部
115  音声再生部
116  OSD生成部
117,117A  表示合成部
131  アンテナ
132  記憶装置
201  画面
202A,202B,202C,A,B,C  動画
203  出音領域
204  遷移対象領域
205A,205B  アイコン

Claims (10)

  1. 複数の動画像が表示される領域が、表示画面内を予め定められた方向に自動的に移動する表示映像の映像信号を生成する映像生成部と、
    複数の前記動画像の前記表示画面内における位置に応じて、複数の前記動画像の中から1つの動画像の音声信号を選択する選択部と、
    前記選択部で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の前記動画像のそれぞれの音声信号の音量を調整する音量調整部と、を備える、
    映像音声処理装置。
  2. 前記選択部は、複数の前記動画像のうち、前記表示画面内の予め定められた出音領域に含まれる動画像の音声信号を選択する、
    請求項1に記載の映像音声処理装置。
  3. 前記選択部は、前記出音領域に含まれる前記複数の動画像のうち、最も早く前記出音領域に含まれた動画像の音声信号を選択する、
    請求項2に記載の映像音声処理装置。
  4. 前記選択部は、前記出音領域に含まれる前記複数の動画像のうち、最も遅く前記出音領域に含まれた動画像の音声信号を選択する、
    請求項2に記載の映像音声処理装置。
  5. 前記選択部は、前記選択部が選択中の音声信号に対応する動画像が前記出音領域から前記出音領域外に移動して前記出音領域に含まれなくなるときに、前記出音領域に設定された遷移対象領域に含まれない動画像は次の選択の対象外とする、
    請求項3に記載の映像音声処理装置。
  6. 前記音量調整部は、前記選択部が選択する音声信号を他の音声信号に切り替えるときに、前記選択を外れた音声信号の音量を徐々に小さくするとともに、新たに前記選択がなされた音声信号の音量を徐々に大きくする、
    請求項1に記載の映像音声処理装置。
  7. 前記音量調整部は、前記選択部が選択する音声信号を他の音声信号に切り替えるときに、音声信号の音量を変化させるのに要する時間を、複数の前記動画像が前記表示画面内を移動する速さに応じて変更する、
    請求項6記載の映像音声処理装置。
  8. 前記映像生成部は、前記選択部によって選択された音声信号の音量を示すアイコンを生成する、
    請求項1に記載の映像音声処理装置。
  9. 複数の動画像が表示される領域が、表示画面内を予め定められた方向に自動的に移動する表示映像の映像信号を生成し、
    複数の前記動画像の前記表示画面内における位置に応じて、複数の前記動画像の中から1つの動画像の音声信号を選択し、
    前記選択がなされた音声信号が、他の音声信号より大きい音量で出力されるように、複数の前記動画像のそれぞれの音声信号の音量を調整する、
    映像音声処理方法。
  10. 請求項9記載の映像音声処理方法をコンピュータに実行させるための、
    プログラム。
PCT/JP2015/004718 2014-09-19 2015-09-16 映像音声処理装置、映像音声処理方法およびプログラム WO2016042765A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/303,774 US20170034568A1 (en) 2014-09-19 2015-09-16 Video audio processing device, video audio processing method, and program
JP2016548562A JP6609795B2 (ja) 2014-09-19 2015-09-16 映像音声処理装置、映像音声処理方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-190783 2014-09-19
JP2014190783 2014-09-19

Publications (1)

Publication Number Publication Date
WO2016042765A1 true WO2016042765A1 (ja) 2016-03-24

Family

ID=55532820

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/004718 WO2016042765A1 (ja) 2014-09-19 2015-09-16 映像音声処理装置、映像音声処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20170034568A1 (ja)
JP (1) JP6609795B2 (ja)
WO (1) WO2016042765A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109314833A (zh) * 2016-05-30 2019-02-05 索尼公司 音频处理装置和音频处理方法以及程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009004999A (ja) * 2007-06-20 2009-01-08 Panasonic Corp 映像データ管理装置
JP2009212678A (ja) * 2008-03-03 2009-09-17 Canon Inc 表示制御装置、方法、およびプログラム
JP2010074258A (ja) * 2008-09-16 2010-04-02 Sony Corp 表示装置及び表示方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072480A (en) * 1997-11-05 2000-06-06 Microsoft Corporation Method and apparatus for controlling composition and performance of soundtracks to accompany a slide show
US6262724B1 (en) * 1999-04-15 2001-07-17 Apple Computer, Inc. User interface for presenting media information
JP4127750B2 (ja) * 2000-05-30 2008-07-30 富士フイルム株式会社 音楽再生機能付デジタルカメラ
US20040095379A1 (en) * 2002-11-15 2004-05-20 Chirico Chang Method of creating background music for slideshow-type presentation
US7734154B2 (en) * 2003-02-14 2010-06-08 Lg Electronics Inc. Recording medium having data structure for managing reproduction duration of still pictures recorded thereon and recording and reproducing methods and apparatuses
US20050275805A1 (en) * 2004-06-15 2005-12-15 Yu-Ru Lin Slideshow composition method
US7236226B2 (en) * 2005-01-12 2007-06-26 Ulead Systems, Inc. Method for generating a slide show with audio analysis
US7952535B2 (en) * 2005-02-20 2011-05-31 Mediatek Singapore Pte Ltd Electronic visual jockey file
US20060204214A1 (en) * 2005-03-14 2006-09-14 Microsoft Corporation Picture line audio augmentation
JP4717734B2 (ja) * 2006-06-30 2011-07-06 キヤノン株式会社 データ再生装置及びデータ再生方法
US7844354B2 (en) * 2006-07-27 2010-11-30 International Business Machines Corporation Adjusting the volume of an audio element responsive to a user scrolling through a browser window
US9158776B2 (en) * 2007-08-06 2015-10-13 Apple Inc. Slideshows comprising various forms of media
US8381086B2 (en) * 2007-09-18 2013-02-19 Microsoft Corporation Synchronizing slide show events with audio
WO2009081478A1 (ja) * 2007-12-21 2009-07-02 Fujitsu Limited 電子装置、制御方法及びプログラム
JP5033098B2 (ja) * 2008-10-16 2012-09-26 シャープ株式会社 画像表示装置、画像表示方法および画像表示プログラム
US8626322B2 (en) * 2008-12-30 2014-01-07 Apple Inc. Multimedia display based on audio and visual complexity
US20130317951A1 (en) * 2012-05-25 2013-11-28 Rawllin International Inc. Auto-annotation of video content for scrolling display
US9767845B2 (en) * 2013-02-05 2017-09-19 Alc Holdings, Inc. Activating a video based on location in screen

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009004999A (ja) * 2007-06-20 2009-01-08 Panasonic Corp 映像データ管理装置
JP2009212678A (ja) * 2008-03-03 2009-09-17 Canon Inc 表示制御装置、方法、およびプログラム
JP2010074258A (ja) * 2008-09-16 2010-04-02 Sony Corp 表示装置及び表示方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109314833A (zh) * 2016-05-30 2019-02-05 索尼公司 音频处理装置和音频处理方法以及程序
CN109314833B (zh) * 2016-05-30 2021-08-10 索尼公司 音频处理装置和音频处理方法以及程序

Also Published As

Publication number Publication date
US20170034568A1 (en) 2017-02-02
JP6609795B2 (ja) 2019-11-27
JPWO2016042765A1 (ja) 2017-07-06

Similar Documents

Publication Publication Date Title
JP4170808B2 (ja) 情報表示装置、情報表示方法及びプログラム
JP4735991B2 (ja) 画像処理装置および方法、プログラム並びに記録媒体
US20110029874A1 (en) Systems and methods for adjusting volume of combined audio channels
JP2006135851A (ja) 映像機器一体型映像表示装置
JP2007336593A (ja) 情報表示装置、情報表示方法及びプログラム
JP5215077B2 (ja) コンテンツ再生装置、コンテンツ再生方法、プログラムおよび記録媒体
JPWO2009050903A1 (ja) オーディオミキシング装置
JP2006211488A (ja) 映像再生装置
JP6609795B2 (ja) 映像音声処理装置、映像音声処理方法およびプログラム
JP2009094796A (ja) テレビジョン受信機
JP5071040B2 (ja) 情報処理装置、情報処理方法、プログラム並びに記録媒体
JP6039108B2 (ja) 電子機器、制御方法およびプログラム
JP5886431B2 (ja) マルチメディアコンテンツを再生するための方法、関連システム、および関連する再生モジュール
JP2010074258A (ja) 表示装置及び表示方法
KR20160093404A (ko) 캐릭터 선택적 오디오 줌인을 제공하는 멀티미디어 콘텐츠 서비스 방법 및 장치
JP4529495B2 (ja) 映像音声再生システムおよびアンプ装置
JP2009027430A (ja) 動画再生装置
JP5213630B2 (ja) 映像信号再生装置
JP2004336430A (ja) 再生装置
JP4264028B2 (ja) 要約番組生成装置、及び要約番組生成プログラム
JP6590221B2 (ja) 映像音声出力装置
JP2007180662A (ja) 映像音声再生装置、方法およびプログラム
JP2006262045A (ja) コンテンツ再生装置
JP2005166188A (ja) ディジタルオーディオ信号処理装置及びディジタルオーディオ信号処理方法
JP2010183534A (ja) 記録再生装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15841908

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016548562

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15303774

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15841908

Country of ref document: EP

Kind code of ref document: A1