WO2010027082A1 - カンファレンスサーバとビデオカンファレンスシステムと方法並びプログラム - Google Patents

カンファレンスサーバとビデオカンファレンスシステムと方法並びプログラム Download PDF

Info

Publication number
WO2010027082A1
WO2010027082A1 PCT/JP2009/065648 JP2009065648W WO2010027082A1 WO 2010027082 A1 WO2010027082 A1 WO 2010027082A1 JP 2009065648 W JP2009065648 W JP 2009065648W WO 2010027082 A1 WO2010027082 A1 WO 2010027082A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
moving image
conversion
intra mode
encoding
Prior art date
Application number
PCT/JP2009/065648
Other languages
English (en)
French (fr)
Inventor
水野 大輔
一範 小澤
一輝 渡邊
和広 小山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2010027082A1 publication Critical patent/WO2010027082A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Definitions

  • the present invention is based on the priority claim of Japanese patent application: Japanese Patent Application No. 2008-229963 (filed on Sep. 8, 2008), the entire contents of which are incorporated herein by reference. Shall.
  • the present invention relates to a video conference system, and more particularly to a video conference system and method, a server, and a program in which a processing load of moving image conversion is reduced and image quality deterioration due to moving image conversion is suppressed.
  • Video conferences video conferences
  • video and audio data from multiple clients are once sent to a conference server (Conference Server) which is a multi-point video conferencing server.
  • the conference server distributes image and audio data to each client.
  • ITU-T recommendation H.264 as a video compression encoding method for transmitting video signals at video conferences. 261 and H.H. H.263 and MPEG-4 (Moving Picture Experts Group), which is internationally standardized by ISO / IEC (International Organization for Standardization / International Electrotechnical Commission).
  • ISO / IEC International Organization for Standardization / International Electrotechnical Commission
  • ITU-T International Telecommunication Union Telecommunication Standardization Sector
  • ISO / IEC International standardized H.264. H.264 / MPEG-4 AVC (Advanced Video Coding) is attracting attention as it can transmit moving picture signals more efficiently than the moving picture compression coding method.
  • a profile that defines a subset of the encoding tool is defined by each standard, and when generating a moving image compression encoded bit stream (referred to as “moving image data”).
  • the use or non-use of the encoding tool can be freely selected within the profile range (MPEG-4 AVC defines the baseline profile, main profile, extended profile, etc.).
  • the syntax of moving image data differs even with the same moving image compression encoding method.
  • ITU-T recommendation H When parameters related to video conference are connected, for example, ITU-T recommendation H.
  • the capability information is exchanged as defined in SIP (Session Initiation Protocol) of H.245 and IETF (The Internet Engineering Task Force).
  • SIP Session Initiation Protocol
  • IETF The Internet Engineering Task Force.
  • the video data that can be played back by the terminal based on the video compression encoding method and the video data capability information (for example, DCI (Decoder Configuration Information)) notified to the terminal by exchanging capability information is used by the encoding tool.
  • the moving image distributed from the conference server is encoded (encoded) using the encoding parameters that are uniquely determined until use and are determined by the exchange of the capability information.
  • the client participating in the video conference is not a single type and there is no commonly available encoding parameter, it is necessary to convert the moving image using the encoding parameter suitable for each client.
  • the second encoded image data stored in the storage means is decoded, and the decoded image encoded data is adapted to the encoding option of the communication partner by the image encoding means.
  • Patent Document 2 For the syntax conversion described later, for example, the description in Patent Document 2 is referred to.
  • the encoded bit stream is not decoded, temporarily decoded into a moving image, and encoded again, but the encoded bit stream is generated at the syntax level, instead of generating the encoded bit stream.
  • a moving image compression-encoded bitstream syntax conversion device that reduces the amount and enables normal decoding on the moving image decoding side regardless of whether or not an encoding tool is used is disclosed.
  • Patent Document 3 includes a decoder and an intra mode converter for commonly inputting an input digital video signal, an input selector for selecting an output of the decoder, an output of the intra mode converter, and an input digital video signal. A configuration in which selection is selected by a recording mode control signal is disclosed.
  • Patent Documents 1 to 3 are incorporated herein by reference. The following is an analysis of the related art according to the present invention.
  • each moving image data is once decoded and re-encoded with an encoding tool corresponding to the client.
  • the image quality deteriorates, and the processing load on the conference server increases.
  • an intra mode frame (intra frame) that is encoded using only the current frame image
  • an inter frame that is encoded with reference to the past frame image.
  • mode frame (interframe).
  • DCT Discrete Cosine Transform
  • Inter Mode a difference pixel obtained by performing motion compensation prediction between an input pixel and a decoded pixel of a past frame is obtained, and after DCT is performed on the difference pixel, a motion vector or a DCT coefficient is obtained.
  • Etc. are variable length coded. For this reason, inter-mode frames require past data for display, and when switching between moving images, a reference error will occur and subsequent images will be disturbed unless switching from the top data of the intra-mode frame. The phenomenon occurs.
  • the screen is small, so it is not possible to display all the video images of all participants in the video conference at the same time. There is.
  • the video data distributed to the client by the conference server is switched.
  • the screen is switched at an arbitrary time, for example, by the operation of the client, due to the influence of the interframe described above. , The image may be disturbed.
  • video data since the screen switching timing differs for each client, in order to enable screen switching at an arbitrary time point, video data must be an intra frame at an arbitrary time point. It is necessary to process a moving image every time.
  • a conventional method for this purpose for example, there is a method of creating moving image data by encoding for each client in a conference server.
  • the encoding tool cannot be used, there is a method of once decoding and re-encoding the moving image in the conference server.
  • each moving image data is once completely decoded and then transcoded with re-encoding with a high processing load.
  • an object of the present invention is to provide a conference server, a video conference system, a method, and a program that can suppress deterioration in the image quality of moving images, suppress an increase in processing load of the apparatus, can connect various clients, and can switch screens. It is to provide.
  • the invention disclosed in the present application is generally configured as follows.
  • the conference server includes an intra mode conversion unit and / or a syntax conversion unit.
  • the intra mode conversion unit converts an inter frame at an arbitrary point in the moving image data into an intra frame.
  • the syntax conversion unit changes the encoding tool used in the moving image data.
  • the conference server includes a receiving unit that receives the encoded moving image data, audio data, and control information from the client, and a transmitting unit that distributes moving image data, audio data, and control information to the client; A detection unit that detects control information for switching a screen to be displayed, transmitted from a client; the syntax conversion unit that converts an encoding tool used in moving image data; and an interframe of moving image data.
  • the intra mode conversion unit for converting into an intra frame, a screen of a moving image transmitted from a plurality of clients, a screen composition unit for combining with one moving image data, a voice transmitted from a plurality of clients, A voice synthesizer that synthesizes into a single piece of voice data and sends it to the destination client.
  • a switching unit for switching the moving image data, the image synthesizing section, the syntax conversion section, the intra-mode transducer, and a, and a control unit for controlling the switching unit.
  • the intra mode conversion unit switches data to be distributed to the client to moving image data that has undergone intra mode conversion.
  • the syntax conversion unit converts the encoding parameter of the moving image according to the capability of the client.
  • the present invention it is possible to suppress deterioration of the image quality of moving images, suppress an increase in processing load of the apparatus, connect various clients, and switch screens.
  • a syntax conversion unit that converts an encoding tool used in moving image data and / or an intra mode conversion that converts an inter frame of moving image data into an intra frame. Department.
  • any frame of a moving image is converted into an intra frame by intra mode conversion, and since an intra frame does not require past moving image data, it can be switched from other moving image data.
  • the moving image can be switched with.
  • the used encoding tool can be converted without performing decoding and re-encoding by syntax conversion.
  • the syntax is converted without the decoding and re-encoding, which causes an increase in processing load and image quality degradation, and the client It will be possible to play with.
  • FIG. 1 is a diagram showing a configuration of a video conference system according to an embodiment of the present invention.
  • a client 101 is a terminal that participates in a video conference.
  • FIG. 1 for simplicity, only one client 101 among a plurality of clients connected to the current server and participating in the conference is shown.
  • the client 101 has a transmission / reception function of moving image data, audio data, and control information.
  • the client 101 displays and reproduces a moving image and sound of a person participating in the video conference. By operating the client 101, the person shown on the screen can be switched to another participant.
  • the conference server 111 shows the components of the conference server 111 as functional blocks. Each element is outlined below.
  • the receiving unit 102 receives data transmitted from the client 101.
  • the data includes moving image data encoded by video encoding, audio data, and control information.
  • the receiving unit 102 converts the moving image data into RTP (Realtime Transport Protocol), H.264, or the like. 223 or other protocols.
  • the receiving unit 102 converts the audio data into RTP, H.264. 223 or other protocols.
  • the receiving unit 102 transmits control information to RTSP (Realtime Streaming Protocol), SIP, H.264. 245, RTCP (Real Time Control Protocol), or other protocols.
  • RTSP Realtime Streaming Protocol
  • SIP Session Init Protocol
  • H.264. 245 Real Time Control Protocol
  • the transmission unit 110 distributes moving image data, audio data, and control information to the client 101.
  • the detection unit 103 processes the control information notified to switch the screen displayed by the client 101.
  • the syntax conversion unit 106 converts the encoding tool used in the moving image data.
  • the intra mode conversion unit 107 converts an arbitrary inter frame of moving image data into an intra frame.
  • the screen compositing unit 105 receives the moving image screens transmitted from the plurality of clients 101 and combines them into one moving image data.
  • the voice synthesizer 108 receives voices transmitted from a plurality of clients 101 and synthesizes them into one voice data.
  • the switching unit 109 switches the moving image data to be transmitted according to the destination client 101.
  • the control unit 104 controls each unit of the screen synthesis unit 105, the syntax conversion unit 106, the intra mode conversion unit 107, and the switching unit 109.
  • the client 101 participates in the conference and transmits moving image data, audio data, and control information to the conference server 111.
  • the receiving unit 102 of the conference server 111 receives them.
  • the reception unit 102 sends the received control information to the detection unit 103, sends the received voice data to the voice synthesis unit 108, and receives the received moving image data as a screen synthesis unit 105, a syntax conversion unit 106, and an intra mode conversion unit 107. Send to.
  • the detection unit 103 detects a screen switching instruction from the control information.
  • the control unit 104 issues a control instruction to each functional block based on the state and instruction of the client.
  • the switching unit 109 selects which moving image data is to be transmitted, and distributes it to the client 101 from the transmission unit 110 together with the audio data.
  • the receiving unit 102 receives data from the client 101 through the network. As described above, the received data is moving image data, audio data, and control information. In the receiving unit 102, the moving image data and the audio data are RTP, H.264, and the like. 223 or other protocol.
  • control information is notified by SIP, DTMF (Dual Tone Multi-Frequency), RTSP, RTCP, or other protocols.
  • SIP Session Initiation Protocol
  • DTMF Double Tone Multi-Frequency
  • RTSP Real Tone Multi-Frequency
  • RTCP Real Tone Multi-Frequency
  • the receiving unit 102 simultaneously receives data from a plurality of clients, performs processing according to the protocol used, inputs voice data to the voice synthesis unit 108, inputs control information to the detection unit 103, Data is input to a function block described later.
  • the detection unit 103 detects a screen display switching instruction from control information from the client 101 based on SIP, DTMF, RTSP, RTCP, or other protocols, and instructs the control unit 104 to switch the display.
  • This display switching switches the video of the conference participant displayed on the screen of the client 101. If the client has a large screen size, such as a TV, a plurality of participants can be displayed simultaneously on one screen, but a client having a small screen size, such as a mobile terminal, sequentially displays the plurality of participants by switching the screen.
  • screen switching is realized by the conference server 111 switching moving image data to be transmitted to the client 101.
  • the control unit 104 determines how to handle moving image data from a plurality of clients 101.
  • the moving image data received by the reception unit 102 is processed by any one of the screen synthesis unit 105, the syntax conversion unit 106, the intra mode conversion unit 107, or a plurality of functional blocks. Which functional block is used? Is determined by the control unit 104.
  • the control unit 104 regarding the functional block for processing the moving image data received by the receiving unit 102, the capability information of the client 101 participating in the conference (for example, through SDP (Session Description Protocol (SDP) media capability exchange in the SIP network)) and the like.
  • the function block to be used is determined according to the control instruction.
  • Moving image data is input to each functional block of the screen composition unit 105, syntax conversion unit 106, and intra mode conversion unit 107, and after the data processing, the moving image data is output.
  • the syntax conversion unit 106 When there is a client that does not support the encoding parameter of the moving image data output from the conference server 111 among the clients 101 participating in the conference, the syntax conversion unit 106 performs syntax conversion. .
  • the moving image data input to the switching unit 109 is selected according to an instruction from the control unit 104 and input to the transmission unit 110.
  • the transmission unit 110 transmits moving image data and audio data to the client 101.
  • RTP or H.I. 223 or other protocols are used. It should be noted that each unit of the conference server in FIG. 1 may of course have its functions and processes realized by a program executed on a computer constituting the conference server.
  • FIG. 2 shows a video packet (VideoPacket) in an I-VOP (Intra-VOP (Video Object Plane); intra-frame predictive coding VOP) when only a resync marker (Resync Marker) is used as an encoding tool. ) Shows the configuration format.
  • VideoPacket in FIG. 2 includes m-th to n-th MB (Macro Block).
  • the DC component (m) represents a bit string of information (encoding mode, quantization difference value, DC component) necessary for decoding the DC component of the mth MB.
  • AC control (m) represents a bit string of information (encoding pattern, AC prediction flag) necessary for decoding the AC component of the m-th MB.
  • AC component (m) represents a bit string of the AC component of the m-th MB.
  • FIG. 3 shows the configuration of a VideoPacket in a P-VOP (Predictive-VOP) when only ResyncMarker is used as an encoding tool.
  • the MV component (m) represents a bit string of information (encoded MB flag, encoding mode, motion vector) necessary for decoding the motion vector.
  • AC control (m) represents a bit string of information (encoding pattern, AC prediction flag, quantization difference value) necessary for decoding the AC component.
  • AC component (m) represents a bit string of the AC component.
  • FIG. 4 shows the configuration of a VideoPacket in an I-VOP (Intra-VOP; intra-frame predictive coding VOP) when data partitioning (DataPartitioning) is used in addition to ResyncMarker as an encoding tool.
  • I-VOP Intra-VOP; intra-frame predictive coding VOP
  • DataPartitioning data partitioning
  • the meanings of the DC component, AC control, and AC component are the same as those in FIG.
  • bit strings are arranged in MB units, whereas in FIG. 4, bit strings are arranged in descending order of the importance of data. Yes.
  • DCMarker is inserted between the DC component and the AC control.
  • the AC component is encoded using an RVLC (Reversible Variable Length Coding) code table instead of a normal VLC code table. Has been.
  • FIG. 5 shows the configuration of a VideoPacket in P-VOP when DataPartitioning is used in addition to ResyncMarker as an encoding tool.
  • bit string related to each MB is the same as in FIG. 3, but in FIG. 3, bit strings are arranged in MB units, whereas in FIG. 5, bit strings are arranged in descending order of importance of data. .
  • a motion marker (MotionMarker) is inserted between the MV component and the AC control.
  • the AC component is encoded using an RVLC code table instead of a normal VLC code table.
  • FIG. 6 is a diagram illustrating a configuration example of the syntax conversion unit 106 of FIG.
  • the syntax conversion unit 106 includes a syntax conversion control unit 601, a syntax conversion presence / absence switching unit 602, a variable length decoder 603, a parameter order conversion unit 604, and a variable length encoder 605.
  • the receiving unit 102 sends a VideoPacket that is moving image data to the syntax conversion presence / absence switching unit 602.
  • the syntax conversion presence / absence switching unit 602 is notified from the syntax conversion control unit 601 as to whether or not to perform syntax conversion.
  • the syntax conversion presence / absence switching unit 602 sends the input VideoPacket to the variable length decoder 603, and when not performing the syntax conversion, outputs the input VideoPacket to the switching unit 109 as it is.
  • variable length decoder 603 performs a variable length decoding process on the VideoPacket using parameters other than the AC component, usually using a VLC code table.
  • variable length decoder 603 controls the variable length decoding process according to the conversion control information notified from the syntax conversion control unit 601.
  • the AC component is normally subjected to variable-length decoding using a VLC code table when Reversible VLC is not used, and using an RVLC code table when Reversible VLC is used.
  • the parameter order conversion unit 604 rearranges the bit strings based on the result of variable length decoding by the variable length decoder 603 for the VideoPacket.
  • the parameter order conversion unit 604 has a function of controlling the bit string rearrangement process according to the conversion control information notified from the syntax conversion control unit 601.
  • the parameter order conversion unit 604 rearranges the pattern into the pattern shown in FIG. 4 and inserts DCMmarker.
  • the parameter order conversion unit 604 rearranges the pattern into the pattern shown in FIG. 5 and inserts a MotionMarker.
  • the parameter order conversion unit 604 rearranges the pattern to the pattern of FIG. 2 and deletes DCMmarker.
  • the parameter order conversion unit 604 rearranges the pattern to the pattern of FIG. 3 and deletes the MotionMarker.
  • variable length encoder 605 performs variable length encoding processing only for the AC component.
  • the variable length encoder 605 has a function of controlling the variable length encoding process according to the conversion control information notified from the syntax conversion control unit 601.
  • variable-length encoder 605 performs variable-length coding processing using a normal VLC code table when Reversible VLC is not used, and variable-length coding processing using RVLC code table when Reversible VLC is used. I do.
  • the variable length encoder 605 outputs a VideoPacket to the switching unit 109.
  • the syntax conversion control unit 601 refers to the encoding information and the decoding information passed from the control unit 104 and determines how to convert the syntax in the VideoPacket input from the reception unit 102.
  • the syntax conversion control unit 601 outputs conversion control information to the syntax conversion presence / absence switching unit 602, the variable length decoder 603, the parameter order converter 604, and the variable length encoder 605 based on the determination result. To do.
  • FIG. 7 is a flowchart relating to the operation of the syntax conversion unit 106 of this embodiment.
  • the syntax conversion presence / absence switching unit 602 receives moving image data from the receiving unit 102 and acquires a VideoPacket as shown in any of FIGS. 2 to 5.
  • the syntax conversion control unit 601 refers to the encoding information and the decoding information transmitted from the control unit 104 and uses the encoding tool used in the moving image data input to the syntax conversion unit 106.
  • input encoding tool and an encoding tool (hereinafter referred to as “output encoding tool”) used in moving image data output from the syntax conversion unit 106, ⁇ Use / non-use of ResyncMarker, -Use of DataPartitioning, and -Determine the difference in the use of Reversible VLC.
  • the syntax conversion control unit 601 When the input encoding tool and the output encoding tool are all the same, the syntax conversion control unit 601 outputs the conversion control information to the syntax conversion presence / absence switching unit 602 without converting the syntax in the VideoPacket. Then, control is performed so that the data is output to the switching unit 109 as it is.
  • step 303 If at least one of the input encoding tool and the output encoding tool is different, the process proceeds to step 303.
  • the syntax conversion control unit 601 refers to the encoding information transmitted from the control unit 104, acquires the input encoding tool, and outputs information about the acquired input encoding tool as conversion control information. To do.
  • the process proceeds to step 312.
  • RM ResyncMarker
  • Data DataPartitioning
  • RVLC Reversible VLC
  • step 304 the variable length decoder 603 performs VLD processing on all parameters in the VideoPacket output from the syntax conversion presence / absence switching unit 602 with reference to the normal VLC code table.
  • the parameter order conversion unit 604 converts the parameters in the VideoPacket from MB units (FIG. 2 or FIG. 3) in descending order of the importance of the parameters based on the result of the VLD processing in the variable length decoder 603. Rearrange to (FIG. 4 or FIG. 5).
  • DCMarker is inserted between the DC component and the AC control.
  • a MotionMarker is inserted between the MV component and the AC control.
  • step 306 the syntax conversion control unit 601 refers to the decoding information transmitted from the control unit 104 and acquires an output encoding tool.
  • the output encoding tool is ResyncMarker and DataPartitioning
  • the rearranged VideoPacket is output to the switching unit 109.
  • variable length encoder 605 performs the re-VLC process with reference to the RVLC code table only for the AC component of FIG. 4 or FIG.
  • variable length encoder 605 outputs the VideoPacket that has been subjected to the re-VLC process to the switching unit 109.
  • variable length decoder 603 performs VLD processing on all parameters in the VideoPacket output from the syntax conversion presence / absence switching unit 602 with reference to the normal VLC code table.
  • the syntax conversion control unit 601 refers to the decoding information transmitted from the control unit 104, acquires the output encoding tool, and outputs information on the acquired output encoding tool as conversion control information.
  • step 310 If the output encoding tool is only ResyncMarker, go to step 310. If the output encoding tools are ResyncMarker, DataPartitioning, and ReversibleVLC, the process proceeds to step 311.
  • the parameter order conversion unit 604 converts the parameters in the VideoPacket from the order of increasing importance of the parameters (FIG. 4 or FIG. 5) in MB units (see FIG. 4) based on the result of the VLD processing in the variable length decoder 603. 2 or FIG. 3).
  • step 311 similarly to the operation in step 307, the variable length encoder 605 performs re-VLC processing with reference to the RVLC code table only for the AC component in FIG. 4 or FIG. 5.
  • the VideoPacket that has been subjected to the re-VLC process is output to the switching unit 109.
  • step 312 the variable length decoder 603 performs VLD processing on the AC component in the VideoPacket output from the syntax conversion presence / absence switching unit 602 with reference to the RVLC code table. For parameters other than the AC component, VLD processing is performed with reference to the normal VLC code table.
  • the syntax conversion control unit 601 refers to the decoding information transmitted from the control unit 104 and acquires an output encoding tool. Information about the acquired output encoding tool is output as conversion control information.
  • step 315 If the output encoding tool is ResyncMarker and DataPartitioning, the process proceeds to step 315.
  • step 314 as in the operation in step 310, the parameter order conversion unit 604 converts the parameters in the VideoPacket into the important data order (FIG. 4 or FIG. 5) based on the result of the VLD processing in the variable length decoder 603. ) To MB units (FIG. 2 or 3).
  • step 315 the variable-length encoder 605 performs re-VLC processing on only the AC component of FIG. 2 or 3 with reference to the normal VLC code table.
  • the VideoPacket that has been subjected to the re-VLC process is output to the switching unit 109.
  • FIG. 8 is a diagram illustrating a configuration of the intra mode conversion unit 107.
  • the intra mode conversion unit 107 includes a decoding unit 801, an intra mode switching unit 802, and an encoding unit 803.
  • the moving image data input from the receiving unit 102 is input to the intra mode switching unit 802 and the decoding unit 801, respectively.
  • the input moving image data is always decoded, and the frame data is output to the intra mode switching unit 802.
  • the intra mode switching unit 802 normally transmits the moving image data input from the receiving unit 102 to the switching unit 109 as it is.
  • the frame data input from the decoding unit 801 to the intra mode switching unit 802 is discarded as it is except for the latest frame data.
  • the operation is changed only when a switching instruction is input from the control unit 104.
  • the intra mode switching unit 802 that has received the switching instruction from the control unit 104 inputs the latest one frame data of the frames input from the decoding unit 801 to the encoding unit 803.
  • the encoding unit 803 encodes the frame data in the intra mode, and returns the encoded data to the intra mode switching unit 802.
  • the intra mode switching unit 802 replaces the bit stream portion corresponding to the corresponding frame portion of the moving image data input from the receiving unit 102 with the encoded data input from the encoding unit 803, and outputs it to the switching unit 109. After the replacement, the moving image data input from the receiving unit 102 is transmitted to the switching unit 109 as it is.
  • the intra mode switching unit 802 When the intra mode switching unit 802 receives the switching instruction, if the latest frame is originally data in the intra mode, the frame data is not input to the encoding unit 803 and the original moving image data is used as it is. Output to.
  • FIG. 9 is a diagram showing a configuration of the screen composition unit 105 in FIG.
  • the screen synthesis unit 105 includes a decoding unit 901, a synthesis unit 902, and an encoding unit 903.
  • the function of the screen composition unit 105 is used.
  • a plurality of moving image data input from the receiving unit 102 is input to the decoding unit 901 and decoded.
  • the decoded frame data is input to the synthesis unit 902, and reduction synthesis is performed for each frame. For example, when four frames are combined, the vertical and horizontal directions of the frames are halved, and the frames are combined so that they are displayed at four locations, upper right, upper left, lower right, and lower left.
  • This synthesis method is instructed from the control unit 104.
  • the synthesized frame is input to the encoding unit 903 and encoded.
  • Encoded moving image data is output to the switching unit 109.
  • the video data output from the screen synthesis unit 105 and the syntax conversion unit 106 described above are not directly output to the switching unit 109, but are converted to the syntax conversion unit 106 and the intra mode conversion. It can also be used as an input to the unit 107.
  • only the screen composition unit 105 always performs encoding.
  • FIG. 1 a configuration without an intra mode conversion transcoder is also possible.
  • the configuration is shown in FIG. This embodiment is the same as the above-described embodiment except that the function of the intra mode conversion unit 107 in FIG. 1 is excluded.
  • FIG. 1 a configuration without a syntax conversion transcoder is also possible.
  • the configuration is shown in FIG. This embodiment is the same as the above-described embodiment except that the function of the syntax conversion unit 106 in FIG. 1 is excluded.
  • the number of video conference server meetings can be increased. This is because the processing load required for moving image conversion is reduced.
  • the reason why the processing load is reduced is that the processing load of moving images is reduced by replacing the processing that had to be transcoded with decoding and encoding up to now with syntax conversion or intraframe conversion. is there.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 動画像の画質の劣化を抑え、装置の処理負荷を低く保ちつつ、多種のクライアントが接続でき、画面切り替えができるビデオカンファレンスシステム、方法、プログラムを提供する。カンファレンスサーバ111は、動画像のシンタックス変換を行うシンタックス変換部106と、動画像のインターフレームをイントラフレームに変換するイントラモード変換部107とのうちの少なくとも1方を備えている。

Description

カンファレンスサーバとビデオカンファレンスシステムと方法並びプログラム
 (関連出願についての記載)
 本発明は、日本国特許出願:特願2008-229963号(2008年 9月 8日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
 本発明は、ビデオカンファレンスシステムに関し、特に動画像の変換の処理負荷を低くし、動画像の変換による画質劣化を抑えたビデオカンファレンスシステムと方法並びにサーバとプログラムに関する。
 近年、3G(3rd Generation)携帯電話やIP(Internet Protocol)網の普及により、ビデオカンファレンス(ビデオ会議)が利用されている。ビデオカンファレンスにおいては、複数のクライアントから動画像と音声のデータを、一旦、多地点用ビデオ会議サーバであるカンファレンスサーバ(Conference Server)に送信し、カンファレンスサーバで画像処理、音声処理を行った後に、カンファレンスサーバから、画像と音声のデータを各クライアントに配信している。
 ビデオカンファレンスにおいて、動画像信号を伝送するための動画像圧縮符号化方式として、ITU-T勧告H.261及びH.263や、ISO/IEC(International Organization for Standardization /International Electro technical Commission)で国際標準化されているMPEG-4(Moving Picture Experts Group  Phase 4)が知られている。また、ITU-T(International Telecommunication Union Telecommunication standardization sector)とISO/IECで国際標準化されたH.264/MPEG-4 AVC(Advanced Video Coding)が前記動画像圧縮符号化方式よりも動画像信号を効率良く伝送できるとして注目を浴びている。
 動画像圧縮符号化方式は、各々の規格で符号化ツールのサブセットを定めたプロファイル(Profile)が規定されており、動画像圧縮符号化ビットストリーム(「動画像データ」という)を生成する際に、プロファイルの範囲内で符号化ツールの使用・未使用が自由に選択できる(MPEG-4 AVCではベースラインプロファイル、メインプロファイル、エクステンデッドプロファイル等が規定される)。この符号化ツールの使用・未使用によって、同じ動画像圧縮符号化方式でも、動画像データのシンタックスが異なる。
 ビデオカンファレンスに関するパラメータを呼接続時に、例えばITU-T勧告H.245やIETF(The Internet Engineering Task Force)のSIP(Session Initiation Protocol)で規定されているように、能力情報の交換を行う。能力情報の交換で、端末へ通知した動画像圧縮符号化方式と動画像データの能力情報(例えばDCI(Decoder Configuration Information))によって、端末で再生できる動画像データは、符号化ツールの使用・未使用まで一意に定められ、この能力情報の交換により決定された符号化パラメータを用いて、カンファレンスサーバから配信される動画像がエンコード(符号化)される。
 ビデオカンファレンスに参加するクライアントが単一の種類でなく、共通に利用できる符号化パラメータが存在しないような場合、それぞれのクライアントにあった符号化パラメータを使用して動画像を変換する必要がある。
 また、同じように、ビデオカンファレンスにクライアントが途中から参加する場合、クライアントの能力が使用されている符号化ツールに対応していなければ、カンファレンスサーバで別途動画像の変換を行う必要がある。
 なお、特許文献1には、記憶手段に記憶された第2の画像符号化データを復号化し、復号化された画像符号化データを画像符号化手段にて通信相手の符号化オプションに適合するように符号化することで、画像通信開始後、符号化オプションを変更する場合に、通信を一旦切る必要なく、通信相手に送信可能とした画像伝送装置、方法が開示されている。
 また、後述されるシンタックス変換に関しては、例えば特許文献2の記載が参照される。この特許文献2には、符号化ビットストリームをデコードし一旦動画像まで復号し再度エンコードして符号化ビットストリームを生成するのではなく、符号化ビットストリームをシンタックスレベルで変換することにより、演算量を低減し、符号化ツールの使用の有無等によらず、動画像復号側で正常に復号可能とした動画像圧縮符号化ビットストリームシンタックス変換装置が開示されている。
 特許文献3には、入力デジタルビデオ信号を共通に入力するデコーダ及びイントラモード変換器と、デコーダの出力とイントラモード変換器の出力と入力デジタルビデオ信号を選択する入力選択器を備え、録画経路の選択が録画モード制御信号によって選択される構成が開示されている。
特開2002-16916号公報 特開2006-203682号公報 特開平7-23339号公報
 上記特許文献1から3の全開示内容はその引用をもって本書に繰込み記載する。
 以下に本発明による関連技術の分析を与える。
 従来、カンファレンスサーバにおいては、各動画像データを一旦デコードし、クライアントに対応した符号化ツールで再エンコードすることを行っている。しかしながら、動画像データを一旦デコードし、再エンコードすることによって画質劣化を招き、さらに、カンファレンスサーバの処理負荷が高くなる。
 また、MPEG-4等の動画像圧縮符号化方式においては、現フレームの画像のみを用いて符号化するイントラモードのフレーム(イントラフレーム)と、過去のフレームの画像を参照して符号化するインターモードのフレーム(インターフレーム)とがある。
 イントラモード(Intra Mode)では、入力画素に対してマクロブロック(Macro Block)と呼ばれる単位毎に、DCT(Discrete Cosine Transform)が行われた後、DCT係数が可変長符号化される。
 インターモード(Inter Mode)では、入力画素と過去のフレームの復号画素との間で動き補償予測を行った差分画素が求められ、差分画素に対してDCTが行われた後、動きベクトルやDCT係数等が可変長符号化される。このため、インターモードのフレームは表示のために過去のデータを必要とし、動画像を切り替える際に、イントラモードのフレームの先頭データから切り替えないと、参照エラーが発生し、以降の画像が乱れるという現象が発生する。
 特に、モバイル等のクライアントの場合、画面が小さいため、ビデオカンファレンス参加者全員の動画像を一度に表示するわけにはいかず、時間的に、画面を切り替えて、一人ずつ表示させる手法が用いられる場合がある。
 しかしながら、この手法では、カンファレンスサーバがクライアントに対して配信する動画像データを切り替えることになるが、その際、例えばクライアントの操作により、任意の時点で画面を切り替えると、前述したインターフレームの影響により、画像が乱れてしまうことがある。
 しかも、画面の切り替えタイミングは、クライアント毎に異なるため、任意の時点で画面切り替えを可能とするためには、任意の時点で、映像データがイントラフレームでなければならず、カンファレンスサーバにおいては、クライアント毎に、動画像の処理を行うことが必要となる。このための従来手法として、例えばカンファレンスサーバにおいて、各クライアント専用にエンコードし、動画像データを作成する手法がある。あるいは、符号化ツールが利用できない場合と同じように、カンファレンスサーバにおいて、一旦、動画像をデコードし、再エンコードする手法もある。
 しかしながら、動画像のエンコードは処理量が大きいため、カンファレンスサーバにおいて、会議に参加するクライアント毎にエンコードを行う場合、一台のカンファレンスサーバで利用できる会議数を大きくすることはできない。
 上記した問題点をまとめると以下の通りである。
(A)カンファレンスに途中で参加したため、カンファレンスの動画像で使用する符号化ツールのネゴシエーションができなかったクライアントのため、あるいは、使用された符号化ツールをデコードできないクライアントのために、使用符号化ツールを変換する必要があるが、このとき、従来の手法では、動画像の画質が劣化する。
 その理由は、各動画像データを一旦デコードすることで、量子化誤差が発生するためである。また、再エンコードの際に原画像と比べて量子化誤差があるデコード画像を使用するため再量子化による誤差が拡大するためである。
(B)上記変換を行うときの処理装置の処理負荷が高いことである。
 その理由は、各動画像データを、一旦、完全にデコードし、その後、処理負荷の高い再エンコードを伴うトランスコードを行うためである。
(C)表示画面を任意の時点で切り替えることができるようにする場合、変換装置の処理負荷が高いことである。
 その理由は、クライアント毎に、動画像データをトランスコードしておかなければならないためである。
 したがって、本発明の目的は、動画像の画質の劣化を抑え、装置の処理負荷の増大を抑え、多種のクライアントが接続でき、画面切り替えを可能とするカンファレンスサーバ、ビデオカンファレンスシステム、方法、プログラムを提供することにある。
 本願で開示される発明は、課題を解決するため、概略以下の構成とされる。
 本発明においては、カンファレンスサーバは、イントラモード変換部、及び/又は、シンタックス変換部を備える。イントラモード変換部は、動画像データの任意の時点のインターフレームをイントラフレームに変換する。シンタックス変換部は、動画像データで使用している符号化ツールを変更する。
 本発明において、カンファレンスサーバは、前記クライアントからエンコードされた動画像データ、音声データ、制御情報を受信する受信部と、クライアントに対して動画像データ、音声データ、制御情報を配信する送信部と、クライアントより送信された、表示する画面を切り替えるための制御情報を検出する検出部と、動画像データで使用している符号化ツールを変換する前記シンタックス変換部と、動画像データのインターフレームをイントラフレームに変換する前記イントラモード変換部と、複数のクライアントから送信された動画像の画面を受け、一つの動画像データに合成する画面合成部と、複数のクライアントから送信された音声を受け、一つの音声データに合成する音声合成部と、送信先のクライアントに合わせて送信する動画像データを切り替える切替部と、前記画面合成部、前記シンタックス変換部、前記イントラモード変換部、前記切替部の制御を行う制御部と、を備えている。イントラモード変換部は、クライアントからの画面切替指示に対応して、クライアントに配信するデータをイントラモード変換を行った動画像データに切り替える。シンタックス変換部は、動画像の符号化パラメータを、前記クライアントの能力にあわせて変換する。
 本発明によれば、動画像の画質の劣化を抑え、装置の処理負荷の増大を抑え、多種のクライアントが接続でき、画面切り替えを可能としている。
本発明の一実施の形態のシステム構成を説明する図である。 VideoPacketの一例を表す図である。 VideoPacketの別の例を表す図である。 VideoPacketのさらに別の例を表す図である。 VideoPacketの別の例を表す図である。 本発明の一実施例におけるシンタックス変換部の構成を示す図である。 本発明の一実施例におけるシンタックス変換の動作を説明するフローチャートである。 本発明の一実施例におけるイントラモード変換部の構成を示す図である。 本発明の一実施例における画面合成部の構成を示す図である。 本発明の別の実施例の構成を示す図である。 本発明のさらに別の実施例の構成を示す図である。
 次に、本発明の実施の形態について説明する。本発明の1つの態様において、カンファレンスサーバにおいて、動画像データで使用している符号化ツールを変換するシンタックス変換部、及び/又は、動画像データのインターフレームをイントラフレームに変換するイントラモード変換部を備えている。
 本発明においては、画面切替のために、クライアント毎、個別に、デコードと再エンコードを伴うトランスコード処理を行わずに済み、処理負荷を下げることができる。すなわち、イントラモード変換によって、動画像の任意のフレームをイントラフレームに変換し、イントラフレームは過去の動画像データを必要としないため、他の動画像データから切り替えることが可能であり、任意のフレームで動画像を切り替えることが可能となる。
 本発明においては、シンタックス変換により、使用符号化ツールを、デコード及び再エンコードを行うことなく、変換することができる。これにより、クライアントが対応していない符号化ツールを使用した動画像データであっても、処理負荷増加と画質劣化の原因となるデコードと再エンコードを行わずに、シンタックスを変換して、クライアントで再生できるようになる。以下本発明の実施の形態について図面を参照して説明する。
 図1は、本発明の一実施の形態のビデオカンファレンスシステムの構成を示す図である。図1において、クライアント101は、ビデオカンファレンスに参加する端末である。なお、図1では、簡単のため、カレントサーバに接続してカンファレンスに参加する複数のクライアントのうちの一台のクライアント101のみが示されている。
 クライアント101は、動画像データと音声データと制御情報の送受信機能を備える。クライアント101では、ビデオカンファレンスに参加している人の動画像と、音声が表示、再生される。クライアント101の操作により、画面に映る人を別の参加者に切り替えることができる。
 図1において、カンファレンスサーバ111には、カンファレンスサーバ111の構成要素が機能ブロックとして示されている。以下、各要素を概説する。
 受信部102は、クライアント101から送信されたデータを受信する。データには映像符号化によりエンコードされた動画像データ、音声データ、制御情報が含まれる。受信部102は、動画像データを、RTP(Realtime Transport Protocol)、H.223、又はその他のプロトコルで受信する。受信部102は、音声データを、RTP、H.223、又はその他のプロトコルで受信する。受信部102は、制御情報を、RTSP(Realtime Streaming Protocol)、SIP、H.245、RTCP(Real Time Control Protocol)、又はその他のプロトコルで受信する。
 送信部110は、クライアント101に対して動画像データ、音声データ、制御情報を配信する。
 検出部103は、クライアント101が表示する画面を切り替えるために通知した制御情報を処理する。
 シンタックス変換部106は、動画像データで使用している符号化ツール変換する。
 イントラモード変換部107は、動画像データの任意のインターフレームをイントラフレームに変換する。
 画面合成部105は、複数のクライアント101から送信された動画像の画面を受け、一つの動画像データに合成する。
 音声合成部108は、複数のクライアント101から送信された音声を受け、一つの音声データに合成する。
 切替部109は、送信先のクライアント101に合わせて、送信する動画像データを切り替える。
 制御部104は、画面合成部105、シンタックス変換部106、イントラモード変換部107、切替部109の各部の制御を行う。
 図1を参照して、本実施例のカンファレンスシステムの全体の動作の概略を示す。クライアント101は、カンファレンスに参加し、動画像データ、音声データ、制御情報をカンファレンスサーバ111に対して送信する。
 カンファレンスサーバ111の受信部102がそれらを受信する。
 受信部102は、受信した制御情報を検出部103に送り、受信した音声データを音声合成部108に送り、受信した動画像データを画面合成部105、シンタックス変換部106、イントラモード変換部107に送る。
 検出部103では、制御情報から画面切替指示を検出する。
 制御部104は、クライアントの状態や指示から各機能ブロックに対して制御指示を出す。
 切替部109において、どの動画像データを送信するかを選択し、音声データと併せて、送信部110から、クライアント101に対して配信する。
 次に、各機能ブロックの動作を詳細に示す。受信部102は、ネットワークを通してクライアント101からデータを受信する。前述したように、受信データは動画像データと、音声データ、制御情報である。受信部102では、動画像データと音声データは、RTP、H.223、又は他のプロトコルで受信する。
 受信部102では、制御情報は、SIP、DTMF(Dual Tone Multi-Frequency)、RTSP、RTCP、又は、その他のプロトコルで通知される。
 受信部102では、複数のクライアントから同時にデータを受信し、使用しているプロトコルに従った処理を行い、音声データは音声合成部108へ入力し、制御情報は検出部103へ入力し、動画像データは後述の機能ブロックへ入力する。
 検出部103では、クライアント101からの、SIP、DTMF、RTSP、RTCP、又は、その他のプロトコルによる制御情報から、画面表示切り替え指示を検出し、制御部104に対して、表示切替えを指示する。この表示切替えは、クライアント101の画面に表示されるカンファレンスの参加者の映像を切り替える。TV等、画面サイズが大きなクライアントであれば、複数の参加者を同時に一画面に表示できるが、携帯端末等の画面サイズの小さいクライアントでは、複数の参加者を画面を順次切り替えて表示する。本実施例において、画面の切替は、カンファレンスサーバ111が、クライアント101に送信する動画データを切り替えることによって実現される。
 制御部104では、複数のクライアント101からの動画像データをどのように取り扱うかを決定する。受信部102で受信した動画像データは、画面合成部105、シンタックス変換部106、イントラモード変換部107のいずれか、又は複数の機能ブロックにて処理されるが、どの機能ブロックを使用するかについては、制御部104にて決定される。
 制御部104は、受信部102で受信した動画像データを処理する機能ブロックに関して、カンファレンスに参加しているクライアント101の能力情報(例えばSIP網におけるSDP(Session Description Protocol)メディア能力交換等による)と、制御指示に従って、使用する機能ブロックを決定する。
 画面合成部105、シンタックス変換部106、及び、イントラモード変換部107の各機能ブロックには、動画像データが入力され、データ処理後、動画像データを出力する。
 カンファレンスに参加しているクライアント101の中で、カンファレンスサーバ111から出力される動画像データの符号化パラメータに対応していないクライアントが存在する場合、シンタックス変換部106において、シンタックス変換が行われる。
 切替部109に入力された動画像データは、制御部104からの指示に従って選択され、送信部110へと入力される。
 送信部110は、動画像データと音声データをクライアント101に対して送信する。RTP又はH.223又はその他のプロトコルが使用される。なお、図1のカンファレンスサーバの各部は、カンファレンスサーバを構成するコンピュータ上で実行されるプログラムによりその機能・処理を実現するようにしてもよいことは勿論である。
 以下に、具体的な実施例について説明する。まず、図1のシンタックス変換部106について、図2乃至図7を参照して詳細に説明する。
 なお、以下の各実施例では、MPEG-4に即して説明するが、これは一例に過ぎず本発明はかかる構成に限定するものではないことは勿論である。シンタックス変換トランスコーダの原理からも明らかなように、本発明は、MPEG-4以外の他の動画像圧縮符号化方式にも適用可能である。
 図2は、符号化ツールとして、リシンクマーカー(ResyncMarker:再同期マーカー)のみを使用した場合のI-VOP(Intra-VOP(Video Object Plane);フレーム内予測符号化VOP)における、ビデオパケット(VideoPacket)の構成フォーマットを示している。
 図2のVideoPacketには、m番目からn番目のMB(Macro Block)が含まれていると仮定している。
 また、DC成分(m)は、m番目のMBのDC成分を復号するために必要な情報(符号化モード、量子化差分値、DC成分)のビット列を表している。
 AC制御(m)は、m番目のMBのAC成分を復号するために必要な情報(符号化パターン、AC予測フラグ)のビット列を表している。
 AC成分(m)は、m番目のMBのAC成分のビット列を表している。
 図3は、符号化ツールとして、ResyncMarkerのみを使用した場合のP-VOP(Predictive-VOP;フレーム間順方向予測符号化VOP)におけるVideoPacketの構成を示している。
 また、MV成分(m)は、動きベクトルを復号するために必要な情報(符号化MBフラグ、符号化モード、動きベクトル)のビット列を表している。
 AC制御(m)は、AC成分を復号するために必要な情報(符号化パターン、AC予測フラグ、量子化差分値)のビット列を表している。
 AC成分(m)は、AC成分のビット列を表している。
 図4は、符号化ツールとして、ResyncMarkerに加えてデータ分割(DataPartitioning)を使用した場合のI-VOP(Intra-VOP;フレーム内予測符号化VOP)におけるVideoPacketの構成を示している。DC成分、AC制御、AC成分の意味は図2と同じである。
 各MBに関するデータ(ビット列)は、図2と同じであるが、図2では、MB単位にビット列が並んでいるのに対して、図4では、データの重要度が高い順に、ビット列が並んでいる。
 また、DC成分とAC制御との間に、DCマーカー(DCMarker)が挿入されている。
 さらに、上記に加えて、ReversibleVLC(Variable Length Coding;可逆可変長符号化)を使用した場合、AC成分は通常のVLC符号表ではなく、RVLC(Reverisible Variable Length Coding)符号表を使用して符号化されている。
 図5は、符号化ツールとして、ResyncMarkerに加えて、DataPartitioningを使用した場合のP-VOPにおけるVideoPacketの構成を示している。
 図5において、MV成分、AC制御、AC成分の意味は、図3と同じである。各MBに関するデータ(ビット列)は、図3と同じであるが、図3では、MB単位にビット列が並んでいるのに対して、図5では、データの重要度が高い順にビット列が並んでいる。また、MV成分とAC制御との間に、モーションマーカー(MotionMarker)が挿入されている。
 さらに、上記に加えてReversibleVLCを使用した場合、AC成分は通常のVLC符号表ではなくRVLC符号表を使用して符号化されている。
 図6は、図1のシンタックス変換部106の構成例を示す図である。シンタックス変換部106は、シンタックス変換制御部601、シンタックス変換有無切替部602、可変長復号器603、パラメータ順序変換部604、可変長符号化器605を備えている。
 図6において、受信部102は、動画像データであるVideoPacketをシンタックス変換有無切替部602に送る。
 シンタックス変換有無切替部602は、シンタックス変換を行うか否かについて、シンタックス変換制御部601から通知される。シンタックス変換を行う場合、シンタックス変換有無切替部602は、入力されたVideoPacketを可変長復号器603へ送り、シンタックス変換を行わない場合、入力されたVideoPacketをそのまま切替部109に出力する。
 可変長復号器603では、VideoPacketに対して、AC成分以外のパラメータは、通常VLC符号表を使用して、可変長復号処理を行う。
 可変長復号器603では、シンタックス変換制御部601から通知された変換制御情報にしたがって、可変長復号処理を制御する。可変長復号器603では、AC成分は、ReversibleVLCを使用しない場合は、通常、VLC符号表を、ReversibleVLCを使用する場合は、RVLC符号表を使用して可変長復号処理を行う。
 パラメータ順序変換部604は、VideoPacketに対する可変長復号器603での可変長復号の結果に基づいて、ビット列の並び替えを行う。
 パラメータ順序変換部604は、シンタックス変換制御部601から通知された変換制御情報にしたがって、ビット列の並び替え処理を制御する機能を有する。
 可変長復号器603に入力されたVideoPacketが、図2のパターンの場合、パラメータ順序変換部604は、図4のパターンに並び替えるとともに、DCMarkerを挿入する。
 可変長復号器603に入力されたVideoPacketが図3のパターンの場合、パラメータ順序変換部604は、図5のパターンに並び替えるとともに、MotionMarkerを挿入する。
 可変長復号器603に入力されたVideoPacketが図4のパターンの場合、パラメータ順序変換部604は、図2のパターンに並び替えるとともにDCMarkerを削除する。
 可変長復号器603に入力されたVideoPacketが図5のパターンの場合、パラメータ順序変換部604は、図3のパターンに並び替えるとともに、MotionMarkerを削除する。
 可変長符号化器605は、AC成分のみ、可変長符号化処理を行う。また、可変長符号化器605は、シンタックス変換制御部601から通知された変換制御情報にしたがって、可変長符号化処理を制御する機能を有する。
 可変長符号化器605では、ReversibleVLCを使用しない場合は、通常VLC符号表を使用して可変長符号化処理を行い、ReversibleVLCを使用した場合は、RVLC符号表を使用して可変長符号化処理を行う。可変長符号化器605は切替部109に、VideoPacketを出力する。
 シンタックス変換制御部601は、制御部104から渡された、符号化情報及び復号情報を参照して、受信部102から入力されたVideoPacket内のシンタックスをどのように変換するかを判定する。
 そして、シンタックス変換制御部601は、判定結果に基づいて、シンタックス変換有無切替部602、可変長復号器603、パラメータ順序変換器604、可変長符号化器605に対して変換制御情報を出力する。
 以下、シンタックス変換部106の動作を説明する。図7は、本実施例のシンタックス変換部106の動作に関するフローチャートである。
 図7のステップ301においては、シンタックス変換有無切替部602は、受信部102から動画像データを受信し、図2乃至図5のいずれかに示すようなVideoPacketを取得する。
 ステップ302において、シンタックス変換制御部601は、制御部104から送信された符号化情報及び復号情報を参照して、シンタックス変換部106に入力される動画像データで使用されている符号化ツール(以下、「入力符号化ツール」と呼ぶ)と、シンタックス変換部106から出力される動画像データで使用されている符号化ツール(以下、「出力符号化ツール」と呼ぶ)、すなわち、
 ・ResyncMarkerの使用有無、
 ・DataPartitioningの使用有無、及び、
 ・ReversibleVLCの使用有無
の相違を判定する。
 入力符号化ツールと出力符号化ツールがすべて同一である場合、シンタックス変換制御部601は、シンタックス変換有無切替部602に、変換制御情報を出力し、VideoPacket内のシンタックスを変換せずに、そのまま切替部109に出力するように制御する。
 入力符号化ツールと出力符号化ツールの少なくとも1つが異なる場合、ステップ303に進む。
 ステップ303では、シンタックス変換制御部601は、制御部104から送信された符号化情報を参照して、入力符号化ツールを取得し、取得した入力符号化ツールに関する情報を、変換制御情報として出力する。
 入力符号化ツールがResyncMarker(RM)のみである場合、ステップ304に進む。
 入力符号化ツールがResyncMarker(RM)及びDataParitioning(DP)である場合、ステップ308に進む。
 入力符号化ツールがResyncMarker(RM)、DataParitioning(Data)、及び、ReversibleVLC(RVLC)である場合、ステップ312に進む。
 ステップ304において、可変長復号器603は、シンタックス変換有無切替部602から出力されたVideoPacket内のすべてのパラメータに対して、通常VLC符号表を参照してVLD処理を行う。
 ステップ305において、パラメータ順序変換部604は、可変長復号器603でのVLD処理の結果に基づいて、VideoPacket内のパラメータを、MB単位(図2又は図3)から、パラメータの重要度が高い順(図4又は図5)に並び替える。
 図2から図4への並び替えでは、DC成分とAC制御との間に、DCMarkerを挿入する。
 図3から図5への並び替えでは、MV成分とAC制御との間に、MotionMarkerを挿入する。
 ステップ306では、シンタックス変換制御部601は、制御部104から送信された復号情報を参照して、出力符号化ツールを取得する。
 取得した出力符号化ツールに関する情報を、変換制御情報として出力する。
 出力符号化ツールが、ResyncMarker及びDataPartitioningである場合、並び替えたVideoPacketを、切替部109に出力する。
 出力符号化ツールがResyncMarker、DataParitioning、及びReversibleVLCである場合、ステップ307に進む。
 ステップ307では、可変長符号化器605は、図4又は図5のAC成分のみ、RVLC符号表を参照して再VLC処理を行う。
 可変長符号化器605は、再VLC処理を行ったVideoPacketを、切替部109に出力する。
 ステップ308では、可変長復号器603は、シンタックス変換有無切替部602から出力されたVideoPacket内のすべてのパラメータに対して、通常VLC符号表を参照してVLD処理を行う。
 ステップ309では、シンタックス変換制御部601は、制御部104から送信された復号情報を参照して、出力符号化ツールを取得し、取得した出力符号化ツールに関する情報を変換制御情報として出力する。
 出力符号化ツールがResyncMarkerのみである場合、ステップ310に進む。出力符号化ツールがResyncMarker、DataParitioning、及びReversibleVLCである場合、ステップ311に進む。
 ステップ310では、パラメータ順序変換部604は、可変長復号器603でのVLD処理の結果に基づいて、VideoPacket内のパラメータをパラメータの重要度が高い順(図4又は図5)からMB単位(図2又は図3)に並び替える。
 図4から図2への並び替えでは、DC成分とAC制御との間のDCMarkerを削除する。
 図5から図3への並び替えでは、MV成分とAC制御との間のMotionMarkerを削除する。
 ステップ311では、ステップ307での動作と同様に、可変長符号化器605は、図4又は図5のAC成分のみRVLC符号表を参照して再VLC処理を行う。再VLC処理を行ったVideoPacketを切替部109に出力する。
 ステップ312では、可変長復号器603は、シンタックス変換有無切替部602から出力されたVideoPacket内のAC成分に対しては、RVLC符号表を参照してVLD処理を行う。AC成分以外のパラメータに対しては、通常VLC符号表を参照してVLD処理を行う。
 ステップ313では、シンタックス変換制御部601は、制御部104から送信された復号情報を参照して、出力符号化ツールを取得する。取得した出力符号化ツールに関する情報を変換制御情報として出力する。
 出力符号化ツールがResyncMarkerのみである場合、ステップ314に進む。
 出力符号化ツールがResyncMarker及びDataParitioningである場合、ステップ315に進む。
 ステップ314では、ステップ310での動作と同様に、パラメータ順序変換部604は、可変長復号器603でのVLD処理の結果に基づいて、VideoPacket内のパラメータを、重要データ順(図4又は図5)からMB単位(図2又は図3)に並び替える。
 図4から図2への並び替えでは、DC成分とAC制御との間のDCMarkerを削除する。
 図5から図3への並び替えでは、MV成分とAC制御との間のMotionMarkerを削除する。
 ステップ315では、可変長符号化器605は、図2又は図3のAC成分のみを通常VLC符号表を参照して再VLC処理を行う。再VLC処理を行ったVideoPacketを切替部109に出力する。
 次に、図1のイントラモード変換部107を説明する。図8は、イントラモード変換部107の構成を示す図である。図8を参照すると、イントラモード変換部107は、デコード部801、イントラモード切替部802、エンコード部803を備えている。
 イントラモード変換部107では、受信部102から入力された動画像データをイントラモード切替部802と、デコード部801にそれぞれ入力する。
 デコード部801では、入力された動画像データは常にデコードされ、フレームデータがイントラモード切替部802に出力される。
 イントラモード切替部802では、通常は受信部102から入力された動画像データをそのまま切替部109に送信する。またデコード部801からイントラモード切替部802に入力されたフレームデータは、最新のフレームデータ以外はそのまま廃棄される。
 イントラモード切替部802では、制御部104から切替の指示が入力された場合にのみ、動作が変更される。制御部104から切替の指示を受信したイントラモード切替部802は、デコード部801から入力されているフレームのうち最新の1つのフレームデータをエンコード部803に入力する。エンコード部803はフレームデータをイントラモードで符号化し、符号化データをイントラモード切替部802に戻す。
 イントラモード切替部802は、受信部102から入力された動画像データの該当フレーム部分に対応するビットストリームの部分をエンコード部803から入力された符号化データで置き換え、切替部109に出力する。置き換えた後は、受信部102から入力された動画像データをそのまま切替部109に送信する。
 イントラモード切替部802が切替の指示を受信した際、最新のフレームがもともとイントラモードのデータであれば、エンコード部803にはフレームデータを入力せず、そのままもとの動画像データを切替部109に出力する。
 図9は、図1の画面合成部105の構成を示す図である。図8を参照すると、画面合成部105は、デコード部901、合成部902、エンコード部903を備えている。カンファレンス参加者の複数の映像を合成する場合には、画面合成部105の機能が使用される。
 次に、画面合成部105の動作を説明する。図9を参照すると、受信部102から入力された複数の動画像データは、それぞれデコード部901に入力され、デコードが行われる。デコードされたフレームデータは合成部902に入力され、1フレームごとに縮小合成が行われる。例えば4つのフレームを合成する場合はフレームの縦横をそれぞれ1/2にし、右上、左上、右下、左下の4箇所に表示されるように合成する。この合成方法は制御部104から指示される。合成されたフレームはエンコード部903に入力され、エンコードされる。
 エンコードされた動画像データは切替部109に出力される。複数の機能を実現するために、以上で説明した画面合成部105、シンタックス変換部106で出力される映像データは、直接切替部109に出力されずに、シンタックス変換部106、イントラモード変換部107の入力として使われることも可能である。
 以上のように、本実施例では、常に、エンコードを行うのは、画面合成部105のみである。
 イントラモード変換では、切り替えるフレームのみをエンコードするので、全てのフレームでデコードと再エンコードを行う構成の従来のトランスコーダに比べて処理負荷が低い。また、シンタックス変換ではデコードと再エンコードを行っていないので、画質が劣化せず、処理負荷が低い。
 本発明の他の実施例として、イントラモード変換トランスコーダを搭載しない構成も可能である。その構成を図10に示す。この実施例は図1におけるイントラモード変換部107の機能が除外されている以外は、前述の実施例と同一である。
 本発明の他の実施例として、シンタックス変換トランスコーダを搭載しない構成も可能である。その構成を図11に示す。この実施例は図1におけるシンタックス変換部106の機能が除外されている以外は、前述の実施例と同一である。
 上記した本実施例の作用効果を説明する。
 ビデオカンファレンスサーバの会議収容数の増大が可能である。これは、動画像の変換に必要な処理負荷が少なくなるためである。処理負荷が少なくなる理由は、これまでデコードとエンコードを伴うトランスコードを行わなければならなかった処理をシンタックス変換、又は、イントラフレーム変換に置き換えることで、動画像の処理負荷が少なくなるためである。
 動画像の画質劣化を抑止可能である。これは、デコードとエンコードを伴うトランスコードを行わなくなるためである。
 なお、上記の特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
101 クライアント
102 受信部
103 検出部
104 制御部
105 画面合成部
106 シンタックス変換部
107 イントラモード変換部
108 音声合成部
109 切替部
110 送信部
111 カンファレンスサーバ
601 シンタックス変換制御部
602 シンタックス変換有無切替部
603 可変長復号器
604 パラメータ順序変換部
605 可変長符号化器
801 デコード部
802 イントラモード切替部
803 エンコード部
901 デコード部
902 合成部
903 エンコード部

Claims (23)

  1.  複数のクライアントによるカンファレンスを制御するカンファレンスサーバにおいて、
     動画像のシンタックス変換を行うシンタックス変換部と、
     動画像のインターフレームをイントラフレームに変換するイントラモード変換部と、
     のうちの少なくとも1方を備えている、ことを特徴とする、カンファレンスサーバ。
  2.  前記シンタックス変換部は、動画像の符号化パラメータを、前記クライアントの能力にあわせて変換し、
     前記イントラモード変換部は、前記クライアントからの画面切替指示に対応して、前記クライアントに配信するデータを、イントラモード変換を行った動画像データに切り替える、ことを特徴とする、請求項1記載のカンファレンスサーバ。
  3.  前記クライアントより送信された符号化された動画像データ、音声データ、制御情報の少なくとも1つを受信する受信部と、
     送信先の前記クライアントに対して符号化した動画像データ、音声データ、制御情報の少なくとも1つを配信する送信部と、
     前記クライアントより送信され前記受信部で受信された、表示する画面を切り替えるための制御情報を検出する検出部と、
     前記受信部で受信された動画像データで使用している符号化ツールを変換する前記シンタックス変換部と、
     前記受信部で受信された動画像データのインターフレームをイントラフレームに変換する前記イントラモード変換部と、
     複数の前記クライアントから送信され前記受信部で受信された動画像の画面を受け、一つの動画像データに合成する画面合成部と、
     複数の前記クライアントから送信され前記受信部で受信された音声を受け、一つの音声データに合成する音声合成部と、
     前記画面合成部、前記シンタックス変換部、前記イントラモード変換部の出力から、送信先の前記クライアントに合わせて送信する動画像データを切り替え、前記送信部に出力する第1の切替部と、
     前記画面合成部、前記シンタックス変換部、前記イントラモード変換部、前記第1の切替部の制御を行う制御部と、
     を備えている、ことを特徴とする、請求項1又は2記載のカンファレンスサーバ。
  4.  前記制御部は、カンファレンスに参加している前記クライアントの能力情報と制御指示に従って、前記受信部で受信した動画像データを、
     前記画面合成部、
     前記シンタックス変換部、
     前記イントラモード変換部のうちの、
     1つ又は複数のいずれで処理させるかを決定することを特徴とする、請求項3記載のカンファレンスサーバ。
  5.  前記制御部は、カンファレンスに参加している前記クライアントの中で、前記カンファレンスサーバから出力される動画像データの符号化パラメータに対応していないクライアントが存在する場合、前記シンタックス変換部において、動画像のシンタックス変換を行う、ことを特徴とする、請求項3又は4記載のカンファレンスサーバ。
  6.  前記シンタックス変換部は、シンタックス変換制御部、シンタックス変換有無切替部、可変長復号器、パラメータ順序変換部、及び、可変長符号化器を備え、
     前記シンタックス変換制御部は、
     前記制御部からの符号化情報及び復号情報を参照して、前記受信部から入力されたビデオパケット内のシンタックスをどのように変換するかを判定し、前記判定結果に基づいて、前記シンタックス変換有無切替部、前記可変長復号器、前記パラメータ順序変換器、前記可変長符号化器に対して、変換制御情報を出力し、
     前記シンタックス変換有無切替部は、
     前記シンタックス変換制御部からの通知により、シンタックス変換を行う場合、入力されたビデオパケットを前記可変長復号器へ送り、シンタックス変換を行わない場合、入力されたビデオパケットを前記第1の切替部に出力し、
     前記可変長復号器は、
     前記シンタックス変換制御部から通知された前記変換制御情報にしたがって、前記ビデオパケットの可変長復号処理を行い、
     前記パラメータ順序変換部は、
     前記ビデオパケットに対する前記可変長復号器での可変長復号結果に対して、前記シンタックス変換制御部から通知された前記変換制御情報にしたがって、ビット列の並び替えを行い、
     前記可変長符号化器は、
     前記シンタックス変換制御部から通知された前記変換制御情報にしたがって、前記パラメータ順序変換部でビット列の並び替えが行われたビデオパケットの可変長符号化処理を行う、ことを特徴とする、請求項3乃至5のいずれか1項に記載のカンファレンスサーバ。
  7.  前記イントラモード変換部は、
     前記検出部から画面を切り替えるための制御情報の検出結果を受けた前記制御部より切替の指示を受信するイントラモード切替部と、
     動画像データをデコードしフレームデータを出力するデコード部と、
     フレームデータをイントラモードで符号化するエンコード部と、
     を備え、
     前記イントラモード切替部は、
     前記制御部から切替の指示を受けると、前記デコード部から入力されたフレームのうち最新のフレームのデータを、前記エンコード部に入力し、
     前記エンコード部は、
     前記イントラモード切替部から入力された前記フレームデータをイントラモードで符号化した符号化データを前記イントラモード切替部に戻し、
     前記イントラモード切替部は、
     前記受信部から入力された動画像データの該当フレーム部分に対応するビットストリーム部分を、前記エンコード部からのイントラモードで符号化した前記符号化データで置き換えて、前記第1の切替部に送信し、前記置き換えの後は、前記受信部から入力された動画像データを、そのまま前記第1の切替部に送信する、ことを特徴とする、請求項3乃至6のいずれか1項に記載のカンファレンスサーバ。
  8.  前記イントラモード変換部は、
     前記イントラモード切替部が前記制御部から切替の指示を受信した際に、前記最新のフレームがイントラモードで符号化されたデータであれば、前記エンコード部に前記フレームのデータを入力せず、前記受信部から入力された動画像データをそのまま前記第1の切替部に出力する、ことを特徴とする、請求項3乃至7のいずれか1項に記載のカンファレンスサーバ。
  9.  前記画面合成部は、デコード部、合成部、及び、エンコード部を備え、
     前記受信部から入力された複数の動画像データは、前記デコード部に入力され、
     前記デコード部でデコードされたフレームデータは、前記合成部に入力され、1フレームごとに縮小合成が行われ、
     前記合成部で合成されたフレームは前記エンコード部に入力されて符号化され、
     前記エンコード部で符号化された動画像データが前記画面合成部の出力として前記第1の切替部に出力される、ことを特徴とする、請求項3乃至8のいずれか1項に記載のカンファレンスサーバ。
  10.  複数のクライアントと、請求項1乃至9のいずれか1項記載の前記カンファレンスサーバとを備えたビデオカンファレンスシステム。
  11.  複数のクライアントによるカンファレンスを制御するカンファレンスサーバが、
     動画像のシンタックス変換を行うシンタックス変換と、
     動画像のインターフレームをイントラフレームに変換するイントラモード変換、
     のうち少なくとも一方を行う、ことを特徴とする、カンファレンス方法。
  12.  前記シンタックス変換は、動画像の符号化パラメータを、前記クライアントの能力にあわせて変換し、
     前記イントラモード変換は、前記クライアントからの画面切替指示に対応して、前記クライアントに配信する動画像データを、イントラモード変換を行った動画像データに切り替える、ことを特徴とする、請求項11記載のカンファレンス方法。
  13.  複数のクライアントによるカンファレンスを制御するカンファレンスサーバを構成するコンピュータに、
     動画像のシンタックス変換を行うシンタックス変換処理と、
     動画像のインターフレームをイントラフレームに変換するイントラモード変換処理、
     のうち少なくとも一方を実行させるプログラム。
  14.  前記シンタックス変換処理は、動画像の符号化パラメータを、前記クライアントの能力にあわせて変換し、
     前記イントラモード変換処理は、前記クライアントからの画面切替指示に対応して、前記クライアントに配信する動画像データを、イントラモード変換を行った動画像データに切り替える、請求項13記載のプログラム。
  15.  前記クライアントから送信された、符号化された動画像データ、音声データ、制御情報の少なくとも1つを受信する受信処理と、
     送信先の前記クライアントに対して符号化された動画像データ、音声データ、制御情報の少なくとも1つを配信する送信処理と、
     前記クライアントより送信され前記受信処理で受信された、表示する画面を切り替えるための制御情報を検出する検出処理と、
     前記受信処理で受信された動画像データで使用している符号化ツールを変換する前記シンタックス変換処理と、
     前記受信処理で受信された動画像データのインターフレームをイントラフレームに変換する前記イントラモード変換処理と、
     複数の前記クライアントから送信され前記受信処理で受信された動画像の画面を受け、一つの動画像データに合成する画面合成処理と、
     複数の前記クライアントから送信され前記受信処理で受信された音声を受け、一つの音声データに合成する音声合成処理と、
     前記画面合成処理、前記シンタックス変換処理、前記イントラモード変換処理の出力から、送信先の前記クライアントに合わせて、送信する動画像データを切り替え、前記送信処理に出力する第1の切替処理と、
     前記画面合成処理、前記シンタックス変換処理、前記イントラモード変換処理、前記第1の切替処理の制御を行う制御処理と、
     を前記コンピュータに実行させる請求項13又は14に記載のプログラム。
  16.  前記制御処理は、カンファレンスに参加している前記クライアントの能力情報と制御指示に従って、前記受信処理で受信した動画像データを、
     前記画面合成処理、
     前記シンタックス変換処理、
     前記イントラモード変換処理のうちの1つ又は複数のいずれで処理させるかを決定する、請求項15記載のプログラム。
  17.  前記シンタックス変換処理は、
     シンタックス変換制御処理、シンタックス変換有無切替処理、可変長復号処理、パラメータ順序変換処理、可変長符号化処理を備え、
     前記シンタックス変換制御処理は、前記制御処理からの符号化情報及び復号情報を参照して、前記受信処理より入力されたビデオパケット内のシンタックスをどのように変換するかを判定し、前記判定結果に基づいて、前記シンタックス変換有無切替処理、前記可変長復号処理、前記パラメータ順序変換処理、前記可変長符号化処理に対して、変換制御情報を出力し、
     前記シンタックス変換有無切替処理は、前記シンタックス変換制御処理からの通知により、シンタックス変換を行う場合、入力されたビデオパケットを前記可変長復号処理へ送り、シンタックス変換を行わない場合、入力されたビデオパケットを前記第1の切替処理に出力し、
     前記可変長復号処理では、前記シンタックス変換制御処理から通知された前記変換制御情報にしたがって、前記ビデオパケットの可変長復号処理を行い、
     前記パラメータ順序変換処理は、前記ビデオパケットに対する前記可変長復号処理での可変長復号結果に対して、前記シンタックス変換制御処理から通知された前記変換制御情報にしたがって、ビット列の並び替えを行い、
     前記可変長符号化処理では、前記シンタックス変換制御部から通知された前記変換制御情報にしたがって、前記パラメータ順序変換処理でビット列の並び替えが行われたビデオパケットの可変長符号化処理を行う、請求項15又は16に記載のプログラム。
  18.  前記イントラモード変換処理は、
     前記制御部から切替の指示を受信するイントラモード切替処理と、
     動画像データをデコードしフレームデータを出力するデコード処理と、
     フレームデータをイントラモードで符号化するエンコード処理と、
     を備え、
     前記イントラモード切替処理は、前記制御処理からの切替の指示を受信した際、前記デコード部から入力されたフレームのうち最新のフレームのデータを、前記エンコード処理に入力し、
     前記エンコード処理は、前記イントラモード切替処理から入力された前記フレームデータをイントラモードで符号化した符号化データを前記イントラモード切替処理に戻し、
     前記イントラモード切替処理では、前記受信処理から入力された動画像データの該当フレーム部分に対応するビットストリーム部分を、前記エンコード処理からの、イントラモードで符号化した前記符号化データで置き換えて、前記第1の切替処理に送信し、前記置き換えの後は、前記受信処理から入力された動画像データをそのまま前記第1の切替処理に送信する、請求項15乃至17のいずれか1項に記載のプログラム。
  19.  前記イントラモード変換処理において、前記イントラモード切替処理が、前記制御処理からの切替の指示を受信した際、最新のフレームがイントラモードのデータであれば、前記エンコード処理にはフレームデータを入力せず、前記受信処理から入力された動画像データをそのまま前記第1の切替処理に出力する、ことを特徴とする、請求項15乃至18のいずれか1項に記載のプログラム。
  20.  前記画面合成処理は、デコード処理と、合成処理と、エンコード処理を備え、
     前記受信処理から入力された複数の動画像データは、前記デコード処理に入力され、
     前記デコード処理でデコードされたフレームデータは、前記合成処理に入力され、1フレームごとに縮小合成が行われ、
     合成されたフレームは前記エンコード処理に入力されて符号化され、
     前記エンコード処理で符号化された動画像データが、前記第1の切替処理に出力される、ことを特徴とする、請求項15乃至19のいずれか1項に記載のプログラム。
  21.  動画像のシンタックス変換を行うシンタックス変換部と、動画像のインターフレームをイントラフレームに変換するイントラモード変換部とのうちの少なくとも1方を備えているカンファレンスサーバに接続するクライアント装置であって、
     前記クライアントの能力を前記カンファレンスサーバに通知する、
     画面切替指示を前記カンファレンスサーバに送信する、
     の少なくとも1方を行う、クライアント装置。
  22.  カンファレンスに参加する複数のクライアントから送信された複数の動画像をデコードし、デコードした複数のフレームデータを合成し、合成したフレームを符号化した動画像を出力する画面合成部と、
     動画像で使用している符号化ツールを変換するシンタックス変換部と、
     動画像のインターフレームをイントラフレームに変換するイントラモード変換部と、
     前記カンファレンスに参加する前記クライアントからの画面制御情報、又は、前記クライアントの能力情報に従って、動画像を、前記画面合成部、前記シンタックス変換部、前記イントラモード変換部のうちの1つ又は複数のいずれで処理させて、送信先のクライアントに送信するかを決定する制御手段と、
     を備え、
     前記カンファレンスに参加するクライアントの能力情報に基づき、カンファレンスサーバから出力される動画像の符号化パラメータに対応していないクライアントに対して、前記シンタックス変換部でシンタックス変換が行われた動画像データが送信され、
     前記クライアントからの画面切替指示にしたがって、前記イントラモード変換部によって動画像の任意のフレームをイントラフレームに変換する、ことを特徴とするカンファレンスサーバ。
  23.  前記カンファレンスに参加するクライアントに対して、前記クライアントの画面サイズに応じて、複数の参加者を、一画面で表示するか、あるいは、画面を順次切り替えて表示し、画面切替時、前記イントラモード変換部によって動画像の任意のフレームをイントラフレームに変換する、ことを特徴とする請求項22記載のカンファレンスサーバ。
PCT/JP2009/065648 2008-09-08 2009-09-08 カンファレンスサーバとビデオカンファレンスシステムと方法並びプログラム WO2010027082A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-229963 2008-09-08
JP2008229963 2008-09-08

Publications (1)

Publication Number Publication Date
WO2010027082A1 true WO2010027082A1 (ja) 2010-03-11

Family

ID=41797244

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/065648 WO2010027082A1 (ja) 2008-09-08 2009-09-08 カンファレンスサーバとビデオカンファレンスシステムと方法並びプログラム

Country Status (1)

Country Link
WO (1) WO2010027082A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017505563A (ja) * 2013-12-10 2017-02-16 クアルコム,インコーポレイテッド マルチメディア会議コミュニティにおけるバランスのとれたユーザエクスペリエンスのためのシステムおよび方法
CN109739607A (zh) * 2018-12-29 2019-05-10 深圳乐信软件技术有限公司 动态图像加载方法、装置、设备及存储介质
WO2020054190A1 (ja) * 2018-09-12 2020-03-19 パナソニックIpマネジメント株式会社 変換装置、復号装置、変換方法および復号方法
US10904488B1 (en) 2020-02-20 2021-01-26 International Business Machines Corporation Generated realistic representation of video participants

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006067124A (ja) * 2004-08-25 2006-03-09 Nec Corp 画像符号化データの切り替え方法および装置、システムならびにプログラム
WO2008069160A1 (ja) * 2006-12-06 2008-06-12 Nec Corporation Pttサーバ、ptt通信システム、ptt通信方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006067124A (ja) * 2004-08-25 2006-03-09 Nec Corp 画像符号化データの切り替え方法および装置、システムならびにプログラム
WO2008069160A1 (ja) * 2006-12-06 2008-06-12 Nec Corporation Pttサーバ、ptt通信システム、ptt通信方法、及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017505563A (ja) * 2013-12-10 2017-02-16 クアルコム,インコーポレイテッド マルチメディア会議コミュニティにおけるバランスのとれたユーザエクスペリエンスのためのシステムおよび方法
WO2020054190A1 (ja) * 2018-09-12 2020-03-19 パナソニックIpマネジメント株式会社 変換装置、復号装置、変換方法および復号方法
US11490121B2 (en) 2018-09-12 2022-11-01 Panasonic Intellectual Property Management Co., Ltd. Transform device, decoding device, transforming method, and decoding method
CN109739607A (zh) * 2018-12-29 2019-05-10 深圳乐信软件技术有限公司 动态图像加载方法、装置、设备及存储介质
CN109739607B (zh) * 2018-12-29 2021-11-09 深圳乐信软件技术有限公司 动态图像加载方法、装置、设备及存储介质
US10904488B1 (en) 2020-02-20 2021-01-26 International Business Machines Corporation Generated realistic representation of video participants

Similar Documents

Publication Publication Date Title
US7653251B2 (en) Method, apparatus, system, and program for switching image coded data
US9307199B2 (en) System and method for providing error resilience, random access and rate control in scalable video communications
KR101365882B1 (ko) 멀티미디어 회의 호에 대한 시각적 구성의 관리 기법
US8442120B2 (en) System and method for thinning of scalable video coding bit-streams
US8760492B2 (en) Method and system for switching between video streams in a continuous presence conference
JP5753341B2 (ja) スケーラブルビデオ通信でエラー耐性、ランダムアクセス、およびレート制御を提供するシステムおよび方法
WO2007103889A2 (en) System and method for providing error resilience, random access and rate control in scalable video communications
JP2009540625A (ja) スケーラブルビデオコーディングビットストリームのシニングのためのシステムおよび方法
JP2009540625A6 (ja) スケーラブルビデオコーディングビットストリームのシニングのためのシステムおよび方法
JP4983917B2 (ja) 動画像配信システム、変換装置および動画像配信方法
JP2009544176A (ja) スケーラブルビデオコーデックと非スケーラブルビデオコーデックとの間でトランスコードを行うためのシステム及び方法
US20010019354A1 (en) Method and an apparatus for video mixing of bit streams
JP4888672B2 (ja) コンテンツ配信システム、変換装置及びそれらに用いるコンテンツ配信方法
WO2010027082A1 (ja) カンファレンスサーバとビデオカンファレンスシステムと方法並びプログラム
JP2013042492A (ja) 常駐表示式ビデオ会議においてビデオストリームを切替える方法およびシステム
KR20100024505A (ko) 변환 장치, 배신 시스템, 및 배신 방법
KR20100031755A (ko) 통신 단말기, 배신 시스템, 및 변환 방법
JP2008211294A (ja) 符号化装置および符号化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09811605

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 09811605

Country of ref document: EP

Kind code of ref document: A1