WO1994006246A1 - Moving picture encoder - Google Patents

Moving picture encoder Download PDF

Info

Publication number
WO1994006246A1
WO1994006246A1 PCT/JP1993/001213 JP9301213W WO9406246A1 WO 1994006246 A1 WO1994006246 A1 WO 1994006246A1 JP 9301213 W JP9301213 W JP 9301213W WO 9406246 A1 WO9406246 A1 WO 9406246A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
channel audio
estimated
circuit
sound source
Prior art date
Application number
PCT/JP1993/001213
Other languages
English (en)
French (fr)
Inventor
Osamu Okada
Shigenobu Minami
Shoichiro Yamasaki
Original Assignee
Kabushiki Kaisha Toshiba
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kabushiki Kaisha Toshiba filed Critical Kabushiki Kaisha Toshiba
Priority to US08/211,724 priority Critical patent/US5594494A/en
Priority to EP93919585A priority patent/EP0615387B1/en
Priority to DE69326751T priority patent/DE69326751T2/de
Publication of WO1994006246A1 publication Critical patent/WO1994006246A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/148Interfacing a video terminal to a particular transmission medium, e.g. ISDN
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers

Definitions

  • the present invention relates to an encoding device for encoding a video signal, and in particular, specifies a target portion of an image by a sound signal obtained together with the video signal, and assigns a code amount to the specified image region.
  • the present invention relates to a moving image encoding device that performs image encoding with an increase. Background technology
  • video and audio are transmitted using a communication line such as a telephone line, but the amount of codes that can be transmitted per channel is limited. Encode and transmit image information in order to reduce the amount of video signal data within the code amount.
  • the amount of code that can be transmitted per unit time is not sufficient, when transmitting a moving image, the amount of code per image is determined by the transmission rate to ensure natural motion.
  • encoding is performed so that the entire screen has a uniform resolution, but this has the disadvantage that the face of the other party is unclear.
  • the human sense does not pay attention to the entire screen, but tends to concentrate on the attentional part of the screen. Therefore, if the image quality of the part of interest is improved, the other parts will not matter even if the resolution is low.
  • This system shoots the caller with a TV camera, detects a moving part on the image from the video signal obtained by this, estimates the speaker's face area from the detected area, and estimates this.
  • the human face area can be displayed more clearly than the other areas.
  • an object of the present invention is to accurately estimate the position of a speaker in a video signal, and to accurately extract the region of the speaker on the screen, and thus to determine the region where the speaker appears in the screen.
  • An object of the present invention is to provide a video encoding device capable of displaying images clearly.
  • an image transmitting apparatus that encodes and transmits a video signal
  • a television camera that captures an image of a subject and generates a video signal, and collects the sound of the subject captured by the television camera
  • a plurality of microphones that output audio signals and are spaced apart from each other
  • a sound source position estimating circuit that estimates a sound source position from audio signals obtained from the plurality of microphones
  • a video signal corresponding to this image area is assigned a larger amount than other image areas so that the image area in a predetermined range has a high resolution centered on the sound source position estimated by the position estimation circuit.
  • the present invention provides a moving picture coding apparatus comprising a coding circuit for coding in (1).
  • the television camera captures an image of the subject and outputs a video signal.
  • a plurality of microphones spaced apart from each other in front of the subject pick up the sound, and the sound source localization circuit estimates the sound signals of the collected channels.
  • the position of the sound source in the subject is estimated based on the signal.
  • the coding circuit is larger than the other image areas so that the image area in a predetermined range around the sound source position estimated by the estimation circuit has a high resolution.
  • the video signal of the image area is encoded with the code amount assigned to.
  • high-resolution encoding can be performed mainly on the periphery of the sound source position on the screen, so that moving image encoding that can encode a video signal so that a speaker can be more clearly displayed can be realized.
  • the video signal is coded so that the speaker's face area has a high resolution by matching the image area within a predetermined range around the estimated sound source position with the area of the subject's face area on the screen. it can.
  • FIG. 1 is a block diagram illustrating a configuration example of an image encoding unit of a video conference system according to an embodiment of the present invention.
  • FIG. 2 is a diagram for explaining the embodiment of the present invention, and is a diagram showing a configuration of a conference room of the video conference system according to the present invention.
  • FIG. 3 is a block diagram showing a configuration of a sound source position estimating unit shown in FIG.
  • 4A and 4B are circuit diagrams showing a configuration of the sound source position estimation circuit shown in FIG.
  • FIG. 5 is a diagram for explaining an estimation method of the sound source position estimation circuit shown in FIG.
  • FIG. 6 is a diagram for explaining a method of determining a priority coding area of the image coding unit shown in FIG.
  • FIG. 7 is a block circuit diagram of the image encoding unit shown in FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • the present invention estimates a sound source position from audio signals of a plurality of channels, and encodes an image with emphasis around the estimated sound source position.
  • an image encoding device that employs an encoding method.
  • FIG. 2 shows a schematic configuration of a conference room of a video conference system having the image encoding device of the present invention. In this figure, one television camera captures three conference attendees.
  • a television camera 12 is provided in front of the desk 9 and generates an image signal by capturing images of the conference attendees A 1 to A 3 sitting side by side with the desk 9.
  • the audio signal input by the right and left microphones 11 R and 11 L and the video signal input by the TV camera 12 are converted to the image estimation code shown in Fig. 1, which is an image processing system.
  • the image data is input to the encoding unit 10 and encoded here so as to be within a predetermined code amount per screen.
  • the audio signal is also supplied to an audio signal processing system (not shown), where it is converted to a digital signal.
  • the encoded video signal is transmitted to the transmission path together with the encoded video signal, and transmitted to the other party.
  • the image estimation encoding unit 10 which is an image processing system, estimates the position of the speaker's face area in the images of the conference attendees A1 to A3 captured by the TV camera 12, and calculates the position of the estimated position.
  • the image estimation encoding unit 10 includes a sound source position estimation unit 13, a sound source position information storage unit 14, an image encoding unit 15, and an image memory 16.
  • the image memory 16 is a memory for temporarily storing image data obtained by digitally converting the video signal obtained from the TV camera 12 on a screen-by-screen basis. It has the capacity to store the image data, and sequentially updates and stores the image data.
  • the sound source position estimating unit 13 estimates the sound source position. That is, the estimating unit 13 estimates the position of the speaker from the audio signal outputs of the microphones 11R and 11L, as well as the left and right from the image data held in the image memory 16.
  • the position of the sound source on the image is estimated from the positions of the microphones 11L and 11R.
  • the sound source position information storage unit 14 stores the information of the sound source position estimated by the sound source position And information on the time at which the setting was performed. At this time, the time information is provided from the outside, or a clock circuit is provided in the image estimation coding unit 10 so as to obtain the time information.
  • the image encoding unit 15 encodes and outputs the image data held in the image memory 16 using the information of the sound source position information storage unit 14. That is, this performs encoding so as to more clearly display an area centered on the speaker's position in the video signal. For this purpose, based on the speaker position information stored in the sound source position information storage unit 14, the image coding unit 15 sets the region on the image of the speaker position as a weighted coding region. Is determined, the code amount M (i) is assigned to the video signal in the weighted coding region, and the code amount M (0) is assigned to the video signal in the other region, and the code amount is set within the allocated range. Encode the video signal in each area to fit.
  • the sound source position estimating unit 13 includes a delay circuit 31, an estimating circuit 32, a subtracting circuit 33, and a sound source position estimating circuit 34.
  • the delay circuit 31 delays the left channel audio input signal obtained by the left microphone 11 L
  • the estimating circuit 32 outputs the delayed left channel audio output from the delay circuit 31.
  • the subtraction circuit 33 receives the delayed left channel audio signal output from the delay circuit 31 and the estimated left channel audio signal output from the estimation circuit 32 as inputs, and estimates the left channel audio signal from the left channel audio signal. Is subtracted to obtain the difference signal.
  • the difference signal is fed back to the estimation circuit 32, whereby the estimation circuit 32 estimates and outputs an estimated left channel audio signal such that the difference signal becomes zero.
  • the estimating circuit 32 estimates the left channel audio signal from the right channel audio signal obtained by the right microphone phone 11 R with reference to the delayed left channel audio input signal, and estimates the impulse response sequence H (k ).
  • the sound source position estimating circuit 34 estimates the sound source position using the estimated impulse response sequence H (k) obtained by the estimating circuit 32.
  • the conference attendees are photographed by the television camera 12 and the sound is collected by the microphones 11R and 11L on the desk 9 at the same time.
  • the video signal from the television camera 12 is sent to the image encoding unit 15, and the audio signals from the microphones 11 R and 11 L are sent to the sound source position estimation unit 13.
  • the sound source position estimating unit 13 estimates the position of the sound source based on the audio signal, and the estimation result is stored in the sound source position information storage unit 14 o
  • the image coding unit 15 specifies the sound source position corresponding area on the screen in the television image using the latest sound source position information stored in the sound source position information storage unit 14, and sets the area in advance.
  • the other area is encoded with the code amount M (0), and the other area is transmitted with the code amount M (0).
  • the left channel input audio signal YL 0 ( ⁇ ) is applied to a delay circuit 31 for guaranteeing causality in the estimation circuit 32. Therefore, there is a flat delay of C ( ⁇ ).
  • the left channel input audio signal Y LO ( ⁇ ) can be expressed as the following Y L ( ⁇ ) by the transfer function FL ( ⁇ ) including the delay circuit 31.
  • the estimation circuit 32 uses the right-channel audio signal YR ( ⁇ ) and the left-channel audio signal YL ( ⁇ ), and calculates the left-channel audio signal YL ( ⁇ ) from the right-channel audio signal YR ( ⁇ ).
  • the transfer function G ( ⁇ ) for obtaining And an estimated transfer function G ⁇ ( ⁇ ) is generated from the transfer function G ( ⁇ ).
  • G ( ⁇ ) G L ( ⁇ ) / F R ( ⁇ )-(4)
  • the generation of the estimated transfer function G p ( ⁇ ) for the above transfer function G ( ⁇ ) is specifically performed as follows.
  • the estimating circuit 32 first calculates an estimated left channel audio signal y ⁇ ( ⁇ ) in the time domain using the audio signal YR ( ⁇ ) of the right channel.
  • the estimating circuit 32 includes an adaptive transversal filter 32a for calculating an estimated left-channel audio signal yp (k) in the time domain as shown in Fig. 4 ⁇ , and a transfer function G ( ⁇ ) as shown in Fig. 4B.
  • a correction circuit 32b for sequentially updating the estimated impulse response sequence Hp (k).
  • the adaptive transversal filter 32a and the correction circuit 32b operate in synchronization with a system clock provided from a clock source (not shown).
  • the adaptive transversal filter 32a sequentially sends the input audio signal YR ( ⁇ ) and converts the right channel audio signal X (k) or X (k-n + 1) into a value for each time component.
  • And the estimated impulse response hp 1 (k) or hpn (k) for each time component corrected by the correction circuit 32b, and the right channel obtained through the shift register 4 11 or 4 1 ⁇ -1.
  • Multipliers 42 j to 42 n that perform multiplication for each component with channel audio signals X (k) to X (k ⁇ n ⁇ 1), and the sum ( ⁇ ) of the multiplication results is obtained to estimate left channel audio
  • the correction circuit 32b calculates the estimated impulse response sequence hp1 (k) or hpn (k) by performing the operation of the expression (10) described later, and divides the estimated impulse response sequence for each time component into an adaptive transversal filter.
  • 3 2a is given to the corresponding multiplier 4 2 i or 4 2 n .
  • the multipliers 4 2 1 to 4 2 D are the right channel audio signals X (k) or X (k) obtained via the estimated impulse response sequences hp 1 (k) or hpn (k) and the shift registers or li. k-n + 1) for each component to obtain the estimated left channel audio signal for each time component.
  • the estimated left channel audio signal yp (k) is obtained by the adder 43 adding the estimated left channel audio signal for each time component.
  • first right channel audio signals X (k) is to shift register 4 to the n stages have a delay time of one sample time period per one stage is input to the 4 1 n. Equation ( A time series vector as shown in 5) is generated.
  • H p (k) (h p l (k), h p 2 (k),
  • an estimated left channel audio signal yp (k) which is an estimated value of the left channel audio signal y (k), can be obtained.
  • the estimation of the estimated impulse response sequence Hp (k) in the estimation circuit 32 is performed by the input / output of n-stage shift registers 4 to 4 1 waive ⁇ in the adaptive transversal filter 32 a. This is achieved by sequentially performing, for example, the following operation by the correction circuit 32b using the time series vectors X (k) to X (k-n + 1) obtained as forces.
  • H p (k + 1) H p (k) + a * e (k) X (k) / II X (k) II 2
  • Equation (10) e (k) is the output of the subtraction circuit 33 in FIG. 3, and this output e (k) is given by the following equation assuming that the estimated left channel audio signal is yp (k).
  • E (k) y (k) -yp (k)-(11), which has the relationship of the expression (1 1) .
  • the output e (k) of the subtraction circuit 33 becomes the left channel audio signal y ( This is the difference signal from the estimated left channel audio signal yp (k) for k).
  • is a coefficient that determines the convergence speed and stability of Equation (10), and the distances from the sound source 51 to the left and right microphons 11L and 11R are calculated. Indicates the difference.
  • the image estimation encoding unit 10 examines the left and right positions of the microphones 11 L and 11 R from the image data held in the image memory 16, obtains the distance difference ⁇ , and calculates By using the output e (k) of (3), the correction circuit 32b can calculate the estimated impulse response sequence Hp (k) by performing the operation of the expression (10).
  • the sound source position is estimated by the sound source position estimating circuit 34 from the estimated impulse response sequence H p (k) obtained by the above processing. This estimation is performed as follows.
  • Mx be the term that takes the maximum value among the coefficients of the estimated impulse response sequence Hp (k).
  • T the sampling period
  • V the sound speed
  • n the number of taps
  • ⁇ ⁇ ⁇ ( ⁇ - ⁇ / 2)-(1 2)
  • the left and right microphones 11 and 11R are connected by a straight line 52, and a straight line 53 parallel to this straight line 52 is assumed. It is assumed that the right and left microphones 11 L and 11 R are on a straight line 53 that is a fixed distance away. At this time, the distance from the intersection of the line 54 perpendicular to the straight line 52 and the straight line 53 to the sound source 51 passes through the center point Po of the left and right microphones 11 L and 11 R on the straight line 52.
  • the image encoding unit 15 When the data of the sound source position Pa estimated as described above is input to the image encoding unit 15 via the sound source position information storage unit 14, the image region centered on the sound source position is regarded as a weighted coding region.
  • the image data corresponding to the area is encoded with a larger encoding amount than the image data of the other areas. This encoding will be described in detail.
  • the image memory 16 stores image data of one frame, for example, one block is divided into 44 ⁇ 36 blocks as 8 pixels ⁇ 8 lines.
  • This image The image data stored in the memory 16 is sequentially sent to the image encoding unit 15 in block units.
  • the image encoding unit 15 is connected to the orthogonal transform (DCT) circuit 71 connected to the readout terminal of the image memory 16 and the output terminal of the DCT circuit 71 as shown in FIG. It comprises a quantization circuit 72, a variable length coding circuit 73 connected to the output terminal of the quantization circuit 72, and a quantization step size determination circuit 74 connected to the control terminal of the quantization circuit 72.
  • DCT orthogonal transform
  • the image coding unit 15 further includes a marker recognition circuit 75 and a weighted coding area determination circuit 76.
  • the marker recognition circuit 75 recognizes two markers 61 a and 61 b provided in correspondence with the positions of the left and right microphones 11 L and 11 R from the image data read from the image memory 16. Recognize and find the distance 2 d 'between the microphones 11 L and 11 R on the screen. The marker is input to the device by the operator when the microphone is placed in the conference room.
  • the obtained information of the distance 2 d ′ is input to the weighted coding region determination circuit 76, and this circuit 76 receives the distance (2 d ′) information and the sound source position information storage unit 14.
  • the distance a 'from the center of the distance 2 d * to the position 62 of the speaker from the read sound source position information is calculated by the following equation (14).
  • the weighted coding area determination circuit 76 determines the area 63 having a width 2w 'set in advance around the speaker position 62 as the weighted coding area. .
  • the step size determination circuit 74 determines the step size for coding the image data in the weighted coding area with a larger code amount than the image data in other areas.
  • the quantization circuit 72 reads out the image memory 16 and outputs the image data orthogonally transformed by the DCT circuit 71. Is quantized by the determined step size, that is, by the code amount.
  • the image data corresponding to the weighted coding area 63 is quantized by the step size determined when input to the quantization circuit 72, but the image data of the other areas is Quantization is performed with a step size that is coarser than the step size for the image data.
  • the quantized image data is subjected to variable-length encoding by a variable-length encoding circuit 73, and is output as encoded image data.
  • the image data encoded as described above is sent to the receiving side and displayed on the receiving monitor, the image of the speaker is displayed at a higher resolution than other images.
  • time information may be stored as follows.
  • the sound source position estimating unit 13 estimates the sound source position Pa in the sound source position estimating circuit 34 based on the term having the maximum value among the coefficients of the estimated impulse response sequence H p (k).
  • the information on the sound source position Pa estimated by the sound source position estimating unit 13 and the time when the estimation is performed are stored in the sound source position information storing unit 14 under the control of a control device (not shown). At this time, only t time Past sound source position P a (t) power If the latest sound source position Pa is within a fixed width w to the left and right from the latest sound source position Pa, the stored information of the past sound source position Pa (t) is stored from the sound source position information storage unit 14.
  • the storage unit 14 is controlled by the control device so as to erase the data.
  • the sound source position information storage unit 14 stores the information of the current utterance position of the speaker and the information of the last utterance position of the person (N persons) who has made the past in the following manner.
  • T (i) is the time elapsed since speaker i last spoken
  • L (i) is This data indicates the position where speaker i last spoke.
  • T (1) is the time at the time when the above-mentioned arithmetic processing is performed by the voice sampling of the current speaker
  • L (1) is data indicating the position where the current speaker speaks.
  • the image encoding unit 15 encodes an image as described above, based on the information of the latest speaker position L (1) stored in the sound source position information storage unit 14.
  • the code amount of the entire screen is M
  • the width of the entire screen is WL
  • the importance of the speaker i's weighted coding area is R (i)
  • the weight of the area other than the weighted coding area is R (0).
  • the importance levels R (i) and R (0) can be set freely, but more recently If you give high importance to the person who spoke to,
  • ... (16) can be set.
  • the code amount M (i) of the weighted coding region of the latest speaker (the image region of the latest speaker) and the code amount M (0) of the region other than the weighted coding region are
  • WL (0) ⁇ ⁇ (WL- ⁇ ⁇ w ') R (0) / R ⁇ ⁇ ⁇ ⁇ ⁇ Where R ⁇ is
  • the audio signals of multiple channels picked up by multiple microphones arranged at different positions, the microphone opening phone and the microphone opening phone position on the video screen including the speaker By estimating the sound source position from the speaker, the image area of the speaker on the video screen can be accurately extracted, and coding is performed by assigning a larger amount of code to the image area of the speaker. By doing so, it is possible to obtain a moving picture coding method capable of clearly displaying the image area of the speaker.
  • the present invention is not limited to the above-described embodiment, and may be implemented by appropriately modifying the gist thereof without changing the gist.
  • the estimation circuit of the sound source position estimating unit 13 in the above-described embodiment In 32 an adaptive transversal filter in the time domain is used, but other circuit configurations such as an adaptive transversal filter in the frequency domain may be used.
  • the learning identification method has been described as an example of the estimation algorithm, other learning algorithms such as the steepest descent method can be used.
  • the sound source position estimating circuit 34 estimates the sound source position based on the term having the maximum value among the coefficients of the estimated impulse response sequence H p (k), but other methods may be used. good.
  • the method of determining the weighted coding area in the image coding unit 15 is not limited to the above-described method, and another method such as detecting a face area in the weighted coding area 63 may be used. Also, regarding the method of setting the importance in the image coding unit 15, the method of setting the importance according to the time of speaking up to the present time and the time of the last speaking and the time of speaking up to the present are described. Other methods such as a method of setting the importance in consideration of both may be used.
  • the subject is almost fixed at a fixed position, and the television screen maintains the same viewing angle with respect to the subject, so that the position of the subject on the screen does not change unless the subject itself moves. From the importance setting in the image coding unit 15.
  • VIP can always perform high-definition coding.
  • the coding method of the image coding unit 15 in the above-described embodiment, a method of giving a large amount of code to the weighted coding area 63 for each frame and performing fine coding has been described.
  • the resolution is changed by weighting according to the rank of the utterance, for example, the resolution is higher for the latest speaker, and lower for the older speaker. Is also good.
  • two channels are used for voice input, but three or more channels may be used.
  • two-dimensional estimation of the sound source position is possible by giving a vertical difference to the arrangement of the microphones.In this case, it is possible to estimate one point on the screen as the sound source. Thus, it is possible to estimate the sound source position with higher accuracy.
  • the sound is converted from the audio signal of the plurality of channels.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Closed-Circuit Television Systems (AREA)

Description

明 細 書 動 画 像 符 号 化 装 置 技 術 分 野
この発明は、 映像信号を符号化するための符号化装置に係 わり、 特に画像の注目部分を、 映像信号とともに得られる音 声信号により特定し、 その特定した画像領域については割り 当て符号量を増大して画像符号化を行う動画像符号化装置に 関する。 背 景 技 術
近年、 通信技術の進歩に伴い、 離れた場所にいながら会議 のできる遠隔会議システム (テレビ会議システム) や、 個人 でも利用できるテレビ電話システムなどが実用に供されるよ うになつている。
このようなシステムにおいては、 電話回線等の通信回線を 使用して映像と音声を伝送するが、 そのためにチャネル当た りの伝送可能な符号量が制限されるために、 この制限される 上限の符号量以内に映像信号のデータ量を抑えるべく、 符号 化して画像情報を伝送する。
単位時間当たりの伝送可能な符号量は十分なものではない から、 動画像を伝送する場合には、 自然な動きを確保するた めに 1 コマ当たりの画像の符号量は伝送レー 卜で決まってし まう。 一般的には、 画面全体が均一の解像度になるように符号化 を行うが、 そのために、 相手の顔が不鮮明であったりする弊 害がある。 通常、 人間の感覚では画面全体に注意が行き届く わけではなく、 画面中の注目部分に神経が集中する傾向があ る。 従って、 注目部分の画質を向上させれば、 他の部分は多 少解像度が悪く とも気にならない。
このような観点から、 主観的な画質を向上させることを目 的と して、 より重要な情報源である人物の顔領域を他の領域 より も鲜明に表示する符号化方式の検討が行われており、 そ の中にフ レーム間差分画像を用いた手法 (文献 「上野他、
"カラ一動画 T V電話における顔領域検出方式の一検討" , 1 9 8 9年電子情報通信学会春期全国大会 D - 9 2 J ) 等が提案され ている。
このシステムは、 テレ ビカメ ラで通話者を撮影し、 これに より得られた映像信号から、 画像上の動きのある部分を検出 し、 検出した領域から発言者の顔領域を推定し、 この推定し た顔領域について符号量を多めに割り当て、 他の領域には割 り当て符号量を少なくする符号化処理を施すことにより、 人 物の顔領域を他の領域より も鮮明に表示できるようにしてい る
このような動画 T V電話における顔領域検出方式を会議シ ステムに応用する場合に、 人物以外に動きのあるものが写つ てしまったり、 あるいは複数の人物が写っていて、 それぞれ の表情に動きがあるような場合などでは発言者の顔領域の推 定が困難になってしまう。 このように、 複数の人物が写っていたり、 人物以外に動き のあるものが写っている場合に、 動画像の顔領域を検出する 方式で最も重要である発言者の顔領域のみを抽出することが できないと云う欠点がある。
そこで、 この発明の目的は、 映像信号中の発言者の位置を 精度良く推定することができて、 画面中の発言者の領域を適 確に抽出でき、 従って、 発言者の写っている領域を鮮明に表 示することができる動画像符号化装置を提供することにある, 発 明 の 開 示
この発明によると、 映像信号を符号化して伝送する画像伝 送装置において、 被写体を撮像し、 映像信号を発生するテレ ビカメ ラと、 このテレビカメ ラにより撮像される被写体の音 声を収音し、 音声信号を出力し、 互いに離間して配置された 複数のマイ ク ロフォ ンと、 これら複数のマイ ク ロフ ォ ンから 得られた音声信号から音源位置を推定する音源位置推定回路 と、 この音源位置推定回路により推定された音源位置を中心 に所定の範囲の画像領域を高い解像度となるようにこの画像 領域に対応する映像信号を、 他の画像領域より多めに割り当 てた符号量(c o d e d b i t r a t e )で符号化する符号化回路とより 構成される動画像符号化装置が提供される。
上記構成の動画像符号化装置によると、 テレビカメ ラが被 写体を撮像し、 映像信号を出力する。 一方、 被写体の前に互 いに離間して配置された複数のマイ ク ロフォ ンが音声を収音 し、 音源位置推定回路は収音した複数チャ ンネル分の音声信 号に基づいて被写体中の音源位置を推定する。 符号化回路は テレビカメラから出力される映像信号を符号化するに当たり、 推定回路により推定された音源位置を中心に所定の範囲の画 像領域が高い解像度となるように他の画像領域より も多めに 割り当てた符号量で当該画像領域の映像信号が符号化される。
この結果、 画面の音源位置周辺を重点的に高解像度で符号 化することができるので、 発言者をより鮮明に映し出される ように映像信号を符号化できる動画像符号化が実現できる。 特に、 推定された音源位置を中心に所定の範囲の画像領域を 画面中の被写体顔領域の範囲に合わせておく ことにより、 発 言者の顔領域が高い解像度となるように映像信号を符号化で きる。 図 面 の 簡 単 な 説 明
図 1 は、 本発明の一実施例に係わるテレビ会議システムの 画像符号化部の構成例を示すプロッ ク図。
図 2は、 本発明の実施例を説明するための図であって、 本 発明に係わるテレビ会議システムの会議室の構成を示す図。 図 3は、 図 1 に示す音源位置推定部の構成を示すブロッ ク 図。
図 4 Aおよび図 Bは、 図 3に示す音源位置推定回路の構成 を示す回路図。
図 5は、 図 3に示す音源位置推定回路の推定方法を説明す るための図。 図 6は、 図 1に示す画像符号化部の重点符号化領域の決定 方法を説明するための図。
図 7は、 図 1 に示す画像符号化部のブロッ ク回路図。 発明を実施するための最良の態様 以下、 この発明の一実施例について図面を参照しながら説 明する。 この発明は、 複数チャ ンネルの音声信号から音源位 置を推定し、 この推定した音源位置周辺を重点的に画像を符 号化することにより、 発言者をより鮮明なるように符号化す る動画像符号化方式を採用した画像符号化装置を提供する。 図 2は、 この発明の画像符号化装置を有するテレビ会議シ ステムの会議室の概略構成を示しており、 この図では、 1台 のテレビカメ ラが 3名の会議出席者を捉えている。
図 2に示すように、 会議出席者 A 1ないし A 3が座ってい る机 9上には、 出席者の音声を取り込むように左右に一定 の間隔で 2個のマイ ク ロフ ォ ン (感音手段) 1 1 Rおよび 1 1 Lが置かれている。 また、 机 9の前方には、 テレビカメ ラ 1 2が設けられ、 机 9に並んで座っている会議出席者 A 1 ないし A 3の像を捉えて映像信号を発生する。
右用および左用のマイ ク ロフ ォ ン 1 1 Rおよび 1 1 Lに よって入力された音声信号およびテレビカメラ 1 2によって 入力された映像信号は、 画像処理系である図 1 に示す画像推 定符号化部 1 0に入力され、 こ こで 1画面当たり所定の符号 量に収まるように符号化される。 なお、 音声信号は図示しな い音声信号処理系にも与えられ、 こ こでディ ジタル信号に変 換され、 符号化された映像信号と共に伝送路へと送り出され、 相手側に伝送される。
画像処理系である画像推定符号化部 1 0は、 テレビカメ ラ 1 2が捉えた会議出席者 A 1ないし A 3の像のうち、 発言者 の顔領域の位置を推定してこの推定位置の領域の映像信号を 他の領域の映像信号より多めに割り当てた符号量 M ( i ) で 符号化し、 他の領域をその残りの符号量 M (0) で符号化す る。 すなわち、 1画面当たりの総符号量 M (total) は決めら れており、 この決められた符号量を推定位置の領域に割り当 てる符号量 (M ( i ) ) と、 その他の領域に割り当てる符号 量 (M (0) ) とに配分される。 即ち、 M (total) = M ( i ) + M ( 0 ) となる。
この画像推定符号化部 1 0は図 1に示すように、 音源位置 推定部 1 3と音源位置情報記憶部 14と画像符号化部 1 5お よび画像メモ リ 1 6とからなる。 画像メモリ 1 6はテレビ力 メ ラ 1 2から得られる映像信号をディ ジタル変換して得た画 像データを、 画面単位で一時保持するメモ リであり、 画像を 扱うために複数枚分の画像を記憶する容量を有し、 画像デー タを逐次更新記憶する。 音源位置推定部 1 3は音源位置を推 定する。 即ち、 この推定部 1 3は発言者の位置をマイ ク ロ フォ ン 1 1 Rおよび 1 1 Lの音声信号出力から推定すると共 に、 画像メ モ リ 1 6に保持された画像データから左右のマイ クロフオ ン 1 1 Lおよび 1 1 R位置から画像上の音源位置、 すなわち、 発言者領域を推定する。 音源位置情報記憶部 14 は音源位置推定部 1 3にて推定された音源位置の情報と、 推 定を行った時刻の情報とを記憶する。 このとき、 時刻情報は 外部から与えるか、 若しく は画像推定符号化部 1 0に時計回 路を設けてこれより得るようにする。
画像符号化部 1 5は音源位置情報記憶部 1 4の情報を用い て画像メモリ 1 6に保持された画像データを符号化して出力 する。 即ち、 これは、 映像信号のうち、 発言者位置を中心と した領域をより鮮明に表示するような符号化を行う。 そのた めに、 画像符号化部 1 5は、 音源位置情報記憶部 1 4に記憶 された発言者位置情報をもとに、 その発言者位置の画像上の 領域を重点符号化領域と して決定し、 この重点符号化領域の 映像信号に対して符号量 M ( i ) を割り当て、 他の領域の映 像信号に対して符号量 M ( 0 ) を割り当てて、 その割り当て られた範囲内に収まるように、 それぞれの領域の映像信号を 符号化する。
音源位置推定部 1 3は図 3に示すように、 遅延回路 3 1、 推定回路 3 2、 減算回路 3 3および音源位置推定回路 3 4 と から構成されている。 これらのうち、 遅延回路 3 1 は左マイ ク ロフオ ン 1 1 Lで得た左チャ ンネルの音声入力信号を遅延 し、 推定回路 3 2 はこの遅延回路 3 1 から出力する遅延左 チヤ ンネルの音声入力信号と右マイ ク ロフォ ン 1 1 Rで得た 右チヤ ンネル音声信号とから左チヤ ンネル音声信号を推定す る。 減算回路 3 3は遅延回路 3 1から出力する遅延左チャ ン ネル音声信号と推定回路 3 2から出力する推定左チヤ ンネル 音声信号を入力と し、 左チャ ンネル音声信号から推定左チヤ ンネル音声信号を差し引いてその差信号を得る回路である。 この差信号が推定回路 3 2にフィ ー ドバッ クされることによ り、 推定回路 3 2は当該差信号が零になるような推定左チヤ ンネル音声信号を推定して出力し、 それにより、 推定回路 3 2は遅延左チヤ ンネルの音声入力信号を参照して右マイ ク 口フォ ン 1 1 Rで得た右チャ ンネル音声信号から左チヤ ンネ ル音声信号を推定イ ンパルス応答系列 H ( k ) と して推定で きるこ とになる。 音源位置推定回路 3 4は推定回路 3 2の求 めた推定イ ンパルス応答系列 H ( k ) を用いて音源位置を推 定する。
上記のような構成において、 テレビカメ ラ 1 2により会議 出席者を撮影し、 同時に机 9上のマイ ク ロフォ ン 1 1 Rおよ び 1 1 Lにより音声を収音する。 テレビカメ ラ 1 2からの映 像信号は画像符号化部 1 5に送られ、 マイ ク ロフォ ン 1 1 R および 1 1 Lからの音声信号は音源位置推定部 1 3に送られ る。 音源位置推定部 1 3はこの音声信号をもとに、 音源の位 置を推定し、 推定結果は音源位置情報記億部 1 4に記憶され る o
画像符号化部 1 5はこの音源位置情報記憶部 1 4に記憶さ れている最新の音源位置情報を利用してテレビ画像における 画面上の音源位置対応領域を特定し、 その領域を予め設定し た符号量 M ( i ) で、 また、 その他の領域は符号量 M ( 0 ) で符号化し、 伝送する。 これにより、 テレビ会議に出席して いる人のうち、 発言者が受信側のモニタ (図示せず) に高解 像度で表示できる。
発言者の特定についてもう少し具体的に説明する。 図 3において、 発言者 A 1が発した音声を X (ω ) とする と、 この音声 X ( ω ) はマイ ク ロフ ォ ン 1 1 Rおよび 1 1 L に収音される。 いま、 この音声 X ( ω ) を発することにより 右側のマイ ク ロフ ォ ン 1 1 Rの入力音声信号を Y R ( ω ) およ び左側のマ イ ク ロ フ ォ ン 1 1 L の入力音声信号を Y L O ( ω ) とすると、 これら入力音声信号 Y R ( ω) およ び Y L O ( ω ) は発生源からマイ ク ロフ ォ ンまでの音声の伝 播遅延並びに室内の音声特性で決まる伝達関数 F R ( ω ) お よび G L ( ω ) により以下のように表わされる。 ただし、 ω は角周波数である。
Y R ( ω ) = F R ( ω ) X ( ω) … ( 1 )
Y L O ( ω ) = G L ( ω ) X ( ω ) - ( 2 ) さ らに、 左チャ ンネル入力音声信号 Y L 0 ( ω ) は、 推定 回路 3 2における因果律を保証するための遅延回路 3 1によ つて C ( ω) なるフラッ トな遅延を受ける。 これによつて左 チャ ンネル入力音声信号 Y L O ( ω) は、 遅延回路 3 1 まで 含めた伝達関数 F L ( ω ) により以下の Y L ( ω ) のように 表わすことができる。
Y L ( ω ) = C ( ω ) G L ( ω ) X ( ω )
= F L ( ω ) X ( ω) - ( 3 ) この左チャ ンネル入力音声信号 Υ L ( ω ) は、 減算回路 3 3 に入力される。 推定回路 3 2 は、 右チャ ンネルの音声 信号 Y R ( ω ) および左チャ ンネルの音声信号 Y L ( ω) を 用い、 右チャ ンネル音声信号 Y R ( ω ) より左チャ ンネル音 声信号 Y L ( ω ) を得るための伝達関数 G ( ω ) を次式 (4 ) に基づき推定し、 この伝達関数 G (ω) から推定伝達関数 G ρ (ω) を生成する。
G (ω) = G L (ω) / F R (ω) - (4) 上記伝達関数 G (ω) に対する推定伝達関数 G p (ω) の 生成は、 具体的には次のようにして行う。
推定回路 32は、 まず右チャ ンネルの音声信号 YR (ω) を用いて時間領域の推定左チャ ンネル音声信号 y Ρ (ω) を 算出する。 推定回路 32は、 図 4 Αに示すような時間領域の 推定左チャ ンネル音声信号 y p ( k ) を算出する適応トラン スバーサルフィ ルタ 32 aと、 図 4 Bに示すような伝達関数 G (ω) の推定イ ンパルス応答系列 H p ( k ) を逐次更新す る修正回路 3 2 b とによ り構成されている。 適応 トラ ンス バーサルフィ ルタ 32 aと修正回路 32 bは図示しないクロ ッ ク発生源から与えられるシステムクロッ クに同期して動作 する。 適応トラ ンスバーサルフィ ルタ 32 aは、 入力音声信 号 YR (ω) を順次送って右チャ ンネル音声信号 X ( k ) な いし X ( k - n + 1 ) を各時間成分毎の値に変換する nタ ツ プのシフ ト レジスタ 4 ないし 4 1。^ と、 修正回路 32 bで修正された各時間成分毎の推定ィ ンパルス応答 h p 1 ( k ) ないし h p n ( k ) と上記シフ ト レジスタ 4 11 ない し 4 1 π-1 を経て得られる右チャ ンネル音声信号 X ( k ) ないし X ( k - n - 1 ) との各成分毎の乗算を行う乗算器 42 j ないし 42 n と、 この乗算結果の総和 (∑ ) を求めて 推定左チャ ンネル音声入力信号 y p (k) を得る加算器 43 とより構成されている。 すなわち、 修正回路 3 2 bは後述する ( 1 0 ) 式の演算を 行って推定イ ンパルス応答系列 h p 1 ( k ) ないし h p n ( k ) を求め、 それらを時間成分別に分けて適応トラ ンス バーサルフィ ルタ 3 2 aの対応する乗算器 4 2 i な い し 4 2 n に与える。 乗算器 4 21 ないし 4 2 D は推定ィ ンパル ス応答系列 h p 1 ( k ) ないし h p n ( k ) とシフ ト レジス タ ないし l i を経て得られる右チヤ ンネル音声信 号 X ( k ) ないし X ( k - n + 1 ) とを各成分毎に乗算し、 時間成分別の推定左チヤ ンネル音声信号を得る。 これら時間 成分別推定左チヤ ンネル音声信号を加算器 4 3が加算するこ とによって推定左チャ ンネル音声信号 y p ( k ) を求める。
このような推定回路 3 2において、 まず右チャ ンネル音声 信号 X ( k ) は一段当たり 1サンプル時間分の遅延時間を有 する n段のシフ ト レジスタ 4 ないし 4 1 n に入力され. 次式 ( 5 ) に示すような時系列べク トルが生成される。
X ( k ) = ( X ( k ) , x ( k - 1 ) ,
···, χ ( k - η + 1 )) Τ … ( 5 ) 但し、 ( ) Τ は転置べク トルを示す。
—方、 推定伝達関数 G p (ω) に時間領域において近似し た推定ィ ンパルス応答系列 H p ( k ) を次式 ( 6 ) により表 すと、
H p ( k ) = ( h p l ( k ) , h p 2 ( k ) ,
···, h p n ( k)) 1 … ( 6 ) 次式 ( 7 ) により左チャ ンネル音声信号 y ( k ) の推定値で ある推定左チャ ンネル音声信号 y p ( k ) を得ることができ る
y p ( k ) = H p ( k ) T . X ( k ) - ( 7 ) このとき、 伝達関数 G (ω) のイ ンパルス応答系列 Ηが次式 ( 8) により表されると (但し、 ηは任意の整数) 、 伝達関 数の推定が良好に行われることになる。
H = ( h i , h 2 , h n ) 1 - ( 8) 従って、 推定イ ンパルス応答系列 H p ( k ) が
H p ( k ) = H ··· ( 9 ) となったときに、 推定左チヤ ンネル音声信号 y p ( k ) が実 際の左チャ ンネル音声信号 y ( k ) にかなり近似する。
従って、 ( 9 ) 式の関係が得られる伝達関数 G (ω) にな るような推定伝達関数 G p (ω) を探せば良いわけであり、 それには推定伝達関数 G p (ω) が伝達関数 G (ω) になる ような推定イ ンパルス応答系列 H p ( k ) を推定できれば良 いことになる。
こ こで、 推定回路 3 2における推定ィ ンパルス応答系列 H p ( k ) の推定は、 適応トラ ンスバーサルフィ ルタ 3 2 a に おいて、 n段のシフ ト レジスタ 4 ないし 4 1 „ { の入出 力として得られる時系列べク トル X ( k ) ないし X ( k - n + 1 ) を用いて、 修正回路 3 2 bにより逐次的に例えば、 以 下の演算を行う こ とにより達成される。
H p ( k + 1 ) = H p ( k ) + a * e ( k ) · X ( k ) / II X (k) II 2
ただし、 H p ( 0 ) = 0
このアルゴリ ズムは、 公知の学習同定法である。 なお、 ( 1 0 ) 式において、 e ( k ) は、 図 3の減算回路 3 3の出 力であり、 この出力 e ( k ) は推定左チャ ンネル音声信号を y p ( k ) とすると、 つぎの ( 1 1 ) 式の関係を有している e ( k ) = y ( k ) - y p ( k ) - ( 1 1 ) 従って、 減算回路 3 3の出力 e ( k ) は左チャ ンネル音声 信号 y (k ) に対する推定左チャ ンネル音声信号 y p (k ) との差信号と云う ことになる。 また、 ( 1 0 ) 式において、 αは ( 1 0 ) 式の収束速度および安定性を決定する係数とな り、 音源 5 1から左右のマイ クロフオ ン 1 1 Lおよび 1 1 R 位置までの距離差を表す。
従って、 画像推定符号化部 1 0では、 画像メモリ 1 6に保 持された画像データから左右のマイ クロフォ ン 1 1 Lおよび 1 1 R位置を調べ、 距離差 αを求め、 これと減算回路 3 3の 出力 e ( k ) を利用して修正回路 3 2 bは ( 1 0 ) 式の演算 を行う ことにより、 推定イ ンパルス応答系列 H p ( k ) の推 定を行う ことができる。
以上の処理により求められた推定ィ ンパルス応答系列 H p ( k ) から、 音源位置推定回路 34により音源位置が推定さ れる。 この推定はつぎのようにして行う。
推定イ ンパルス応答系列 H p (k ) の係数のうち、 最大値 をとる項を Mx とする。 このとき、 サンプリ ング周期を T (sec)、 音速を V (m/sec)、 タップ数を n とすると、 音源か ら左右のマイ ク ロフオ ン 1 1 Lおよび 1 1 R位置までの距離 差 αは次式 ( 1 2 ) により推定できる。
α = ν · Τ (Μχ - Ν/ 2 ) - ( 1 2 ) こ こで、 図 5に示すように、 左右のマイ ク ロフォ ン 1 1 お よび 1 1 Rを直線 5 2で結び、 この直線 52に平行な直線 5 3を想定し、 音源 5 1の位置が左右のマイ ク ロフ ォ ン 1 1 Lおよび 1 1 Rから一定距離離れた直線 53上に存在す ると仮定する。 このとき、 直線 52における左右のマイ クロ フ ォ ン 1 1 Lおよび 1 1 Rの中心点位置 P oを通り、 直線 52に垂直な線 54と直線 53との交点から音源 5 1までの 距離を a、 右マイ ク ロフォ ン 1 1 Rから音源 5 1までの直線 距離を b、 音源 5 1を通る直線 53とマイ ク ロフォ ン 1 1 L および 1 1 Rを通る直線 52との間の垂線の長さを c , マイ ク ロフオ ン 1 1 Lおよび 1 1 R間の距離を 2 dとすると、 次 の連立方程式が成り立つ。
( b + a ) 2 = ( d + a ) 2 + c 2
b 2 = ( d - a ) 2 + c 2 - ( 1 3) この連立方程式から bを消去して aを解く こ とにより、 音 源位置 P aを推定するこ とができる。
上記のように推定された音源位置 P aのデータが音源位置 情報記憶部 14を介して画像符号化部 1 5に入力されると、 音源位置を中心とする画像領域が重点符号化領域としてこの 領域に対応する画像データが他の領域の画像データより も多 い符号化量で符号化される。 この符号化について詳しく説明 する。
画像メモリ 1 6には、 図 6に示されるように 1フ レームの 画像データが、 例えば、 1ブロッ クを 8画素 X 8ライ ンと し て 44 x 36ブロッ クに分けて記憶されている。 この画像メ モ リ 1 6に記憶された画像データはブロッ ク単位で順次に画 像符号化部 1 5に送られる。 画像符号化部 1 5は、 図 7に示 されるように画像メ モリ 1 6の読み出し端子に接続される直 交変換 (D C T) 回路 7 1 と、 D C T回路 7 1の出力端子に 接続される量子化回路 72と、 量子化回路 72の出力端子に 接続される可変長符号化回路 73と、 量子化回路 7 2の制御 端子に接続される量子化ステツプサイズ決定回路 74とによ り構成される。 この画像符号化部 1 5には、 更にマーカ認識 回路 7 5および重点符号化領域決定回路 76が含まれている。 マーカ認識回路 75は画像メ モリ 1 6から読み出された画像 データから左右マイ ク ロフォ ン 1 1 Lおよび 1 1 Rの位置に 対応付けて設けられた 2つのマーカ 6 1 aおよび 6 1 bを認 識し、 画面上でのマイ クロフオ ン 1 1 Lと 1 1 Rとの間の距 離 2 d' を求める。 なお、 マーカはマイクロフォ ンを会議室 に配置したときにオペレータによって装置に入力される。
求められた距離 2 d ' の情報が重点符号化領域決定回路 7 6に入力される こ とによ り、 こ の回路 7 6は この距離 (2 d' ) 情報と音源位置情報記憶部 14から読み出される 音源位置情報とから距離 2 d* の中心から発言者の位置 62 までの距離 a' を次式 14により求める。
a ' = a · d ' / d - ( 14) 更に、 重点符号化領域決定回路 76は発言者位置 62を中心 と して予め設定した幅 2 w ' の領域 63を重点符号化領域と 決定する。 この重点符号化領域に関する情報がステツプサイ ズ決定回路 74に入力されると、 このステップサイズ決定回 路 7 4 は重点符号化領域の画像データを、 他の領域の画像 データより も多く の符号量で符号化するためのステップサイ ズを決定する。 決定されたステツプサイズの情報が量子化回 路 7 2に入力されると、 量子化回路 7 2は画像メ モ リ 1 6力、 ら読み出され、 D C T回路 7 1 により直交変換された画像 データを決定されたステップサイズで、 即ち符号量で量子化 する。 この場合、 重点符号化領域 6 3に対応する画像データ が量子化回路 7 2に入力されたときに決定されたステップサ ィズで量子化されるが、 他の領域の画像データは領域 6 3の 画像データに対するステップサイズより も荒いステップサイ ズで量子化される。 量子化された画像データは可変長符号化 回路 7 3により可変長符号化され、 符号化画像データと して 出力される。
上記のように符号化された画像データが受信側に送られ、 受信モニタに表示されると、 発言者の画像が他の画像より も 高解像度で表示される。
上記実施例においては、 音源位置情報記憶部 1 4には音源 情報だけ記憶されるとして説明したが次のように時間情報を も te.しても良い。
即ち、 音源位置推定部 1 3は音源位置推定回路 3 4におい て、 推定イ ンパルス応答系列 H p ( k ) の係数のうち、 最大 値をとる項をもとに音源位置 P aを推定するが、 この音源位 置推定部 1 3にて推定された音源位置 P aの情報と、 推定を 行った時刻を、 図示しない制御装置の制御のもとに音源位置 情報記憶部 1 4に記憶する。 このとき、 現在より t時刻だけ 過去の音源位置 P a ( t ) 力 最新の音源位置 P aから左右 にそれぞれ一定の幅 w以内にある場合には過去の音源位置 P a ( t ) の記憶情報を音源位置情報記憶部 14から消去す るように、 制御装置によって記憶部 14が制御される。 これ によって、 音源位置情報記憶部 14には現在の発言者の発言 位置と、 過去に発言した者 (N人) の最後の発言位置の情報 が以下のように記憶される。
T ( 1 ) , L ( 1 )
T ( 2 ) , L ( 2 )
T (N) , L (N)
ただし、
T ( 1 ) く T ( 2 ) < … < T (N) - ( 1 5) こ こで、 T ( i ) は発言者 iが最後に発言してから経過し た時間、 L ( i ) は発言者 iが最後に発言した位置を示す データである。 また、 T ( 1 ) は現在の発言者の音声サンプ リ ングにより上記演算処理した時点での時間、 L ( 1 ) は現 在の発言者の発言した位置を示すデータである。
画像符号化部 1 5では、 音源位置情報記憶部 14に記憶さ れた最新の発言者の位置 L ( 1 ) の情報をもとに、 上述した ように画像の符号化を行う。
いま、 画面全体の符号量を M、 画面全体の幅を WL とし、 発言者 iの重点符号化領域の重要度を R ( i ) 、 重点符号化 領域以外の領域の重要度を R (0) とする。 このとき、 重要 度 R ( i ) および R ( 0 ) は自由に設定できるが、 より最近 に発言した人に高い重要度を与えるとすると、
R ( 1 ) > R ( 2 ) > … > R (N) > R ( 0 )
… ( 1 6) となるように設定できる。
このとき、 最新の発言者の重点符号化領域 (最新の発言者 の画像領域) の符号量 M ( i ) 、 この重点符号化領域以外の 領域の符号量 M ( 0 ) は、
M ( i ) = M · w ' · R ( i ) / R T
Μ ( 0 ) = Μ · (WL - Ν ♦ w ' ) R (0) /R Τ となるように割り当てる。 ただし、 R Τは
R Τ = w ' (R (1) + R (2) +… + R (N) )
+ (WL - N · w ' ) R (0) - ( 1 7) 従って、 このように発言者 iの重点符号化領域に多めの符 号量 M ( i ) を割り当て、 他の領域に残りの符号量 M (0) を割り当ててその割り当て範囲内で符号化を行う ことにより、 発言者位置を中心とした領域をより鮮明に表示するような符 号化を行う ことができるようになるため、 画面当たりの総符 号量は従来と変わりないが、 画面全体の主観的な画質の向上 を計ることができるようになる。
以上のように、 異なる位置に配置した複数のマイ クロフォ ンでそれぞれ収音した複数チャ ンネルの音声信号と、 マイ ク 口フォ ンおよび発言者を含めた映像画面上のマイ ク口フォ ン 位置とから音源位置を推定するようにしたこ とにより、 映像 画面上の発言者の画像領域を適確に抽出できるようになり、 発言者の画像領域について符号量を多めに割り当てて符号化 するようにしたことにより、 発言者の像領域について鮮明に 表示することが可能な動画像符号化方式が得られる。
なお、 この発明は、 上述した実施例に限定されるものでは なく、 その要旨を変更しない範囲内で適宜変形して実施し得 例えば、 上述した実施例における音源位置推定部 1 3の推 定回路 3 2では、 時間領域の適応トラ ンスバーサルフィ ルタ を用いているが、 周波数領域の適応トラ ンスバーサルフィ ル 夕などの他の回路構成であっても良い。 また、 推定アルゴリ ズムと して学習同定法を例にして説明したが、 最急降下法な どの他の学習アルゴリ ズムを用いること もできる。
さ らに、 音源位置推定回路 3 4において、 推定イ ンパルス 応答系列 H p ( k ) の係数のうち、 最大値をとる項をもとに 音源位置を推定したが、 他の方法を用いても良い。
また、 画像符号化部 1 5の重点符号化領域の決定方法も、 上述した方法に限らず、 重点符号化領域 6 3において顔領域 検出を行うなどの他の方法であっても良い。 また、 画像符号 化部 1 5における重要度の設定方法についても、 現在までに 発言した時間に応じて重要度を設定する方法、 最後に発言し てからの時間と現在までに発言した時間との両方を加味して 重要度を設定する方法などの他の手法であっても構わない。
また、 テレビ会議システムでは、 被写体はほぼ定位置固定 であり、 テレビ画面は被写体に対して同一視野角を維持する ために、 画面上の被写体は被写体自身が移動しない限り、 位 置に変化はないから、 画像符号化部 1 5における重要度の設 定ゃ重点符号化領域の設定を外部から行う ことにより、 例え ば V I Pは常に高精細に符号化を行うようにすることもでき る。 更には、 画面と被写体との関係が変わらないことから、 発言者の画像領域ではなく、 発言者の顔部分の領域を特定す ることは容易であるから、 この特定した顔領域について解像 度を高めるように符号量を割り当てる構成とすることもでき る o
さらに、 画像符号化部 1 5の符号化方式についても、 上述 の実施例において、 各フレーム毎に重点符号化領域 6 3に多 く の符号量を与えて精細に符号化を行う手法について述べた が、 重点符号化領域 6 3以外の部分をコマ落としの状態にす ることによつて重点符号化領域 6 3に多く の符号量を与えて 精細に符号化を行っても良い。 また、 発言者の履歴に対応し て最新の発言者ほど高解像度にし、 発言の古い者ほど低解像 度にする等の、 発言順位等に対応させた重み付けにより解像 度を変えるなどしても良い。
なお、 上述した実施例では、 音声入力を 2チャ ンネルと し たが、 3チャ ンネル以上あっても良い。 この場合、 マイ クロ フォ ンの配置に上下方向の高低差を与えることにより、 音源 位置の 2次元の推定が可能となり、 この場合には音源として 画面上の一点を推定することができるようになり、 より高精 度の音源位置推定が可能となる。 産 業上 の 利用 可能性
上述した発明によれば、 複数チヤ ンネルの音声信号から音 源位置を推定し、 音源位置周辺を重点的に符号化するこ とに より、 発言者をより鮮明なるように符号化する動画像符号化 方式を提供できる。

Claims

請 求 の 範 囲
1 . 音声を発する少なく とも 1つの被写体を撮像して映像信 号を出力する撮像手段と、
互いに離間して配置配され、 前記撮像手段により撮像さ れる被写体の音声を収音して音声信号を出力する複数の感音 手段と、
前記複数の感音手段から出力される音声信号から音源位 置を推定する推定手段と、
前記推定手段より推定された音源位置を中心に所定の範 囲の画像領域に対応する映像信号を、 他の画像領域に対応す る映像信号より も多く符号量を割当て符号化する符号化手段 と、
により構成される動画像符号化装置。
2 . 前記感音手段は、 複数の被写体に対して左右に配置され、 左右チャ ンネルの音声信号を発生する左右マイ ク ロフオ ンに より構成され、 前記推定手段は、 前記左マイ ク ロフォ ンから 出力される左チャ ンネル音声信号を遅延する遅延回路と、 前 記遅延回路から出力する遅延左チヤ ンネル音声信号と前記右 マイ ク ロフォ ンから出力される右チヤ ンネル音声信号とから 左チャ ンネル音声信号を推定する推定回路と、 前記遅延回路 から出力する遅延左チヤ ンネル音声信号と前記推定回路から 出力する推定左チヤ ンネル音声信号との差信号を得る減算回 路と、 前記推定回路が前記差信号をフィ一ドバッ クにより受 けたとき前記差信号が零になるような推定左チャ ンネル音声 信号を推定し、 前記推定回路から出力される推定ィ ンパルス 応答系列を用いて音源位置を推定する音源位置推定回路とに より構成される請求項 1記載の動画像符号化装置。
3 . 前記推定回路は、 時間領域の推定左チャ ンネル音声信号 を算出する適応トラ ンスバーサルフィ ルタと、 推定ィ ンパル ス応答系列を逐次更新する修正回路とにより構成される請求 項 2記載の動画像符号化装置。
4 . 前記適応トラ ンスバーサルフィ ルタは、 右チヤ ンネル音 声信号を順次送って右チヤ ンネル音声信号を各時間成分毎の 値に変換する nタップのシフ ト レジスタと、 前記修正回路に より修正された各時間成分毎の推定ィ ンパルス応答と前記シ フ ト レジスタを経て得られる右チャ ンネル音声信号との各成 分毎の乗算を行う乗算器と、 乗算結果の総和を求めて推定左 チャ ンネル音声入力信号を得る加算器とより構成される請求 項 3記載の動画像符号化装置。
5 . 前記修正回路は、 推定イ ンパルス応答系列を求め、 それ らを時間成分別に分けて前記適応トラ ンスバーサルフィ ルタ の対応する乗算器に与える回路手段を有し、 前記適応トラ ン スバーサルフィ ルタの前記乗算器は推定ィ ンパルス応答系列 と前記シフ ト レジスタを経て得られる右チヤ ンネル音声信号 とを各成分毎に乗算し、 時間成分別の推定左チヤ ンネル音声 信号を出力し、 これら時間成分別推定左チヤ ンネル音声信号 を前記加算器が加算するこ とによって推定左チャ ンネル音声 信号を求める請求項 4記載の動画像符号化装置。
6 . 音声を発する少なく とも 1つの被写体を撮像して映像信 号を出力する撮像手段と、
互いに離間して配置され、 前記撮像手段により撮像され る被写体の音声を収音して音声信号を出力する複数の感音手 段と、
前記複数の感音手段から得られた音声信号から音源位置 を推定する推定手段と、
前記推定手段により推定された現在及び過去の音源位置 情報の履歴を記憶する音源位置記憶手段と、
前記音源位置記憶手段に記憶された音源位置情報及び過 去の音源位置情報の履歴を利用して位置に応じた符号量で映 像信号を符号化する符号化手段と、
により構成される動画像符号化装置。
7 . 前記画像符号化手段は、 前記音源位置記億手段に記憶さ れた少なく とも 1つの音源位置とその近傍を高画質領域と し て各々の画質レベルを設定し、 他の領域より前記画質レベル に応じて高画質になるように符号量を割り当てて映像信号を 符号化する請求項 6記載の動画像符号化装置。
8 . 前記画像符号化手段は、 外部より高画質領域と画質レべ ルを設定し、 他の領域より高画質になるように符号量を割り 当てて映像信号を符号化する機能を有する請求項 6記載の動 画像符号化装置。
9 . 前記音源位置推定手段は、 前記複数チャ ンネルの音声信 号の遅延差と位相差、 レベル差の少なぐ iも一方を利用して 検出する請求項 6記載の動画像符号化装置。
1 0 . 前記画像符号化手段は、 音源位置の出現頻度に応じて 画質レベルを設定する請求項 8記載の動画像符号化装置。
1 1 . 前記感音手段は、 複数の被写体に対して左右に配置さ れ、 左右チャ ンネルの音声信号を発生する左右マイ ク ロフォ ンにより構成され、 前記推定手段は、 前記左マイ ク ロフォ ン から出力される左チヤ ンネル音声信号を遅延する遅延回路と、 前記遅延回路から出力する遅延左チヤ ンネル音声信号と前記 右マイ クロフ ォ ンから出力される右チヤ ンネル音声信号とか ら左チャ ンネル音声信号を推定する推定回路と、 前記遅延回 路から出力する遅延左チヤ ンネル音声信号と前記推定回路か ら出力する推定左チヤ ンネル音声信号との差信号を得る減算 回路と、 前記推定回路が前記差信号をフィ一ドバッ クにより 受けたとき前記差信号が零になるような推定左チヤ ンネル音 声信号を推定し、 前記推定回路から出力される推定ィ ンパル ス応答系列を用いて音源位置を推定する音源位置推定回路と により構成される請求項 6記載の動画像符号化装置。
1 2 . 前記推定回路は、 時間領域の推定左チヤ ンネル音声信 号を算出する適応トラ ンスバーサルフィ ルタと、 推定イ ンパ ルス応答系列を逐次更新する修正回路とにより構成される請 求項 1 1記載の動画像符号化装置。
1 3 . 前記適応トラ ンスバーサルフィ ルタは、 右チャ ンネル 音声信号を順次送って右チヤ ンネル音声信号を各時間成分毎 の値に変換する n タ ツプのシフ ト レジスタと、 前記修正回路 により修正された各時間成分毎の推定ィ ンパルス応答と前記 シフ ト レジスタを経て得られる右チヤ ンネル音声信号との各 成分毎の乗算を行う乗算器と、 乗算結果の総和を求めて推定 左チヤ ンネル音声入力信号を得る加算器とより構成される請 求項 1 2記載の動画像符号化装置。
1 4 . 前記修正回路は、 推定イ ンパルス応答系列を求め、 そ れらを時間成分別に分けて前記適応トランスバーサルフィ ル 夕の対応する乗算器に与える回路手段を有し、 前記適応トラ ンスバーサルフィ ルタの前記乗算器は推定ィ ンパルス応答系 列と前記シフ ト レジスタを経て得られる右チヤ ンネル音声信 号とを各成分毎に乗算し、 時間成分別の推定左チャ ンネル音 声信号を出力し、 これら時間成分別推定左チヤ ンネル音声信 号を前記加算器が加算するこ とによつて推定左チヤ ンネル音 声信号を求める請求項 1 3記載の動画像符号化装置。
補正された請求の範囲
[1994年 1月 6日(06.01.94)国際事務局受理; {¾"願当初の請求の範囲 1、 2および 6は補正され た;他の請求の範囲は変更なし。 は頁) I
1 . (補正後) 音声を 発す る少な く と も 1 つの被写体を撮像 し て映像信号 を 出力す る撮像手段と、
複数の被写体に対 し て左右に配置さ れる 左右マ イ ク ロ フ オ ン に よ り 構成 さ れ、 前記撮像手段に よ り 撮像 さ れる被写体 の音声を 収音 し て、 左右チ ャ ン ネ ルの音声信号 を 出力す る左 右チ ャ ン ネ ル感音手段 と、
前記左マ イ ク ロ フ オ ン か ら 出力 さ れる左チ ャ ン ネ ル音声 信号を遅延す る遅延回路と、 前記遅延回路か ら 出 力す る遅延 左チ ャ ン ネル音声信号 と 前記右マ イ ク ロ フ オ ン か ら 出力 さ れ る右チ ャ ン ネ ル音声信号 と か ら左チ ャ ン ネ ル音声信号を推定 す る推定回路と を含み、 前記左右チ ャ ン ネ ル感音手段か ら 出 力 さ れる 左右チ ャ ン ネ ル音声信号か ら音源位置を 推定す る推 定手段と、
前記推定手段よ リ 推定 さ れた音源位置を 中心に所定の範 囲の画像領域に対応す る映像信号 を、 他の画像領域に対応す る映像信号よ り も多 く 符号量を割当 てて符号化す る符号化手 段 と、
に よ り 構成 さ れる動画像符号化装鼠
2. (補正後) 前記推定手段は、 前記遅延回路か ら 出力する 遅延左チ ャ ン ネ ル音声信号 と前記推定回路か ら 出 力す る推定 左チ ャ ン ネ ル音声信号 と の差信号 を得る減算回路と、 前記推 定回路が前記差信号を フ ィ ー ドバ ッ ク に よ り 受け た と き前記 差信号が零に な る よ う な推定左チ ャ ン ネ ル音声信号 を推定 し、 前記推定回路か ら 出力 さ れる推定ィ ンパ ル ス応答系列 を 用 い て音源位置を推定す る音源位置推定回路と に よ リ 構成 さ れる 請求項 1 記載の動画像符号化装亂
3. 前記推定回路は、 時間領域の推定左チ ャ ン ネ ル音声信号 を 算出す る適応 ト ラ ン ス バ一サル フ ィ ル タ と、 推定イ ン パル ス応答系列を逐次更新す る修正回路と に よ り 構成 さ れる請求 項 2 記載の動画像符号化装氤
4. 前記適応 ト ラ ン スバー サル フ ィ ル タ は、 右チ ャ ン ネ ル音 声信号を 順次送っ て右チ ヤ ン ネル音声信号を 各時間成分毎の 値に変換する n タ ッ プの シ フ ト レ ジス タ と、 前記修正回路に よ り 修正 さ れた各時間成分毎の推定ィ ンパ ル ス応答と 前記シ フ ト レ ジ ス タ を経て得 ら れる右チ ャ ン ネル音声信号と の各成 分毎の乗算を 行 う 乗算器と、 乗算結果の総和 を 求めて推定左 チ ャ ン ネ ル音声入力信号 を得る加算器 と よ り 構成 さ れる請求 項 3 記載の動画像符号化装 ft
5. 前記修正回路は、 推定イ ン パ ル ス応答系列 を 求め、 それ ら を 時間成分別に分けて前記適応 ト ラ ン スバーサル フ ィ ル タ の対応す る乗算器に与え る 回路手段を有 し、 前記適応 ト ラ ン スバーサル フ ィ ル タ の前記乗算器は推定ィ ン パ ル ス応答系列 と 前記シ フ ト レ ジス タ を経て得 ら れる右チ ャ ン ネ ル音声信号 と を 各成分毎に乗算 し、 時間成分別の推定左チ ャ ン ネ ル音声 信号 を 出 力 し、 こ れ ら 時間成分別推定左チ ャ ン ネ ル音声信号 を 前記加算器が加算す る こ と に よ っ て推定左チ ャ ン ネ ル音声 信号 を求め る請求項 4 記載の動画像符号化装氍
6 . (補正後) 音声 を 発す る少な く と も 1 つの被写体 を撮像 し て映像信号 を 出力す る撮像手段 と、
互い に離間 して配置さ れ、 前記撮像手段に よ り 撮像 さ れ る被写体の音声を収音 し て音声信号を 出力す る 複数の感音手 段 と、
前記複数の感音手段か ら得 ら れた音声信号か ら音源位置 を 推定す る推定手段 と、
前記推定手段に よ り 推定さ れた現在及び過去の音源位置 情報の履歴を記憶す る 音源位置記憶手段と、
前記音源位置記憶手段に記憶さ れた現在の音源位置情報 及び過去の音源位置情報の履歴を 利用 して位置に応 じ た符号 量で映像信号 を 符号化す る符号化手段と、
に よ リ 構成 さ れる動画像符号化装 ¾
7. 前記画像符号化手段は、 前記音源位置記憶手段に記憶さ れた少な く と も 1 つの音源位置と その近傍 を 高画質領域と し て各々 の画質 レ ベル を 設定 し、 他の領域よ り 前記画質 レ ベル に応 じて髙画質にな る よ う に符号量を割 り 当 て て映像信号を 符号化す る請求項 6 記載の動画像符号化装 ¾
8. 前記画像符号化手段は、 外部 よ り 髙画質領域と 画質 レ べ ル を設定 し、 他の領域 よ り 高画質に な る よ う に符号量を 割 り 当 てて映像信号 を符号化す る機能を 有する請求項 6 記載の動 画像符号化装 a
9 . 前記音源位置推定手段は、 前記複数チ ャ ン ネ ルの音声信 号の遅延差 と 位相差、 レベル差の少な く と も 一方 を利用 して 検出する請求項 6 記載の動画像符号化装齓
1 0. 前記画像符号化手段は、 音源位置の 出現頻度に応 じて 画質 レ ベ ルを 設定す る請求項 8 記載の動画像符号化装氍
1 1 . 前記感音手段は、 複数の被写体に対 し て左右に配置さ れ、 左右 チ ャ ン ネ ル の音声信号 を 発生する左右マ イ ク ロ フ ォ ン に よ り 構成 さ れ、 前記推定手段は、 前記左マ イ ク ロ フ ォ ン か ら 出力 さ れる左チ ヤ ン ネル音声信号 を遅延す る遅延回路と、 前記遅延回路か ら 出力す る遅延左チ ヤ ンネル音声信号 と 前記 右マ イ ク ロ フ オ ン か ら 出力 さ れる右チ ャ ン ネ ル音声信号 と か ら左チ ャ ン ネ ル音声信号 を推定す る推定回路と、 前記遅延回 路か ら 出 力す る遅延左チ ャ ンネル音声信号 と 前記推定回路か ら 出力す る推定左チ ヤ ン ネル音声信号 と の差信号 を得る減算 回路と、 前記推定回路が前記差信号を フ ィ ー ドバ ッ ク に よ り 受け た と き前記差信号が零にな る よ う な推定左チ ャ ン ネル音 声信号を 推定 し、 前記推定回路か ら 出力 さ れる推定ィ ンパル ス応答系列 を 用 いて音源位置を 推定す る音源位置推定回路と に よ リ 構成さ れる請求項 6 記載の動画像符号化装鼠
1 2. 前記推定回路は、 時間領域の推定左チ ャ ン ネ ル音声信 号 を 算出 する適応 ト ラ ン スバーサルフ ィ ル タ と、 推定イ ンパ ル ス応答系列 を逐次更新す る修正回路と に よ り 構成さ れる請 求項 1 1 記載の動画像符号化装氍
1 3. 前記適応 ト ラ ン ス バーサル フ ィ ル タ は、 右チ ャ ン ネ ル 音声信号 を順次送っ て右チ ャ ン ネ ル音声信号 を 各時間成分毎 の値に変換す る n タ ッ プの シ フ ト レ ジス タ と、 前記修正回路 に よ り 修正さ れた各時間成分毎の推定ィ ン パ ル ス応答 と 前記 シ フ ト レ ジス タ を経て得 ら れる右チ ャ ン ネ ル音声信号 と の各 成分毎の乗算 を行う 乗算器 と、 乗算結果の総和 を 求めて推定 左チ ヤ ン ネル音声入力信号 を得る加算器と よ リ 構成さ れる請 求項 1 2 記載の動画像符号化装齓
1 4. 前記修正回路は、 推定イ ン パ ル ス応答系列 を求め、 そ れ ら を 時間成分別に分けて前記適応 ト ラ ン スバーサルフ ィ ル タ の対応する乗算器に与え る 回路手段を有 し、 前記適応 ト ラ ン ス バー サル フ ィ ル タ の前記乗算器は推定ィ ン パ ル ス応答系 列 と前記 シ フ ト レ ジス タ を経て得 ら れる右チ ャ ン ネ ル音声信 号 と を各成分毎に乗算 し、 時間成分別の推定左チ ャ ン ネ ル音 声信号を 出力 し、 こ れ ら時間成分別推定左チ ャ ン ネ ル音声信 号 を前記加算器が加算する こ と に よ っ て推定左チ ャ ン ネ ル音 声信号を 求め る請求項 1 3 記載の動画像符号化装氬
PCT/JP1993/001213 1992-08-27 1993-08-27 Moving picture encoder WO1994006246A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US08/211,724 US5594494A (en) 1992-08-27 1993-08-27 Moving picture coding apparatus
EP93919585A EP0615387B1 (en) 1992-08-27 1993-08-27 Moving picture encoder
DE69326751T DE69326751T2 (de) 1992-08-27 1993-08-27 Bewegtbildkodierer

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP4/228572 1992-08-27
JP22857292 1992-08-27

Publications (1)

Publication Number Publication Date
WO1994006246A1 true WO1994006246A1 (en) 1994-03-17

Family

ID=16878468

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1993/001213 WO1994006246A1 (en) 1992-08-27 1993-08-27 Moving picture encoder

Country Status (5)

Country Link
US (1) US5594494A (ja)
EP (1) EP0615387B1 (ja)
CA (1) CA2122371C (ja)
DE (1) DE69326751T2 (ja)
WO (1) WO1994006246A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850265B1 (en) 2000-04-13 2005-02-01 Koninklijke Philips Electronics N.V. Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
CN108769874A (zh) * 2018-06-13 2018-11-06 广州国音科技有限公司 一种实时分离音频的方法和装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3017384B2 (ja) 1993-07-19 2000-03-06 シャープ株式会社 特徴領域抽出装置
US6313863B1 (en) * 1994-07-29 2001-11-06 Canon Kabushiki Kaisha Image communication apparatus and system
FR2728753A1 (fr) * 1994-12-21 1996-06-28 Grenier Yves Dispositif de prise de sons comprenant un systeme video pour le reglage de parametres et procede de reglage
US6496607B1 (en) * 1998-06-26 2002-12-17 Sarnoff Corporation Method and apparatus for region-based allocation of processing resources and control of input image formation
ES2367099T3 (es) * 1998-11-11 2011-10-28 Koninklijke Philips Electronics N.V. Disposición de localización de señal mejorada.
US6269483B1 (en) * 1998-12-17 2001-07-31 International Business Machines Corp. Method and apparatus for using audio level to make a multimedia conference dormant
KR100293456B1 (ko) 1998-12-30 2001-07-12 김영환 오디오/비디오 신호의 코딩 장치 및 방법_
US6288753B1 (en) * 1999-07-07 2001-09-11 Corrugated Services Corp. System and method for live interactive distance learning
US20010017650A1 (en) * 1999-12-23 2001-08-30 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for transmitting a video image
US6605674B1 (en) * 2000-06-29 2003-08-12 Ondeo Nalco Company Structurally-modified polymer flocculants
US7002617B1 (en) * 2000-07-20 2006-02-21 Robert Samuel Smith Coordinated audio and visual omnidirectional recording
US20020140804A1 (en) * 2001-03-30 2002-10-03 Koninklijke Philips Electronics N.V. Method and apparatus for audio/image speaker detection and locator
EP1425909A4 (en) * 2001-08-07 2006-10-18 Polycom Inc SYSTEM AND METHOD FOR HIGH RESOLUTION VIDEOCONFERENCE
US20030220971A1 (en) * 2002-05-23 2003-11-27 International Business Machines Corporation Method and apparatus for video conferencing with audio redirection within a 360 degree view
US20040001091A1 (en) * 2002-05-23 2004-01-01 International Business Machines Corporation Method and apparatus for video conferencing system with 360 degree view
US7444068B2 (en) * 2002-06-28 2008-10-28 Hewlett-Packard Development Company, L.P. System and method of manual indexing of image data
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
GB2415584B (en) 2004-06-26 2007-09-26 Hewlett Packard Development Co System and method of generating an audio signal
JP2006148861A (ja) * 2004-10-21 2006-06-08 Matsushita Electric Ind Co Ltd 撮像信号処理装置及び方法
FR2886799A1 (fr) * 2005-06-03 2006-12-08 France Telecom Procede et dispositif de commande d'un deplacement d'une ligne de visee, systeme de visioconference, terminal et programme pour la mise en oeuvre du procede
FR2886800A1 (fr) * 2005-06-03 2006-12-08 France Telecom Procede et dispositif de commande d'un deplacement d'une ligne de visee, systeme de visioconference, terminal et programme pour la mise en oeuvre du procede
JP2009143454A (ja) * 2007-12-14 2009-07-02 Fujitsu Ten Ltd 車両制御装置及び車両状態監視方法
US8697990B2 (en) 2012-07-12 2014-04-15 Wirepath Home Systems, Llc Power products with selectable mounting and related assemblies and kits
JP2014143678A (ja) * 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
KR20140127508A (ko) * 2013-04-25 2014-11-04 삼성전자주식회사 음성처리장치 및 음성처리방법
US20190082255A1 (en) * 2017-09-08 2019-03-14 Olympus Corporation Information acquiring apparatus, information acquiring method, and computer readable recording medium
CN110719430A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 图像数据生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5921186A (ja) * 1982-06-28 1984-02-03 ウエスタ−ン・エレクトリツク・カムパニ−・インコ−ポレ−テツド ビデオ信号を発生させる方法
JPS6129163B2 (ja) * 1977-02-21 1986-07-04 Mitsubishi Electric Corp
JPS6364120B2 (ja) * 1982-11-05 1988-12-09
JPH0396999A (ja) * 1989-09-08 1991-04-22 Aisin Seiki Co Ltd 集音装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6129163A (ja) * 1984-07-19 1986-02-10 Toshiba Corp Icモジユ−ルユニツト
JPS6243285A (ja) * 1985-08-21 1987-02-25 Hitachi Ltd テレビ会議発言者確認方式
JPS6364120A (ja) * 1986-09-04 1988-03-22 Mitsubishi Electric Corp 端末装置のプリンタ制御方式
US5206721A (en) * 1990-03-08 1993-04-27 Fujitsu Limited Television conference system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6129163B2 (ja) * 1977-02-21 1986-07-04 Mitsubishi Electric Corp
JPS5921186A (ja) * 1982-06-28 1984-02-03 ウエスタ−ン・エレクトリツク・カムパニ−・インコ−ポレ−テツド ビデオ信号を発生させる方法
JPS6364120B2 (ja) * 1982-11-05 1988-12-09
JPH0396999A (ja) * 1989-09-08 1991-04-22 Aisin Seiki Co Ltd 集音装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0615387A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850265B1 (en) 2000-04-13 2005-02-01 Koninklijke Philips Electronics N.V. Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
CN108769874A (zh) * 2018-06-13 2018-11-06 广州国音科技有限公司 一种实时分离音频的方法和装置

Also Published As

Publication number Publication date
CA2122371A1 (en) 1994-03-17
US5594494A (en) 1997-01-14
DE69326751D1 (de) 1999-11-18
EP0615387A4 (en) 1994-07-12
DE69326751T2 (de) 2000-05-11
CA2122371C (en) 1998-03-03
EP0615387B1 (en) 1999-10-13
EP0615387A1 (en) 1994-09-14

Similar Documents

Publication Publication Date Title
WO1994006246A1 (en) Moving picture encoder
US5555310A (en) Stereo voice transmission apparatus, stereo signal coding/decoding apparatus, echo canceler, and voice input/output apparatus to which this echo canceler is applied
US6675145B1 (en) Method and system for integrated audiovisual speech coding at low bitrate
US5778082A (en) Method and apparatus for localization of an acoustic source
EP1711019B1 (en) Motion compensated temporal filtering for noise reduction pre-processing of digital video data
US8379074B2 (en) Method and system of tracking and stabilizing an image transmitted using video telephony
US8130257B2 (en) Speaker and person backlighting for improved AEC and AGC
CN106664501B (zh) 基于所通知的空间滤波的一致声学场景再现的系统、装置和方法
JP4872871B2 (ja) 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
JP6703525B2 (ja) 音源を強調するための方法及び機器
CN110289009B (zh) 声音信号的处理方法、装置和交互智能设备
JPH08205156A (ja) ディジタル圧縮・再生画像の画質評価装置
US11076127B1 (en) System and method for automatically framing conversations in a meeting or a video conference
JP2004118314A (ja) 発話者検出システムおよびそれを用いたテレビ会議システム
US11842745B2 (en) Method, system, and computer-readable medium for purifying voice using depth information
JPH06217276A (ja) 動画像符号化装置
US11875800B2 (en) Talker prediction method, talker prediction device, and communication system
JPH0761043B2 (ja) ステレオ音声伝送蓄積方式
JP3724008B2 (ja) 画像情報変換装置および係数データ作成装置
Bulla et al. High Quality Video Conferencing: Region of Interest Encoding and Joint Video/Audio Analysis
JPH0758939B2 (ja) ステレオ信号伝送方法、符号化装置および復号化装置
WO2023120244A1 (ja) 伝送装置、伝送方法、およびプログラム
CN110121890B (zh) 处理音频信号的方法和装置及计算机可读介质
Vahedian et al. Improving videophone subjective quality using audio information

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): DE FR GB

WWE Wipo information: entry into national phase

Ref document number: 08211724

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2122371

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 1993919585

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1993919585

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1993919585

Country of ref document: EP