WO2015059782A1 - 映像検査方法及び音声検査方法 - Google Patents

映像検査方法及び音声検査方法 Download PDF

Info

Publication number
WO2015059782A1
WO2015059782A1 PCT/JP2013/078660 JP2013078660W WO2015059782A1 WO 2015059782 A1 WO2015059782 A1 WO 2015059782A1 JP 2013078660 W JP2013078660 W JP 2013078660W WO 2015059782 A1 WO2015059782 A1 WO 2015059782A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
inspection method
value
error
power value
Prior art date
Application number
PCT/JP2013/078660
Other languages
English (en)
French (fr)
Inventor
浜田 高宏
Original Assignee
株式会社K-Will
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社K-Will filed Critical 株式会社K-Will
Priority to JP2015543639A priority Critical patent/JP6222854B2/ja
Priority to PCT/JP2013/078660 priority patent/WO2015059782A1/ja
Priority to US15/031,200 priority patent/US20160249047A1/en
Publication of WO2015059782A1 publication Critical patent/WO2015059782A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44209Monitoring of downstream path of the transmission network originating from a server, e.g. bandwidth variations of a wireless network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N2017/006Diagnosis, testing or measuring for television systems or their details for television sound

Definitions

  • the present invention relates to a video inspection method and an audio inspection method capable of detecting video and audio errors included in a digital video / audio signal.
  • Patent Document 1 discloses a technique for mechanically detecting block noise by differentiating pixels in a predetermined rectangular block unit.
  • Patent Documents 1 and 2 are applied only to video signals subjected to compression / expansion processing, and detect errors caused by all noises such as communication line defects, VTR defect errors, and other failures. The method has not been realized yet. In addition, a technique for accurately inspecting a “puzzle” sound caused by noise in an audio signal has not been realized.
  • the video inspection method of the first aspect of the present invention is to sample a continuous digital video signal by dividing it into 20 msec or less, extract a high frequency component from the sampled signal, and generate an error in the video based on the extracted high frequency component. Is detected.
  • a continuous digital video signal is sampled by dividing it in a very short time of 20 msec or less, a high frequency component is extracted from the sampled signal, and based on the extracted high frequency component, an actual content and a segment are separated. Separately, it is possible to accurately detect image disturbance and block noise.
  • the error is image disturbance and the extracted high-frequency component is an activity that is an average of dispersion values in units of blocks of the digital video signal.
  • the error is block noise, and it is preferable to perform orthogonal transform on the pixel value in the inspection block of the video signal and determine that block noise has occurred when the conversion coefficient satisfies a predetermined condition.
  • the voice inspection method is to sample a continuous digital audio signal by dividing it into 5 msec or less, extract a high frequency component from the sampled signal, and based on the extracted high frequency component, an error generated in the voice Is detected.
  • a continuous digital audio signal is sampled by dividing it into a very short time of 5 msec or less, a high frequency component is extracted from the sampled signal, and based on the extracted high frequency component, it is separated from the actual content. Separately, it is possible to detect voice noise with high accuracy.
  • the digital audio signal is recorded on a plurality of channels, it is preferable to detect the error for each channel.
  • n power values P n (t) and a total power value P (t) within a predetermined band are obtained.
  • the total power value P (t) is the total power value at the previous time (t ⁇ T).
  • the value divided by P (t ⁇ T) (P (t) / P (t ⁇ T)) and the total power value P (t) are combined into the total power value P (t + T) at the subsequent time (t + T).
  • the value sequence P n (t),..., P n (t + T) falls below the fifth threshold value, it is preferable to determine that sound skipping has occurred.
  • the first power value P n (t) along the time axis are compared, the first power value P n (t ⁇ T5) and the third power value P n (t + T + T5) are below the sixth threshold value.
  • the second power value sequence P n (t),..., P n (t + T) exceeds the seventh threshold value, it is preferable to determine that noise has occurred.
  • the present invention it is possible to provide a video inspection method for detecting a video error due to noise generated due to various causes in a digital video signal, and to prevent noise generated due to various causes in a digital audio signal. It is possible to provide a sound inspection method for detecting a sound error caused by the sound.
  • FIG. 1 is a block diagram of a video / audio inspection device 10.
  • FIG. (A) It is a figure which shows the flame
  • B It is a figure which shows the area
  • (A) It is a figure which shows the flame
  • B) It is a figure which shows the relationship between a test
  • FIG. 1 is a block diagram of the video / audio inspection apparatus 10.
  • the video / audio inspection apparatus 10 includes an input unit 11 that inputs a digital video / audio signal, an extraction unit 12 that extracts a high-frequency component from the input digital video / audio signal and performs an operation, and an extraction result of the extraction unit 12
  • a comparison / determination unit 13 that performs comparison with a threshold value based on the result and determines whether or not an error has occurred in video or audio
  • a control unit 14 that sets a threshold value or the like for the comparison / determination unit 13, -It has the output part 15 which outputs an alarm according to the determination result of the determination part 13.
  • Video disturbance detection “Disturbance of video” refers to a phenomenon in which an image of content returns or shifts after being instantaneously lost between frames.
  • a video / audio signal according to the BTAS-001B standard for 1125/60 high definition television broadcast HDTV (High-definition television) standardized by the Radio Industries Association ARIB will be described as an example.
  • Such a video signal includes a luminance signal Y and color difference signals Pb and Pr.
  • the extraction unit 12 When a video / audio signal is input from the input unit 11, the extraction unit 12, as shown in FIG. 2A, displays four fields (in the range of lines V 1 to V 2 and images H 1 to H 2) in one frame. Area) Divided into A, B, C, and D, and calculation is performed for each area. Specifically, for each field, a video level (Video ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ Level) and a video activity (Video Activity) are calculated.
  • Video Level is an average value of pixel values included in an image frame, and is also referred to as a luminance signal level. Alternatively, the level of the color difference signal may be used.
  • Activity when calculating
  • the variance value may be used.
  • a small block of m lines and n pixels is formed in one field. That is, the luminance value of each pixel in the small block can be expressed by Y (m, n).
  • the luminance signal Y is preferably divided into small blocks of 16 pixels ⁇ 8 lines. When the luminance signal Y is used, the number of small blocks in one field is 1914. When the color difference signals Pb and Pr are used, it is preferable to divide them into small blocks of 8 pixels ⁇ 8 lines.
  • Equation (1) is an equation for obtaining an average A (k) for the luminance signal Y in the small block #k
  • Equation (2) is a variance V (k) for the luminance signal Y in the small block #k. Is a formula for obtaining.
  • 12 is an equation for obtaining the S 22.
  • Vn (t) when the video activity at time t in the n-th block #n in one field is Vn (t), attention is paid to the change with time.
  • Vn (t-2) and Vn (t-1) at the previous times (t-2) and (t-1) and the subsequent times (t + 1) and (t + 2) , Vn (t + 1) and Vn (t ⁇ 1) are calculated.
  • the time intervals of (t ⁇ 2), (t ⁇ 1), t, (t + 1), and (t + 2) are 20 msec or less and are unit time.
  • the first-order differential value at each time is obtained as follows.
  • the second-order differential value at each time is obtained as follows.
  • d 2 Vn (t) / dt 2 dVn (t) / dt ⁇ dVn (t ⁇ 1) / dt (9)
  • d 2 Vn (t + 1) / dt 2 dVn (t + 1) / dt ⁇ dVn (t) / dt (10)
  • d 2 Vn (t + 2) / dt 2 dVn (t + 2) / dt ⁇ dVn (t + 1) / dt (11)
  • (d 2 Vn (t) / dt 2 ) / Vn (t ⁇ 1) is defined as the content acceleration AC at time t, which can take a positive or negative value.
  • the acceleration AC is input from the extraction unit 12 to the comparison / determination unit 13.
  • FIG. 3 shows an example in which the acceleration AC at the times (t ⁇ 2), (t ⁇ 1), t, (t + 1), and (t + 2) is indicated by arrows along the time axis.
  • the comparison / determination unit 13 compares three accelerations AC that are continuous along the time axis.
  • the acceleration AC is a positive value and exceeds the threshold value Th1.
  • the acceleration AC is a negative value, which is lower than the threshold value Th2.
  • the direction of the acceleration AC is the same between the times (t ⁇ 2) and (t ⁇ 1), it can be determined that the image is not disturbed.
  • the direction of the acceleration AC is negative at time t, there is a possibility that the image is disturbed.
  • the direction of the acceleration AC returns to a positive value again and exceeds the threshold value Th1. Therefore, between time (t ⁇ 1), t, and (t + 1), the acceleration AC exceeds the threshold value, and is in a sequence of positive, negative, and positive.
  • the acceleration AC changes greatly as described above, it can be determined that the image is disturbed in the block of the region #n at time t.
  • the acceleration AC exceeds the threshold value and is in a negative, positive, and negative arrangement, it can be determined that the image is disturbed.
  • the acceleration AC is in a negative, positive, and negative sequence along the time axis between the times t, (t + 1), and (t + 2), but the motion of the content image is in a normal range because the threshold AC is not exceeded. It is determined that the video is not disturbed at time (t + 1).
  • the values of the threshold values Th1 and Th2 can be arbitrarily changed by input from the device control unit 14. The above calculation and comparison are performed for all small blocks.
  • the comparison / determination unit 13 determines that a video disturbance has occurred
  • information indicating in which field and in which small block the video disturbance has occurred is input to the alarm output unit 15.
  • the alarm output unit 15 displays an alarm on a monitor (not shown) that displays video / audio to be inspected.
  • the edge of the field where the disturbance of the image is detected can be illuminated in red.
  • Video block noise refers to a phenomenon in which an image of content is converted into another image in a block form.
  • the inspection target frame is represented by 1920 pixels in the horizontal direction and 540 lines in the vertical direction.
  • the pixel value of the luminance signal of m pixels and n lines is represented by Y (m, n), and this is defined as a pixel block (inspection block) of 8 pixels ⁇ 8 lines with the upper left corner.
  • the range of the inspection block is not limited to this.
  • the extraction unit 12 When a video / audio signal is input from the input unit 11, the extraction unit 12 performs a two-dimensional discrete Fourier transform, which is an orthogonal transform, on the pixel values in the inspection block.
  • Other orthogonal transforms include discrete cosine transform and wavelet transform, and the block noise angle can be detected in the same manner using any orthogonal transform.
  • the comparison / determination unit 13 determines that the inspection block DB has the block noise shown in FIG. It is determined that it exists at one of the four corners of BN. Specifically, it is as follows. [1] When the condition 1 is satisfied, it is confirmed that the pixels Y (6, 6), Y (7, 6), Y (6, 7), Y (7, 7) of the inspection block DB are within the block noise. This indicates that the other pixels are outside the block noise, which means that the inspection block DB (1) shown in FIG. 4B is at the upper left of the block noise BN.
  • the inspection target frame may be divided into four to detect whether block noise has occurred in each region.
  • W uv is the square root ( ⁇ (A 2 + B 2 )) of the square sum of the real part (A) and the imaginary part (B) of F (u, v).
  • the inspection target region (or frame) is composed of N pixels (v 1 to v N ) ⁇ M lines (h 1 to h M ).
  • N pixels v 1 to v N
  • M lines h 1 to h M .
  • the total number of corners Nc in the inspection target area is equal to the total number of pixels in which corners are generated and is equal to the total number of lines in which corners are generated, it can be expressed by equation (13). Further, the standard deviation (Dh) 2 of the corner generated in the horizontal direction in the inspection target region is expressed by the equation (14), and the standard deviation (Dv) 2 of the corner generated in the vertical direction is expressed by the equation (15). Shall.
  • the comparison / determination unit 13 determines whether ⁇ is more than the threshold Th5 when it is determined that a corner is generated in the inspection target region, and when ⁇ ⁇ Th5, the inspection target is determined. It is determined that block noise has occurred in the area. Note that the values of the threshold values Th3 to Th5 can be arbitrarily changed by input from the device control unit 14.
  • the comparison / determination unit 13 determines that block noise of the video has occurred, information including position information indicating a corner is input to the alarm output unit 15. Based on the input information, the alarm output unit 15 displays an alarm on a monitor (not shown) that displays video / audio to be inspected. At this time, it is preferable to display the position of the corner of the block noise so as to overlap the image displayed on the monitor.
  • Audio error detection One of the audio errors detected in this embodiment is a so-called “puzzle” sound that occurs instantaneously and disappears. Since digital audio is input through, for example, four channels, an error for each channel is detected.
  • the extraction unit 12 divides the digital sound along the time axis at 1 msec, and samples, for example, 48 pieces of sound data. More detailed data than this is unnecessary because it exceeds the human audible range. Further, frequency conversion is performed on each audio data by discrete Fourier transform which is orthogonal transform.
  • x (t) is a value of the sound level indicating the vibration amplitude of the sound at time t.
  • the high frequency components fj (t) of the 23 sample data excluding the DC component are extracted as shown in the equation (16).
  • sampling is performed while shifting every 0.5 msec, for example.
  • the comparison / determination unit 13 determines that a popping sound has occurred when the following expressions (18) to (20) are satisfied.
  • the condition of equation (18) indicates that the sound signal is not zero
  • equation (19) indicates that there is a relatively large change in sound before and after the popping sound
  • equation (20) indicates that the power is within the sampling time. Is relatively constant. Note that the values of the threshold values Th6 to Th8, T, m1, m2, n1, and n2 can be arbitrarily changed by input from the device control unit 14.
  • FIG. 7 is a diagram showing a change in power P n (t) with the time axis as the horizontal axis.
  • the values of the threshold values Th9, Th10, T, and T5 can be arbitrarily changed by input from the device control unit 14.
  • P n (t + T ⁇ T5) ⁇ Th9 (23)
  • FIG. 7 is a diagram showing a change in power P n (t) with the time axis as the horizontal axis.
  • the values of the thresholds Th11, Th12, T, and T5 can be arbitrarily changed by input from the device control unit 14.
  • an audio alarm signal is input to the alarm output unit 15.
  • the alarm output unit 15 displays an alarm on a monitor (not shown) displaying video / audio to be inspected.

Abstract

 デジタル映像信号において種々の原因により発生するノイズに起因した映像のエラーを検出する映像検査方法を提供することにある。又、デジタル音声信号において種々の原因により発生するノイズに起因した音声のエラーを検出する音声検査方法を提供する。 映像・音声検査装置10は、デジタル映像・音声信号を入力する入力部11と、入力したデジタル映像・音声信号から高周波成分を抽出し、演算を行う抽出部12と、抽出部12の抽出結果に基づいて閾値との比較を行い、映像や音声にエラーが発生したか否かを判定する比較・判定部13と、比較・判定部13に対して閾値等の設定を行う制御部14と、比較・判定部13の判定結果に応じてアラームを出力する出力部15とを有する。

Description

映像検査方法及び音声検査方法
 本発明は、デジタル映像音声信号に含まれた映像や音声のエラーを検出できる映像検査方法及び音声検査方法に関する。
 通信回線等のインフラが整備された現在では、海外からデジタル映像音声信号が伝送されるようになり、海外のコンテンツを国内で手軽に視聴できるようになってきた。しかるに、国内の通信設備と海外の通信設備とでは方式が異なる場合があり、デジタル映像音声信号を変換する際にノイズが混入することを完全に回避するのは困難である。このようなノイズが映像信号に混入すると、映像の乱れやブロックノイズ等のエラーを発生させる場合がある。又、ノイズが音声信号に混入すると、いわゆる「プツ」音(Audio Pop Noise)などのエラーとして認識される場合がある。このようなエラーの発生により、視聴者が違和感を覚える恐れがあるので、予め検査者がコンテンツを実際に視聴してエラーを発見するコンテンツ検査が行われている。ところが、コンテンツ検査は人間の目と耳を使い長時間の視聴を行うために、体調に応じて或いは個人差により検査結果が大きくばらつくという問題がある。また、検査のための設備も大きな負担となる。そこで、人間の代わりに機械で検査できないかという要望がある。
 これに対し、特許文献1には、所定の矩形ブロック単位で画素の微分を行ってブロックノイズを機械的に検出する技術が開示されている。
2001-119695号公報 2013-81078号公報
 しかしながら、特許文献1、2は、圧縮伸張処理された映像信号にのみ適用されるものであり、通信回線の不具合、VTRの不具合エラー、その他の障害など、すべてのノイズに起因したエラーを検出する方法は未だ実現していない。加えて、音声信号における、ノイズに起因した「プツ」音なども、精度良く検査する技術は実現していない。
 本発明の目的の1つは、デジタル映像信号において種々の原因により発生するノイズに起因した映像のエラーを検出する映像検査方法を提供することにある。又、本発明の別の目的は、デジタル音声信号において種々の原因により発生するノイズに起因した音声のエラーを検出する音声検査方法を提供することにある。
 第1の本発明の映像検査方法は、連続するデジタル映像信号を20msec以下で区切ってサンプリングし、サンプリングした信号から高周波成分を抽出して、抽出された高周波成分に基づいて、映像に生じたエラーを検出することを特徴とする。
 本発明によれば、連続するデジタル映像信号を20msec以下の非常に短い時間で区切ってサンプリングし、サンプリングした信号から高周波成分を抽出して、抽出された高周波成分に基づいて、実際のコンテンツと区別して映像の乱れやブロックノイズを精度良く検出できる。
 前記デジタル映像信号の1フレームを複数の領域に分割し、前記エラーの検出を各領域毎に行うと好ましい。
 前記エラーは映像の乱れであり、前記抽出された高周波成分は、前記デジタル映像信号のブロック単位の分散値の平均であるアクティビティであると好ましい。
 前記アクティビティ(Vn(t))を時間(t)に対して2階微分してd2Vn(t)/dt2を得たときに、加速度(d2Vn(t)/dt2)/Vn(t-1)が、時間軸にそって、正、負、正又は負、正、負と並んでいたときは、映像の乱れが発生したと判定すると好ましい。
 前記エラーはブロックノイズであり、前記映像信号の検査ブロック内の画素値に対して直交変換を行い、その変換係数が所定の条件を満たしたときは、ブロックノイズが発生したと判定すると好ましい。
 前記変換係数が前記所定の条件を満たしたときは、前記映像信号により表示されるコンテンツに角が生じたと判定すると好ましい。
 前記角の数と偏りから、前記角を、ブロックノイズに起因するものと、コンテンツに起因するものとに区別すると好ましい。
 第2の本発明の音声検査方法は、連続するデジタル音声信号を5msec以下で区切ってサンプリングし、サンプリングした信号から高周波成分を抽出して、抽出された高周波成分に基づいて、音声に生じたエラーを検出することを特徴とする。
 本発明によれば、連続するデジタル音声信号を5msec以下と非常に短い時間で区切ってサンプリングし、サンプリングした信号から高周波成分を抽出して、抽出された高周波成分に基づいて、実際のコンテンツと区別して音声のノイズを精度良く検出できる。
 前記デジタル音声信号が複数チャンネルに記録されているときは、前記エラーの検出を各チャンネル毎に行うと好ましい。
 時間軸に沿って時刻tでサンプリングを行って、前記サンプリングした信号に対して周波数変換を行い、それぞれn個のパワー値Pn(t)と、所定の帯域内における総合パワー値P(t)を求めた場合において、
[1]該総合パワー値P(t)が第1の閾値を超えていた場合、及び
[2]該総合パワー値P(t)を、それ以前の時刻(t-T)での総合パワー値P(t-T)で除した値(P(t)/P(t-T))と、該総合パワー値P(t)を、それ以降の時刻(t+T)での総合パワー値P(t+T)で除した値(P(t)/P(t+T))が、それぞれ第2の閾値を超えていた場合、及び
[3]個々のパワー値Pn(t)を、総合パワー値P(T)で除した値(Pn(t)/P(T))が第3の閾値を超えていたときは、エラーが発生したと判定すると好ましい。
 時間軸に沿った3つのパワー値を比較したときに、1番目のパワー値Pn(t―T5)と3番目のパワー値Pn(t+T+T5)が第4の閾値を上回り、2番目のパワー値の列Pn(t)、・・・、Pn(t+T)が前記第5の閾値を下回ったときは、音飛びが発生したと判定すると好ましい。
 時間軸に沿った3つのパワー値Pn(t)を比較したときに、1番目のパワー値Pn(t―T5)と3番目のパワー値Pn(t+T+T5)が第6の閾値を下回り、2番目のパワー値の列Pn(t)、・・・、Pn(t+T)が前記第7の閾値を上回ったときは、ノイズが発生したと判定すると好ましい。
 本発明によれば、デジタル映像信号において種々の原因により発生するノイズに起因した映像のエラーを検出する映像検査方法を提供することができ、又、デジタル音声信号において種々の原因により発生するノイズに起因した音声のエラーを検出する音声検査方法を提供することができる。
映像・音声検査装置10のブロック図である。 (a)映像の乱れを検出する対象となるフレームを示す図である。(b)分割した領域を示す図である。 時間軸に沿って、時刻(t-2)、(t-1)、t、(t+1)、(t+2)における加速度ACを矢印で示した一例を示す図である。 (a)映像のブロックノイズを検出する対象となるフレームを示す図である。(b)検査ブロックとブロックノイズの関係を示す図である。 コンテンツを表示するフレームの一例である。 デジタル音声を時間軸に沿って1msecで区切り、48個の音声データをサンプリングすることを示す図である。 時間軸を横軸としてパワーPn(t)の変化を示す図である 時間軸を横軸としてパワーPn(t)の変化を示す図である
 本実施の形態にかかる映像検査方法及び音声検査方法を実現できる映像・音声検査装置を,図面を参照して説明する。図1は、映像・音声検査装置10のブロック図である。映像・音声検査装置10は、デジタル映像・音声信号を入力する入力部11と、入力したデジタル映像・音声信号から高周波成分を抽出し、演算を行う抽出部12と、抽出部12の抽出結果に基づいて閾値との比較を行い、映像や音声にエラーが発生したか否かを判定する比較・判定部13と、比較・判定部13に対して閾値等の設定を行う制御部14と、比較・判定部13の判定結果に応じてアラームを出力する出力部15とを有する。
(映像の乱れ検出)
 「映像の乱れ」とは、コンテンツの像がフレーム間で瞬間的に消失後復帰したり、シフトするような現象をいう。ここでは、一般社団法人電波産業会ARIBが規格化した1125/60方式の高精細度テレビジョン放送HDTV(High-definition television)向けのBTAS-001B規格による映像・音声信号を例にとり説明する。このような映像信号は、輝度信号Yと、色差信号Pb,Prとを含んでいる。
 入力部11から映像・音声信号が入力されたとき、抽出部12は、図2(a)に示すように、1フレームにおいて、ラインV1~V2、画像H1~H2の範囲内を、4フィールド(領域)A,B,C,Dに分割し、各領域毎に演算を行う。具体的には、フィールド毎に、ビデオレベル(Video Level)、ビデオアクティビティ(Video Activity)を演算する。ここで、Video Levelとは、画像フレームに含まれる画素の値の平均値であり、輝度信号のレベルともいう。又は色差信号のレベルを用いても良い。更に、Video Activityとしては、画像に含まれる小ブロックごとに分散を求めたとき、この分散のフレーム内の画素の平均値を用いても良いし、単純に画像フレームに含まれる画素のフレーム内での分散値を用いても良い。
 より具体的には、フレーム端からH1,H2までを8画素、フレーム端からV1,V2までを8ラインとすると、検査対象フレームを水平方向にH2=1864画素、垂直方向にV2=536ラインとできるので、これを4分割した1フィールドが928画素、264ラインとなる。ここで、図2(b)に示すように、1フィールド内にmライン、n画素の小ブロックを形成する。つまり小ブロック内の各画素の輝度値はY(m、n)で表せる。ここで、輝度信号Yは16画素×8ラインで小ブロックに分けると好ましい。輝度信号Yを用いる場合、1フィールドの小ブロック数は1914になる。尚、色差信号Pb,Prを用いる場合、8画素×8ラインで小ブロックに分けると好ましい
 更に、各小ブロック毎に、直流成分として信号の平均、交流成分として分散を求める。すなわち、ビデオアクティビティとしての分散を求めることは、高周波成分を抽出することとなる。(1)式は、小ブロック#k内の輝度信号Yについての平均A(k)を求める式であり、(2)式は、小ブロック#k内の輝度信号Yについての分散V(k)を求める式である。これにより、フィールドA~Dでは、それぞれブロック数に応じて平均A(k)と分散V(k)が求まる(k=1~1914)。
Figure JPOXMLDOC01-appb-M000001
 更に、(1),(2)式に従って求めた平均A(k)と分散V(k)を、1フィールド毎に平均化する。(3)式は、各フィールドのビデオアベレージFkA=L11,L21,L12,L22を求める式であり、(4)式は、各フィールドのアクティビティアベレージVkA=S11,S21,S12,S22を求める式である。
Figure JPOXMLDOC01-appb-M000002
 ここで、1フィールド内のn番目のブロック#nにおける時刻tでのビデオアクティビティをVn(t)としたときに、その経時変化に注目する。時刻tを基準として、それ以前の時刻(t-2)、(t-1)と、それ以降の時刻(t+1)、(t+2)におけるビデオアクティビティVn(t-2)、Vn(t-1)、Vn(t+1)、Vn(t-1)をそれぞれ計算する。但し、(t-2)、(t-1)、t、(t+1)、(t+2)の時間間隔は20msec以下であって、単位時間とする。
 ここで、各時刻での一階微分値を求めると、以下のようになる。
 dVn(t-1)/dt=Vn(t-1)-Vn(t-2)   (5)
 dVn(t)/dt=Vn(t)-Vn(t-1)       (6)
 dVn(t+1)/dt=Vn(t+1)-Vn(t)     (7)
 dVn(t+2)/dt=Vn(t+2)-Vn(t-1)   (8)
 更に、各時刻での二階微分値を求めると、以下のようになる。
 d2Vn(t)/dt2=dVn(t)/dt-dVn(t-1)/dt   (9)
 d2Vn(t+1)/dt2=dVn(t+1)/dt-dVn(t)/dt    (10)
 d2Vn(t+2)/dt2=dVn(t+2)/dt-dVn(t+1)/dt   (11)
 ここで、(d2Vn(t)/dt2)/Vn(t-1)を、時刻tにおけるコンテンツの加速度ACと定義するが、これは正負の値をとりうる。加速度ACは、抽出部12から比較・判定部13へと入力される。図3に、時間軸に沿って、時刻(t-2)、(t-1)、t、(t+1)、(t+2)における加速度ACを矢印で示した一例を示す。映像の乱れが生じた場合、コンテンツの加速度ACが、実際の被写体の動きとは異なる異常な動きをするので、加速度ACが大きく変化する。
 具体的には、比較・判定部13が、時間軸に沿って連続する3つの加速度ACを比較する。まず図3において、時刻(t-2)、(t-1)では、双方とも加速度ACが正の値であって閾値Th1を超えている。一方、時刻(t)では、加速度ACが負の値であって、閾値Th2を下回っている。この場合、時刻(t-2)、(t-1)間では加速度ACの向きが同じであるので、映像の乱れを生じていないと判断できる。一方、時刻tでは加速度ACの向きが負となっているので、映像の乱れを生じている可能性がある。
 次いで、時刻(t+1)では加速度ACの向きが再び正の値に戻り、閾値Th1を超えている。従って、時刻(t-1)、t、(t+1)間では加速度ACが閾値を超え,且つ正、負、正の並びとなっている。このように加速度ACが大きく変化した場合、時刻tで領域#nのブロック内で映像の乱れが生じたと判定できる。同様に、加速度ACが閾値を超え,且つ負、正、負の並びとなっている場合も、映像の乱れが生じたと判定できる。
 更に、時刻(t+2)では加速度ACの向きが再び負の値に戻ったが、閾値Th2を下回っていない。よって、時刻t、(t+1)、(t+2)間では加速度ACが時間軸に沿って負、正、負の並びとなっているが、閾値を超えていないのでコンテンツの像の動きは正常の範囲内であるとして、時刻(t+1)では映像の乱れを生じていないと判断する。尚、閾値Th1,Th2の値は、装置制御部14からの入力で任意に変更することが可能である。以上の演算及び比較を、全ての小ブロックで行う。
 比較・判定部13が、映像の乱れが生じたと判定した場合、どのフィールドの、どの小ブロックで映像の乱れが生じたかを示す情報を、アラーム出力部15に入力する。アラーム出力部15は、入力された情報に基づいて、検査対象となる映像・音声を表示したモニタ(不図示)に、アラームを表示させる。このとき、モニタに表示される映像に重ねて、アラームを表示することが好ましく、例えば映像の乱れを検出したフィールドの縁が赤く光るようにすることができる。
(映像のブロックノイズの検出)
 「映像のブロックノイズ」とは、コンテンツの像が、ブロック状に別の像に変換されてしまう現象をいう。ここでも、HDTVの映像・音声信号を例にとり説明する。図4に示すように、入力されたデジタル映像信号を20msec以下で区切ってサンプリングした際に、検査対象フレームを、水平方向に1920画素、垂直方向に540ラインで表すとする。ここで、m画素、nラインの輝度信号の画素値をY(m,n)で表し、これを左上端として8画素×8ラインの画素ブロック(検査ブロック)を定義する。検査ブロックの範囲は、これに限られない。入力部11から映像・音声信号が入力されたとき、抽出部12は、検査ブロック内の画素値に対して、直交変換である2次元離散フーリエ変換を実行する。尚、直交変換としては,これ以外にも離散コサイン変換、ウェーブレット変換などがあり、いずれの直交変換を用いても同様の態様でブロックノイズの角を検出できる。
 このとき、検査ブロック内の64個の画素値をY(0,0)・・・、Y(7,7)で表し、フーリエ変換係数をF(u、v)=F(0,0)・・・、F(7,7)で表すと、(12)式の関係が成立する。このフーリエ変換により、高周波成分を抽出することとなる。
Figure JPOXMLDOC01-appb-M000003
 比較・判定部13は、抽出部12で行ったフーリエ変換の結果、フーリエ変換係数が以下の条件1~4のいずれかを満たす場合、その検査ブロックDBが、図4(a)に示すブロックノイズBNの四隅の角のいずれかに存在すると判定する。具体的には、以下の通りである。
[1]条件1が成立する場合、検査ブロックDBの画素Y(6,6)、Y(7,6)、Y(6,7)、Y(7,7)がブロックノイズ内にあることを示し、それ以外の画素がブロックノイズ外にあることを示すので、図4(b)において示す検査ブロックDB(1)が、ブロックノイズBNの左上にあることを意味する。
[2]条件2が成立する場合、検査ブロックDBの画素Y(0,6)、Y(1,6)、Y(0,7)、Y(1,7)がブロックノイズ内にあることを示し、それ以外の画素がブロックノイズ外にあることを示すので、図4(b)において示す検査ブロックDB(2)が、ブロックノイズBNの右上にあることを意味する。
[3]条件3が成立する場合、検査ブロックDBの画素Y(6,0)、Y(7,0)、Y(6,1)、Y(7,1)がブロックノイズ内にあることを示し、それ以外の画素がブロックノイズ外にあることを示すので、図4(b)において示す検査ブロックDB(3)が、ブロックノイズBNの左上にあることを意味する。
[4]条件4が成立する場合、検査ブロックDBの画素Y(0,0)、Y(1,0)、Y(0,1)、Y(1,1)がブロックノイズ内にあることを示し、それ以外の画素がブロックノイズ外にあることを示すので、図4(b)において示す検査ブロックDB(4)が、ブロックノイズBNの左上にあることを意味する。
 よって、図4(a)の矢印に示すように、検査ブロックDBをフレーム全体にわたって移動させることで、ブロックノイズが発生している場合には、その位置と大きさが分かる。検査対象フレームを例えば4つに分割して、各領域毎にブロックノイズが発生したか否かを検出しても良い。
Figure JPOXMLDOC01-appb-M000004

但し、WuvはF(u,v)の実数部(A)と虚数部(B)の二乗和の平方根(√(A2+B2))である。
 ところで、上述した条件のみでは、コンテンツとしてのビルの窓や、映像に挿入された文字などがブロックノイズとして誤って検出される恐れがある。そこで、ブロックノイズと、窓や文字とを区別する必要がある。これは、以下のようにして比較・判定部13が行う。
 より具体的に説明すると、図5に示すように、検査対象領域(又はフレーム)が、N個の画素(v1~vN)×M本のライン(h1~hM)から構成されているとした場合、コンテンツの窓や文字などの場合、同一垂直線もしくは同一水平線(図5では直線VL,HLが相当)上に角が生じる可能性が高い。そこで、角の出現傾向を標準偏差で表すことで、ブロックノイズと、窓や文字とを区別することが可能になる。
 まず、検査対象領域内の総角数Ncは、角が発生した画素の総数に等しく、また角が発生したラインの総数に等しいから、(13)式で表せる。更に、検査対象領域内で水平方向に発生した角の標準偏差(Dh)2を、(14)式で表し、垂直方向に発生した角の標準偏差(Dv)2を、(15)式で表すものとする。
Figure JPOXMLDOC01-appb-M000005
 ここで、角の標準偏差が小さければ、同一垂直線もしくは同一水平線上に角が乗っている傾向が強い。従って、検査対象領域内において、α=N×Dh×Dvを求めたとき、αの値が比較的小さければ、コンテンツに起因する角が多いと推定できる。そこで、比較・判定部13は、検査対象領域内に角が発生していたと判断した場合、閾値Th5に対してαがそれ以上か否かを判断し、α≧Th5である場合に、検査対象領域内にブロックノイズが発生したと判定するのである。尚、閾値Th3~Th5の値は、装置制御部14からの入力で任意に変更することが可能である。
 比較・判定部13が、映像のブロックノイズが生じたと判定した場合、角を示す位置情報等を含む情報をアラーム出力部15に入力する。アラーム出力部15は、入力された情報に基づいて、検査対象となる映像・音声を表示したモニタ(不図示)に、アラームを表示させる。このとき、モニタに表示される映像に重ねて、ブロックノイズの角の位置を表示することが好ましい。
(音声のエラー検出)
 本実施の形態で検出する音声のエラーの1つは、瞬間的に発生し消滅する、いわゆる「プツ」音である。デジタル音声は、例えば4チャンネルで入力されるので、個々のチャンネル毎のエラーを検出する。
 まず、抽出部12が、図6に示すように、デジタル音声を時間軸に沿って1msecで区切り、例えば48個の音声データをサンプリングする。これ以上の細かいデータは、人間の可聴域を超えるため不要である。更に各音声データに対し、直交変換である離散フーリエ変換により周波数変換を実行する。ここでx(t)は、時刻tにおける音声の振れ幅を示す音声レベルの値である。これにより時刻tにおいて、直流成分を除く23のサンプルデータの高周波成分fj(t)が、(16)式に示すように抽出される。尚、サンプリングは、図6に示すように、例えば0.5msec毎にずらしながら採取する。
Figure JPOXMLDOC01-appb-M000006
(プツ音の検出)
 比較・判定部13が、時刻tにおける高周波成分fj(t)から実数部と虚数部の二乗和を計算することで、パワーが得られる。よって全てのサンプルについてパワーを計算し、これをPn(t)、(但しn=1~23)とする。
 プツ音のパワーは、サンプルデータ間で一様であることが分かっている。時刻tにおける、サンプルデータm1~m2までの総合パワーをP(t)とすると、(17)式で表せる。
Figure JPOXMLDOC01-appb-M000007
 比較・判定部13は、以下の(18)~(20)式を満たすとき、プツ音が発生したと判定する。(18)式の条件は、音声信号がゼロでないことを示し、(19)式は、プツ音前後で比較的大きな音声の変化があることを示し、(20)式は、サンプリング時間内でパワーが比較的一定であることを示す。尚、閾値Th6~Th8、T,m1,m2,n1,n2の値は、装置制御部14からの入力で任意に変更することが可能である。
 P(t)≧Th6   (18)
 P(t)/P(t-T)≧Th7 且つ P(t)/P(t+T)≧Th7   (19)
 Pn(t)/P(t)≧Th8 (但し、nはサンプルデータ#1~#23のうち任意の連番n1~n2のサンプルデータ)   (20)
(音飛びの検出)
 図7は、時間軸を横軸としてパワーPn(t)の変化を示す図である。比較・判定部13は、n=1~23全てにおいて、以下の(21)~(23)式を満たすとき、時刻tで音飛びが発生したと判定する。これは時刻tより時間Tにわたって、音声のパワーが閾値Th10を下回っているが、その前後ではパワーが閾値Th9を上回っていることを意味する。尚、閾値Th9,Th10、T,T5の値は、装置制御部14からの入力で任意に変更することが可能である。
 Pn(t-T5)≧Th9   (21)
 Pn(t)、Pn(t+1)、・・・Pn(t+T)≦Th10   (22)
 Pn(t+T-T5)≧Th9   (23)
(ノイズ挿入の検出)
 図7は、時間軸を横軸としてパワーPn(t)の変化を示す図である。比較・判定部13は、n=1~23全てにおいて、以下の(24)~(26)式を満たすとき、時刻tでノイズ挿入が発生したと判定する。これは時刻tより時間Tにわたって、音声のパワーが閾値Th11を上回っているが、その前後ではパワーが閾値Th9を下回っていることを意味する。尚、閾値Th11,Th12、T,T5の値は、装置制御部14からの入力で任意に変更することが可能である。
 Pn(t-T5)≦Th11   (24)
 Pn(t)、Pn(t+1)、・・・Pn(t+T)≧Th12   (25)
 Pn(t+T-T5)≦Th11   (26)
 比較・判定部13が、音声のエラーが生じたと判定した場合、音声アラーム信号を、アラーム出力部15に入力する。アラーム出力部15は、検査対象となる映像・音声を表示したモニタ(不図示)に、アラームを表示させる。
 本発明により、体調や個人差により検査の精度が左右される検査者に頼ることなく、高精度に映像や音声のエラーを検出できる。
10      映像・音声検査装置
11      入力部
12      抽出部
13      比較・判定部
14      制御部
15      アラーム出力部

Claims (12)

  1.  連続するデジタル映像信号を20msec以下で区切ってサンプリングし、サンプリングした信号から高周波成分を抽出して、抽出された高周波成分に基づいて、映像に生じたエラーを検出することを特徴とする映像検査方法。
  2.  前記デジタル映像信号の1フレームを複数の領域に分割し、前記エラーの検出を各領域毎に行うことを特徴とする請求項1に記載の映像検査方法。
  3.  前記エラーは映像の乱れであり、前記抽出された高周波成分は、前記デジタル映像信号のブロック単位の分散値の平均であるアクティビティであることを特徴とする請求項1又は2に記載の映像検査方法。
  4.  前記アクティビティ(Vn(t))を時間(t)に対して2階微分してd2Vn(t)/dt2を得たときに、加速度(d2Vn(t)/dt2)/Vn(t-1)が、時間軸にそって、正、負、正又は負、正、負と並んでいたときは、映像の乱れが発生したと判定することを特徴とする請求項3に記載の映像検査方法。
  5.  前記エラーはブロックノイズであり、前記映像信号の検査ブロック内の画素値に対して直交変換を行い、その変換係数が所定の条件を満たしたときは、ブロックノイズが発生したと判定することを特徴とする請求項1又は2に記載の映像検査方法。
  6.  前記変換係数が前記所定の条件を満たしたときは、前記映像信号により表示されるコンテンツに角が生じたと判定することを特徴とする請求項5に記載の映像検査方法。
  7.  前記角の数と偏りから、前記角を、ブロックノイズに起因するものと、コンテンツに起因するものとに区別することを特徴とする請求項6に記載の映像検査方法。
  8.  連続するデジタル音声信号を5msec以下で区切ってサンプリングし、サンプリングした信号から高周波成分を抽出して、抽出された高周波成分に基づいて、音声に生じたエラーを検出することを特徴とする音声検査方法。
  9.  前記デジタル音声信号が複数チャンネルに記録されているときは、前記エラーの検出を各チャンネル毎に行うことを特徴とする請求項8に記載の音声検査方法。
  10.  時間軸に沿って時刻tでサンプリングを行って、前記サンプリングした信号に対して周波数変換を行い、それぞれn個のパワー値Pn(t)と、所定の帯域内における総合パワー値P(t)を求めた場合において、
    [1]該総合パワー値P(t)が第1の閾値を超えていた場合、及び
    [2]該総合パワー値P(t)を、それ以前の時刻(t-T)での総合パワー値P(t-T)で除した値(P(t)/P(t-T))と、該総合パワー値P(t)を、それ以降の時刻(t+T)での総合パワー値P(t+T)で除した値(P(t)/P(t+T))が、それぞれ第2の閾値を超えていた場合、及び
    [3]個々のパワー値Pn(t)を、総合パワー値P(T)で除した値(Pn(t)/P(T))が第3の閾値を超えていたときは、エラーが発生したと判定することを特徴とする請求項8又は9に記載の音声検査方法。
  11.  時間軸に沿った3つのパワー値を比較したときに、1番目のパワー値Pn(t―T5)と3番目のパワー値Pn(t+T+T5)が第4の閾値を上回り、2番目のパワー値の列Pn(t)、・・・、Pn(t+T)が前記第5の閾値を下回ったときは、音飛びが発生したと判定することを特徴とする請求項8~10のいずれかに記載の音声検査方法。
  12.  時間軸に沿った3つのパワー値Pn(t)を比較したときに、1番目のパワー値Pn(t―T5)と3番目のパワー値Pn(t+T+T5)が第6の閾値を下回り、2番目のパワー値の列Pn(t)、・・・、Pn(t+T)が前記第7の閾値を上回ったときは、ノイズが発生したと判定することを特徴とする請求項8~10のいずれかに記載の音声検査方法。
PCT/JP2013/078660 2013-10-23 2013-10-23 映像検査方法及び音声検査方法 WO2015059782A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015543639A JP6222854B2 (ja) 2013-10-23 2013-10-23 映像検査方法及び音声検査方法
PCT/JP2013/078660 WO2015059782A1 (ja) 2013-10-23 2013-10-23 映像検査方法及び音声検査方法
US15/031,200 US20160249047A1 (en) 2013-10-23 2013-10-23 Image inspection method and sound inspection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/078660 WO2015059782A1 (ja) 2013-10-23 2013-10-23 映像検査方法及び音声検査方法

Publications (1)

Publication Number Publication Date
WO2015059782A1 true WO2015059782A1 (ja) 2015-04-30

Family

ID=52992420

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/078660 WO2015059782A1 (ja) 2013-10-23 2013-10-23 映像検査方法及び音声検査方法

Country Status (3)

Country Link
US (1) US20160249047A1 (ja)
JP (1) JP6222854B2 (ja)
WO (1) WO2015059782A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877837A (zh) * 2018-06-12 2018-11-23 北京小米移动软件有限公司 音频信号异常识别方法、装置和存储介质
JP2019145974A (ja) * 2018-02-20 2019-08-29 日本放送協会 超高精細映像に適した画質評価装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0937244A (ja) * 1995-07-14 1997-02-07 Oki Electric Ind Co Ltd 動画像データ誤り検出装置
JPH09503890A (ja) * 1993-07-19 1997-04-15 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー ビデオ画像におけるエラー検出
JP2009094892A (ja) * 2007-10-10 2009-04-30 Toshiba Corp 動画像復号装置及び動画像復号方法
JP2011203500A (ja) * 2010-03-25 2011-10-13 Toshiba Corp 音情報判定装置、及び音情報判定方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2890740B2 (ja) * 1990-08-09 1999-05-17 松下電器産業株式会社 ディジタル映像信号再生装置
JPH04320160A (ja) * 1991-04-19 1992-11-10 Matsushita Electric Ind Co Ltd 画像信号圧縮伸長装置および領域識別処理装置
EP0731601B2 (en) * 1995-03-06 2006-10-18 Matsushita Electric Industrial Co., Ltd. Video signal noise reduction apparatus
US6359929B1 (en) * 1997-07-04 2002-03-19 Matsushita Electric Industrial Co., Ltd. Image predictive decoding method, image predictive decoding apparatus, image predictive coding apparatus, and data storage medium
FI107108B (fi) * 1998-11-05 2001-05-31 Nokia Mobile Phones Ltd Virheen ilmaiseminen alhaisen bittinopeuden videolähetyksessä
DE10024374B4 (de) * 2000-05-17 2004-05-06 Micronas Munich Gmbh Verfahren und Vorrichtung zum Messen des in einem Bild enthaltenen Rauschens
KR20050049064A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 영상신호의 노이즈 측정장치 및 그 측정방법
US20050207660A1 (en) * 2004-03-16 2005-09-22 Sozotek, Inc. System and method for reduction of compressed image artifacts
JP5044886B2 (ja) * 2004-10-15 2012-10-10 パナソニック株式会社 ブロックノイズ低減装置および画像表示装置
US7957467B2 (en) * 2005-09-15 2011-06-07 Samsung Electronics Co., Ltd. Content-adaptive block artifact removal in spatial domain
TWI466547B (zh) * 2007-01-05 2014-12-21 Marvell World Trade Ltd 用於改善低解析度視訊之方法與系統
US20080260350A1 (en) * 2007-04-18 2008-10-23 Cooper J Carl Audio Video Synchronization Stimulus and Measurement
TWI404408B (zh) * 2008-10-07 2013-08-01 Realtek Semiconductor Corp 影像處理裝置及影像處理方法
US8144253B2 (en) * 2009-07-21 2012-03-27 Sharp Laboratories Of America, Inc. Multi-frame approach for image upscaling
JP2011244085A (ja) * 2010-05-14 2011-12-01 Sony Corp 信号処理装置及び信号処理方法
JP2012231389A (ja) * 2011-04-27 2012-11-22 Sony Corp 画像処理装置、画像処理方法、及びプログラム
JP2012244319A (ja) * 2011-05-18 2012-12-10 Funai Electric Co Ltd デジタル放送受信機

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09503890A (ja) * 1993-07-19 1997-04-15 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー ビデオ画像におけるエラー検出
JPH0937244A (ja) * 1995-07-14 1997-02-07 Oki Electric Ind Co Ltd 動画像データ誤り検出装置
JP2009094892A (ja) * 2007-10-10 2009-04-30 Toshiba Corp 動画像復号装置及び動画像復号方法
JP2011203500A (ja) * 2010-03-25 2011-10-13 Toshiba Corp 音情報判定装置、及び音情報判定方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019145974A (ja) * 2018-02-20 2019-08-29 日本放送協会 超高精細映像に適した画質評価装置
JP7154522B2 (ja) 2018-02-20 2022-10-18 日本放送協会 超高精細映像に適した画質評価装置
CN108877837A (zh) * 2018-06-12 2018-11-23 北京小米移动软件有限公司 音频信号异常识别方法、装置和存储介质
CN108877837B (zh) * 2018-06-12 2021-01-15 北京小米移动软件有限公司 音频信号异常识别方法、装置和存储介质

Also Published As

Publication number Publication date
US20160249047A1 (en) 2016-08-25
JP6222854B2 (ja) 2017-11-01
JPWO2015059782A1 (ja) 2017-03-09

Similar Documents

Publication Publication Date Title
US8553783B2 (en) Apparatus and method of motion detection for temporal mosquito noise reduction in video sequences
US20140320534A1 (en) Image processing apparatus, and image processing method
JP4290124B2 (ja) 動き系列パターン検出
US8548247B2 (en) Image processing apparatus and method, and program
US20090060370A1 (en) Filter for adaptive noise reduction and sharpness enhancement for electronically displayed pictures
CA2674149A1 (en) Banding artifact detection in digital video content
US20160044315A1 (en) System and method for adaptively compensating distortion caused by video compression
KR20020007402A (ko) 액티브 비디오 신호에 대한 주관적 잡음 측정
KR101156117B1 (ko) 영상 검출 장치 및 영상 검출 방법
JP6222854B2 (ja) 映像検査方法及び音声検査方法
EP2017788A1 (en) Shielding-object video-image identifying device and method
Bong et al. An efficient and training-free blind image blur assessment in the spatial domain
KR101452541B1 (ko) 비디오 신호 분석 방법
CN104796581B (zh) 一种基于噪声分布特征检测的视频去噪系统
US20080018755A1 (en) Method and system for reducing mosquito noise in a digital image
WO2016199418A1 (en) Frame rate conversion system
CN106507157B (zh) 广告投放区域识别方法及装置
KODAMA A Screen Shake Determination Method Using Histograms of Motion Vectors in Video Scenes
US20090123079A1 (en) Reduction of compression artefacts in displayed images
CN114120197A (zh) 2si模式传输的超高清视频异态信号检测方法
US20090207304A1 (en) Method for generating distances representative of the edge orientations in a video picture, corresponding device and use of the method for deinterlacing or format conversion
US20150269904A1 (en) Image processing device and method thereof
US8670071B1 (en) Method and apparatus for de-interlacing video
KR20120062436A (ko) 영상 감시 시스템 및 방법
CN110473200B (zh) 全参考的视频图像质量评价方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13895857

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015543639

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15031200

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13895857

Country of ref document: EP

Kind code of ref document: A1