KR20190039265A - 장면 변화 프레임을 검출하기 위한 방법, 디바이스, 및 시스템 - Google Patents
장면 변화 프레임을 검출하기 위한 방법, 디바이스, 및 시스템 Download PDFInfo
- Publication number
- KR20190039265A KR20190039265A KR1020197007484A KR20197007484A KR20190039265A KR 20190039265 A KR20190039265 A KR 20190039265A KR 1020197007484 A KR1020197007484 A KR 1020197007484A KR 20197007484 A KR20197007484 A KR 20197007484A KR 20190039265 A KR20190039265 A KR 20190039265A
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- scene change
- threshold
- frames
- gop
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/142—Detection of scene cut or scene change
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/179—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/114—Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/177—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/48—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/87—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
본 발명은 비디오 및 시스템에서 장면 변화 프레임을 검출하기 위한 방법 및 장치를 개시한다. 비디오 내의 장면 변화 프레임이 검출될 때, 비디오의 GOP 내의 모든 P 프레임에서의 최대 P 프레임 Pmax가 장면 변화 프레임인지가, Pmax의 크기 와, Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균 사이의 상대적 관계, 또는 와, GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균 사이의 상대적 관계에 기초하여 결정되어 P 프레임들 내의 장면 변화 프레임을 검출해서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
Description
본 발명은 비디오 기술 분야에 관한 것이며, 특히, 장면 변화 프레임을 검출하기 위한 방법 및 장치 및 시스템에 관한 것이다.
통신 기술의 발전에 따라, IPTV(Internet Protocol Television, 인터넷 프로토콜 텔레비전) 서비스 및 OTT 서비스와 같은 비디오 서비스들은 상업적으로 널리 사용되고 있다. 비디오 서비스들의 품질을 보장하기 위해, 비디오 품질이 평가될 필요가 있어서, 대응하는 측정들을 사용하여 적시에 조정이 수행되고, 비디오 서비스들의 정상적인 실행이 보장된다. 따라서, 비디오 품질을 정확하게 평가하는 방법은 긴급하게 해결될 필요가 있는 중요한 문제이다.
비디오의 세그먼트는 복수의 연속적인 비디오 프레임 시퀀스를 포함하고, 일반적으로 하나보다 많은 장면을 포함한다. 예를 들어, 비디오의 세그먼트는 4개의 장면을 포함하고, 장면 1 및 장면 3은 축구 경기장의 샷 비디오들에 대응하고 있고, 장면 2 및 장면 4는 관중석의 샷 비디오들에 대응하고 있다.
비디오 품질이 평가되고 있을 때, 장면이 변하는 위치, 즉 장면 변화 프레임의 위치가 먼저 검출될 필요가 있고, 이어서 비디오 품질은 장면에 기초하여 평가된다. 예를 들어, 비디오 코딩 동안 야기되는 비디오 코딩 손실이 비디오 코딩 타입, 프레임 레이트, 해상도, 및 비트 레이트뿐만 아니라 장면의 복잡도에도 관련되기 때문에, 비디오 코딩 손실을 평가하기 위해 장면이 변하는 위치가 먼저 검출될 필요가 있다. 따라서, 비디오 품질이 평가되고 있을 때, 장면 변화 검출이 정확하게 수행될 필요가 있다.
비디오 내의 비디오 프레임들이 코딩되고 있을 때, 비디오 프레임들은 상이한 타입들의 프레임들, 예를 들어, I 프레임, P 프레임, 및 B 프레임으로 코딩된다. I 프레임은 인트라-프레임 예측 프레임이고, 프레임 내의 데이터만이 코딩 동안 참조된다. P 프레임은 예측 프레임, 즉 단방향 차가 프레임이고, 프레임과 이전 I 프레임(또는 P 프레임) 사이의 차이를 기록하기 위해 사용된다. B 프레임은 양방향 보간 예측 프레임, 즉, 양방향 차가 프레임이고, 이 프레임과, 이전 프레임 및 다음 프레임 각각 간의 차이를 기록하기 위해 사용된다.
장면 변화 프레임을 검출하기 위한 방법은 표준 ITU-T P1201.2 내의 IPTV 모니터링 솔루션에서 제공된다. 그러나, 종래 기술에서 I 프레임들에서의 장면 변화 프레임만이 검출되지만, 실제로 많은 장면 변화 프레임은 P 프레임들이다. 결과적으로, 누락된 검출은 종래 기술에서의 장면 변화 프레임 검출 동안 발생한다.
본 발명의 실시예들은 종래 기술에서의 장면 변화 프레임의 누락된 검출을 회피하기 위해 장면 변화 프레임을 검출하기 위한 방법 및 장치를 제공한다.
제1 양태에 따르면, 장면 변화 프레임을 검출하기 위한 방법이 제공된다. 비디오는 N개의 픽처 그룹 GOP를 포함하고, N은 2보다 크거나 같은 정수이고, 이 방법은 다음을 포함한다:
와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같은 것으로 결정될 때, Pmax가 장면 변화 프레임인 것으로 결정하는 단계- 여기서, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 K번째 GOP에서 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 제1 임계값은 0보다 크고 1보다 작고, 제2 임계값은 1보다 큼 -.
본 발명의 제1 양태에서 제공되는 방법에서, 비디오 내의 장면 변화 프레임이 검출될 때, P 프레임들 내의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
Ithreshold는 제1 임계값이고, Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이다.
Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이기 때문에, 유효 임계값은 수학식 또는 을 사용하여 정확하게 계산될 수 있어서, P 프레임들 내의 장면 변화 프레임이 정확하게 검출된다.
제1 양태 또는 제1 양태의 제1 가능한 구현을 참조하여, 제2 가능한 구현에서, 와 사이의 상대값 는 구체적으로 수학식 에 따라 계산될 수 있다. 와 사이의 상대적 관계는 수학식 에서 간단하고 효과적으로 반영될 수 있다.
= F(P-m, …, P-1, P1, …, Pn)- 여기서 P- m, ..., 및 P-1은 K번째 GOP에서의 Pmax 전의 P 프레임들을 나타내고, Pn은 K번째 GOP에서의 Pmax 후의 P 프레임들을 나타내고, F는 P-m, …, 및 P-1, 및 P1, …, 및 Pn의 크기들의 중앙값 또는 평균을 계산하기 위해 사용됨 -; 및
m = min(num_before_P_frames, max_num), 및
n = min(num_after_P_frames, max_num)- 여기서,
num_before_P_frames는 K번째 GOP에서의 Pmax 전의 P 프레임들의 수량이고, num_after_P_frames는 K번째 GOP에서의 Pmax 후의 P 프레임들의 수량이고, max_num은 고려될 필요가 있는 프레임들의 미리 설정된 수량을 나타냄 -.
는 수학식을 사용하여 계산되고, 제1 비디오 프레임이 위치하는 GOP 내에 있는, 제1 비디오 프레임에 가장 가까운 일부 비디오 프레임이 고려되어서, P 프레임들 내의 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
제2 양태에 따르면, 비디오 품질 평가를 구현하기 위한 방법이 제공된다. 비디오는 N개의 픽처 그룹 GOP를 포함하고, N은 2보다 크거나 같은 정수이고, 방법은:
와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 존재하지 않는 경우, 또는 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 존재하고, 와 사이의 상대값이 제3 임계값보다 크거나 같은 것으로 결정되는 경우에, Pmax가 장면 변화 프레임인 것으로 결정하는 단계를 포함하고, 여기서, 는, Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 K번째 GOP에서의 복수 개의 P 프레임의 크기들의 중앙값 또는 평균이고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 모든 B 프레임의 크기들의 중앙값 또는 평균이고, 제1 임계값은 0보다 크고 1보다 작고, 제2 임계값은 1보다 크고, 제3 임계값은 1보다 크다.
본 발명의 제2 양태에 제공되는 방법에서, 비디오 내의 장면 변화 프레임이 검출될 때, P 프레임들 내의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다. 또한, P 프레임들 내의 장면 변화 프레임이 검출될 때, I 프레임 및 P 프레임의 크기들뿐만 아니라 B 프레임의 크기도 고려되어서, P 프레임들 내의 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
Ithreshold는 제1 임계값이고, Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이다.
Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이기 때문에, 유효 임계값은 수학식 또는 을 사용하여 정확하게 계산될 수 있어서, P 프레임들 내의 장면 변화 프레임이 정확하게 검출된다.
제2 양태 또는 제2 양태의 제1 가능한 구현을 참조하여, 제2 가능한 구현에서, 와 사이의 상대값 는 구체적으로 수학식 에 따라 계산될 수 있다. 와 사이의 상대적 관계는 수학식 에서 간단하고 효과적으로 반영될 수 있다.
= F(P-m, …, P-1, P1, …, Pn)- 여기서 P- m, ..., 및 P-1은 K번째 GOP에서의 Pmax 전의 P 프레임들을 나타내고, Pn은 K번째 GOP에서의 Pmax 후의 P 프레임들을 나타내고, F는 P-m, …, 및 P-1, 및 P1, …, 및 Pn의 크기들의 중앙값 또는 평균을 계산하기 위해 사용됨 -; 및
m = min(num_before_P_frames, max_num), 및
n = min(num_after_P_frames, max_num)- 여기서,
num_before_P_frames는 K번째 GOP에서의 Pmax 전의 P 프레임들의 수량이고, num_after_P_frames는 K번째 GOP에서의 Pmax 후의 P 프레임들의 수량이고, max_num은 고려될 필요가 있는 프레임들의 미리 설정된 수량을 나타냄 -.
는 수학식을 사용하여 계산되고, 제1 비디오 프레임이 위치하는 GOP 내에 있는, 제1 비디오 프레임에 가장 가까운 일부 비디오 프레임이 고려되어서, P 프레임들 내의 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
여기서, Bthreshold는 제3 임계값이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이고, Bmedian은 비디오 내의 모든 B 프레임의 크기들의 중앙값 또는 평균이다.
Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이고, Bmedian은 비디오 내의 모든 B 프레임의 크기들의 중앙값 또는 평균이기 때문에, 유효 임계값은 수학식 또는 을 사용하여 정확하게 계산될 수 있어서, P 프레임들 내의 장면 변화 프레임이 정확하게 검출된다.
제2 양태의 제3 가능한 구현을 참조하여, 제4 가능한 구현에서, K번째 GOP에서의 Pmax가 장면 변화 프레임으로서 결정된 후에, 비디오 내의 장면 변화 프레임으로서 결정되는 P 프레임 이외의 P 프레임들의 크기들의 중앙값 또는 평균이 새로운 Pmedian으로서 사용되고, 새로운 Bthreshold가 수학식 또는 에 따라 계산된다. 새로운 Bthreshold는 다음 GOP에서의 Pmax가 장면 변화 프레임인지를 결정하기 위해 사용된다.
제2 양태의 제4 가능한 구현을 참조하여, 제3 임계값 Bthreshold는 실시간으로 업데이트되어서, 장면 변화 프레임으로서 결정되는 P 프레임의 영향이 적시에 제거되게 함으로써, P 프레임들에서 장면 변화 프레임을 검출하는 정확도를 추가로 개선할 수 있다.
제3 양태에 따르면, 비디오 내의 장면 변화 프레임을 검출하기 위한 검출 장치가 제공된다. 비디오는 N개의 GOP를 포함하고, N은 2보다 크거나 같은 정수이고, 검출 장치는 제1 결정 유닛 및 제2 결정 유닛을 포함한다.
제1 결정 유닛은 K번째 GOP 내의 모든 P 프레임에서 최대 P 프레임 Pmax를 결정하도록 구성되고, 여기서 Pmax의 크기는 이고, K는 M 내지 N의 범위의 변수이고, 1 ≤ M ≤N이고;
제2 결정 유닛은: 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같은 것으로 결정될 때, Pmax가 장면 변화 프레임인 것으로 결정하도록 구성되고, 여기서, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 K번째 GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 제1 임계값은 0보다 크고 1보다 작고, 제2 임계값은 1보다 크다.
본 발명의 제3 양태에 제공되는 검출 장치에서, 비디오 내의 장면 변화 프레임이 검출될 때, P 프레임들에서의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
Ithreshold는 제1 임계값이고, Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이다.
Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이기 때문에, 유효 임계값은 수학식 또는 를 사용하여 정확하게 계산될 수 있어서, P 프레임들 내의 장면 변화 프레임이 정확하게 검출된다.
제3 양태 또는 제3 양태의 제1 가능한 구현을 참조하여, 제2 가능한 구현에서, 제2 결정 유닛은 구체적으로 수학식 에 따라 와 사이의 상대값 를 계산할 수 있다. 와 사이의 상대적 관계는 수학식 에서 간단하고 효과적으로 반영될 수 있다.
= F(P-m, …, P-1, P1, …, Pn)- 여기서 P- m, ..., 및 P-1은 K번째 GOP에서의 Pmax 전의 P 프레임들을 나타내고, Pn은 K번째 GOP에서의 Pmax 후의 P 프레임들을 나타내고, F는 P-m, …, 및 P-1, 및 P1, …, 및 Pn의 크기들의 중앙값 또는 평균을 계산하기 위해 사용됨 -; 및
m = min(num_before_P_frames, max_num), 및
n = min(num_after_P_frames, max_num)- 여기서,
num_before_P_frames는 K번째 GOP에서의 Pmax 전의 P 프레임들의 수량이고, num_after_P_frames는 K번째 GOP에서의 Pmax 후의 P 프레임들의 수량이고, max_num은 고려될 필요가 있는 프레임들의 미리 설정된 수량을 나타냄 -.
는 수학식을 사용하여 계산되고, 제1 비디오 프레임이 위치하는 GOP 내에 있는, 제1 비디오 프레임에 가장 가까운 일부 비디오 프레임이 고려되어서, P 프레임들 내의 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
제4 양태에 따르면, 비디오 내의 장면 변화 프레임을 검출하기 위한 검출 장치가 제공된다. 비디오는 N개의 픽처 그룹 GOP를 포함하고, N은 2보다 크거나 같은 정수이고, 검출 장치는 제1 결정 유닛 및 제2 결정 유닛을 포함한다.
제1 결정 유닛은 K번째 GOP 내의 모든 P 프레임에서 최대 P 프레임 Pmax를 결정하도록 구성되고, 여기서 Pmax의 크기는 이고, K는 M 내지 N의 범위의 변수이고, 1 ≤ M ≤N이고;
제2 결정 유닛은 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에서 B 프레임이 존재하지 않는 경우, 또는 와 사이의 상대값이 제1 임계값보다 크거나 같고, 또는 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에서 B 프레임이 존재하고, 와 사이의 상대값이 제3 임계값보다 크거나 같은 경우, Pmax가 장면 변화 프레임인 것으로 결정하도록 구성되고, 여기서, 는, Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 K번째 GOP에서의 복수 개의 P 프레임의 크기들의 중앙값 또는 평균이고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 모든 B 프레임의 크기들의 중앙값 또는 평균이고, 제1 임계값은 0보다 크고 1보다 작고, 제2 임계값은 1보다 크고, 제3 임계값은 1보다 크다.
본 발명의 제4 양태에 제공되는 검출 장치에서, 비디오에서의 장면 변화 프레임이 검출될 때, P 프레임들에서의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다. 또한, P 프레임들 내의 장면 변화 프레임이 검출될 때, I 프레임 및 P 프레임의 크기들뿐만 아니라 B 프레임의 크기도 고려되어서, P 프레임들 내의 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
Ithreshold는 제1 임계값이고, Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이다.
Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이기 때문에, 유효 임계값은 수학식 또는 를 사용하여 정확하게 계산될 수 있어서, P 프레임들 내의 장면 변화 프레임이 정확하게 검출된다.
제4 양태 또는 제4 양태의 제1 가능한 구현을 참조하여, 제2 가능한 구현에서, 제2 결정 유닛은 구체적으로 수학식 에 따라 와 사이의 상대값 를 계산할 수 있다. 와 사이의 상대적 관계는 수학식 에서 간단하고 효과적으로 반영될 수 있다.
= F(P-m, …, P-1, P1, …, Pn)- 여기서 P- m, ..., 및 P-1은 K번째 GOP에서의 Pmax 전의 P 프레임들을 나타내고, Pn은 K번째 GOP에서의 Pmax 후의 P 프레임들을 나타내고, F는 P-m, …, 및 P-1, 및 P1, …, 및 Pn의 크기들의 중앙값 또는 평균을 계산하기 위해 사용됨 -; 및
m = min(num_before_P_frames, max_num), 및
n = min(num_after_P_frames, max_num)- 여기서,
num_before_P_frames는 K번째 GOP에서의 Pmax 전의 P 프레임들의 수량이고, num_after_P_frames는 K번째 GOP에서의 Pmax 후의 P 프레임들의 수량이고, max_num은 고려될 필요가 있는 프레임들의 미리 설정된 수량을 나타냄 -.
는 수학식을 사용하여 계산되고, 제1 비디오 프레임이 위치하는 GOP 내에 있는, 제1 비디오 프레임에 가장 가까운 일부 비디오 프레임이 고려되어서, P 프레임들 내의 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
제4 양태, 또는 제4 양태의 제1 또는 제2 가능한 구현을 참조하여, 제3 가능한 구현에서, 제2 결정 유닛은 구체적으로 수학식 또는 에 따라 와 사이의 상대값 를 계산할 수 있다.
여기서, Ithreshold는 제1 임계값이고, Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Bmedian은 비디오 내의 모든 B 프레임의 크기들의 중앙값 또는 평균이다.
Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Bmedian은 비디오 내의 모든 B 프레임의 크기들의 중앙값 또는 평균이기 때문에, 유효 임계값은 수학식 또는 을 사용하여 정확하게 계산될 수 있어서, P 프레임들 내의 장면 변화 프레임이 정확하게 검출된다.
제4 양태의 제3 가능한 구현을 참조하여, 제4 가능한 구현에서, K번째 GOP에서의 Pmax가 장면 변화 프레임으로서 결정된 후에, 비디오 내의 장면 변화 프레임으로서 결정되는 P 프레임 이외의 P 프레임들의 크기들의 중앙값 또는 평균이 새로운 Pmedian으로서 사용되고, 새로운 Bthreshold가 수학식 또는 에 따라 계산된다. 새로운 Bthreshold는 다음 GOP에서의 Pmax가 장면 변화 프레임인지를 결정하기 위해 사용된다.
제4 양태의 제4 가능한 구현을 참조하여, 제3 임계값 Bthreshold는 실시간으로 업데이트될 수 있어서, 장면 변화 프레임으로서 결정되는 P 프레임의 영향이 적시에 제거됨으로써, P 프레임들에서 장면 변화 프레임을 검출하는 정확도를 더 개선시킨다.
제5 양태에 따르면, 비디오 내의 장면 변화 프레임을 검출하기 위한 검출 장치가 제공되고, 검출 장치는 프로세서 및 메모리를 포함한다.
메모리는 컴퓨터 동작 명령어를 저장하도록 구성된다.
프로세서는 메모리에 저장된 컴퓨터 동작 명령어를 실행하여, 검출 장치가 제1 양태 또는 제1 양태의 가능한 구현들 중 어느 하나 또는 제2 양태 또는 제2 양태의 가능한 구현들 중 어느 하나에 제공되는 방법을 수행할 수 있게 하도록 구성된다.
본 발명의 제5 양태에 제공되는 검출 장치에서, 비디오에서의 장면 변화 프레임이 검출될 때, P 프레임들에서의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
제6 양태에 따르면, 검출 디바이스가 제공되고, 검출 디바이스는 미디어 유닛 및 검출 장치를 포함한다.
미디어 유닛은 비디오를 획득하고, 비디오를 검출 장치에 송신하도록 구성된다.
검출 장치는 미디어 유닛으로부터 비디오를 획득하고, 제3 양태 또는 제3 양태의 가능한 구현들 중 어느 하나, 제4 양태 또는 제4 양태의 가능한 구현들 중 어느 하나, 또는 제5 양태 또는 제5 양태의 가능한 구현들 중 어느 하나에 제공되는 검출 장치에 의해 수행되는 동작을 수행하도록 구성된다.
본 발명의 제6 양태에 제공되는 검출 디바이스에서, 비디오에서의 장면 변화 프레임이 검출될 때, P 프레임들에서의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
제7 양태에 따르면, 비디오 품질 평가를 구현하기 위한 시스템이 제공되고, 이 시스템은 비디오 서버, 송신 디바이스 및 비디오 단말기를 포함한다. 비디오 서버에 의해 전송된 비디오 스트림은 송신 디바이스를 통해 비디오 단말기에 송신된다.
송신 디바이스 또는 비디오 단말기는 구체적으로, 제3 양태 또는 제3 양태의 가능한 구현들 중 어느 하나에 제공되는 검출 장치, 제4 양태 또는 제4 양태의 가능한 구현들 중 어느 하나, 또는 제5 양태 또는 제5 양태의 가능한 구현들 중 어느 하나에 제공되는 검출 장치를 포함할 수 있다.
시스템은 제1 검출 장치를 추가로 포함하고, 제1 검출 장치는 구체적으로 제3 양태 또는 제3 양태의 가능한 구현들 중 어느 하나, 제4 양태의 제4 양태 또는 가능한 구현들 중 어느 하나, 또는 제5 양태의 가능한 구현들 중 어느 하나 또는 제5 양태의 가능한 구현들 중 어느 하나에 제공되는 검출 장치일 수 있다. 송신 디바이스(2020) 또는 비디오 단말기(2030)는 제1 검출 장치에 접속되고, 제1 검출 장치는 제1 검출 장치에 접속되는 송신 디바이스 또는 비디오 단말기를 사용하여 비디오 스트림을 획득한다.
본 발명의 제7 양태에 제공되는 시스템에서, 비디오에서의 장면 변화 프레임이 검출될 때, P 프레임들에서의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
본 발명의 실시예들에서의 기술적 해결책들을 보다 명확하게 설명하기 위해, 다음은 실시예들 또는 종래 기술을 설명하는데 요구되는 첨부 도면들을 간단하게 설명한다. 명백하게, 다음의 설명에서의 첨부 도면들은 단지 본 발명의 일부 실시예를 나타내고, 본 기술분야의 통상의 기술자는 창조적인 노력 없이 이들 첨부 도면들로부터 다른 도면들을 여전히 도출할 수 있다.
도 1a 및 도 1b는 본 발명의 실시예 1에 따른 비디오 시스템(100)의 네트워킹 구조의 개략도들이다;
도 2a, 도 2b 및 도 2c는 본 발명의 실시예 1에 따른 GOP의 개략도들이다;
도 3a, 도 3b 및 도 3c는 본 발명의 실시예 1의 구현 A에 따른 방법의 개략적인 흐름도들이다;
도 4a, 도 4b 및 도 4c는 본 발명의 실시예 1의 구현예 B에 따른 방법의 개략적인 흐름도들이다;
도 5a, 도 5b 및 도 5c는 본 발명의 실시예 1에 따른 GOP의 일례의 개략도들이다;
도 6은 본 발명의 실시예 2에 따른 검출 장치(200)의 개략 구조도이다;
도 7은 본 발명의 실시예 3에 따른 검출 장치(1000)의 개략 구조도이다;
도 8은 본 발명의 실시예 4에 따른 검출 디바이스(400)의 개략 구조도이다; 및
도 9a 내지 도 9c는 본 발명의 실시예 5에 따른 시스템(2000)의 개략 구조도이다.
도 1a 및 도 1b는 본 발명의 실시예 1에 따른 비디오 시스템(100)의 네트워킹 구조의 개략도들이다;
도 2a, 도 2b 및 도 2c는 본 발명의 실시예 1에 따른 GOP의 개략도들이다;
도 3a, 도 3b 및 도 3c는 본 발명의 실시예 1의 구현 A에 따른 방법의 개략적인 흐름도들이다;
도 4a, 도 4b 및 도 4c는 본 발명의 실시예 1의 구현예 B에 따른 방법의 개략적인 흐름도들이다;
도 5a, 도 5b 및 도 5c는 본 발명의 실시예 1에 따른 GOP의 일례의 개략도들이다;
도 6은 본 발명의 실시예 2에 따른 검출 장치(200)의 개략 구조도이다;
도 7은 본 발명의 실시예 3에 따른 검출 장치(1000)의 개략 구조도이다;
도 8은 본 발명의 실시예 4에 따른 검출 디바이스(400)의 개략 구조도이다; 및
도 9a 내지 도 9c는 본 발명의 실시예 5에 따른 시스템(2000)의 개략 구조도이다.
다음은 본 발명의 실시예들에서의 첨부 도면들을 참조하여 본 발명의 실시예들에서의 기술적 해결책들을 명확하게 그리고 완전하게 설명한다. 명백하게, 설명된 실시예들은 본 발명의 실시예들의 전부가 아니라 일부이다. 창의적인 노력들 없이 본 발명의 실시예들에 기초하여 본 기술분야에서의 통상의 기술자에 의해 획득되는 모든 다른 실시예는 본 발명의 보호 범위 내에 있을 것이다.
도 1a는 본 발명의 실시예에 따른 비디오 시스템(100)의 네트워킹 구조의 개략도이다. 비디오 시스템(100)은 비디오 서버(110), 하나 이상의 송신 디바이스(120), 및 비디오 단말기(130)를 포함한다. 비디오 서버(110)에 의해 송신된 비디오 스트림은 송신 디바이스(120)를 통해 비디오 단말기(130)에 송신된다.
비디오 시스템(100)은 구체적으로 도 1b에 도시된 IPTV 시스템일 수 있다. IPTV 시스템에서, 비디오 서버(110)는 구체적으로 비디오 헤드엔드(video headend, video HE)이다. 송신 디바이스(120)는 구체적으로 코어 라우터(Core Router, CR), 광대역 네트워크 게이트웨이(Broadband Network Gateway, BNG), 또는 광 라인 단말기(Optical Line Terminal, OLT)와 같은 네트워크 디바이스를 포함한다. 비디오 단말기(130)는 구체적으로 셋톱 박스(Set Top Box, STB)이다.
도 1a 및 도 1b에 도시된 비디오 시스템에서, 비디오 스트림이 비디오 서버로부터 비디오 단말기로 전송될 때, 패킷 손실, 지연, 지터 또는 무질서와 같은 비정상 현상이 네트워크 상태 변화로 인해 비디오 스트림에서 발생할 수 있다. 이러한 비정상 현상들은 비디오 단말기의 스크린 상에 디스플레이되는 비디오 이미지에서 에러 디스플레이, 프레임 프리징(freezing) 등이 발생하는 문제들을 초래할 수 있고, 결과적으로 사용자의 비디오 시청 경험이 훼손된다. 따라서, 비디오 품질을 평가함으로써 사용자의 비디오 경험이 모니터링될 필요가 있다.
비디오 품질이 평가되고 있을 때, 장면이 변하는 위치, 즉 장면 변화 프레임의 위치가 일반적으로 먼저 검출될 필요가 있고, 이어서 비디오 품질은 장면에 기초하여 평가된다.
예를 들어, 비디오 코딩 동안 야기되는 비디오 코딩 손실이 비디오 코딩 타입, 프레임 레이트, 해상도, 및 비트 레이트뿐만 아니라 장면의 복잡도에도 관련되기 때문에, 비디오 코딩 손실을 평가하기 위해 장면이 변하는 위치가 먼저 검출될 필요가 있다.
다른 예의 경우, 비디오 송신 프로세스에서 패킷 손실이 발생할 때, 비디오 단말기의 디코더는 손상된 프레임의 선행 프레임의 대응 영역의 비디오 콘텐츠를, 손상된 프레임에서의 손상된 영역의 콘텐츠로서 일반적으로 사용하여, 손상된 프레임에 대한 에러 보상을 수행하고, 따라서 손상된 프레임과 이전 프레임 간의 더 작은 콘텐츠 차이가 더 나은 보상 효과를 생성한다. 그러나, 손상된 프레임이 장면 변화 프레임일 때, 장면 변화 프레임의 콘텐츠는 장면 변화 프레임의 선행 프레임의 콘텐츠와 거의 완전히 상이하기 때문에, 보상 효과는 최악이다. 따라서, 비디오 품질이 패킷 손실에 의해 영향을 받을 때, 손상된 프레임이 장면 변화 프레임인지가 고려될 필요가 있다.
다른 예의 경우, 코딩된 비디오 프레임 시퀀스는 복수의 픽처 그룹(Group of Picture, GOP)을 포함한다. 도 2a에 도시된 바와 같이, 각각의 GOP는 I 프레임에 이어서 일부 P 프레임 및 B 프레임으로 시작하고, 다음 I 프레임의 이전 프레임에서 끝난다. I 프레임은 인트라-프레임 프레임이고, P 프레임은 전방 참조 프레임이고, B 프레임은 양방향 참조 프레임이다. GOP 내의 프레임에서 패킷 손실이 발생할 때, 패킷 손실에 의해 야기되는 디코딩 에러는 다음 비디오 프레임에서 연속적으로 확산되고, 일반적으로 GOP 내의 마지막 프레임에서 종료된다. 도 2b에 도시된 바와 같이, GOP(1) 내의 제4 프레임이 손상될 때, 일반적으로 에러가 연속적으로 확산되고, GOP의 마지막 프레임에서 종료되는 것으로 간주된다. 그러나, GOP에 장면 변화 프레임이 있을 때, 장면 변화 프레임의 콘텐츠는 장면 변화 프레임의 선행 프레임의 콘텐츠와 거의 완전히 상이하고, 인트라-프레임 예측 코딩은 코딩 동안 일반적으로 수행된다(인트라-프레임 예측 코딩은 장면 변화 프레임 내의 대부분의 매크로블록들에 대해 수행된다). 따라서, GOP에서 장면 변화 프레임 전의 프레임이 손상되면, 에러 확산은 장면 변화 프레임에서 종료된다. 도 2c에 도시된 바와 같이, GOP(1) 내의 제6 프레임은 장면 변화 프레임이고, 제4 프레임이 손상될 때, 제6 프레임에서 에러 확산이 종료된다. 따라서, 비디오 품질이 패킷 손실에 의해 영향을 받을 때, 장면 변화 프레임이 검출될 필요가 있다.
본 발명의 이 실시예에서 설명된 프레임들의 시퀀스는 시간 면에서 비디오 내의 프레임들의 시퀀스이라는 점을 유의해야 한다. 예를 들어, 지속기간 T(예를 들어, 10초)를 갖는 비디오는 순간 t1에서의 비디오 프레임(1) 및 순간 t2에서의 비디오 프레임(2)을 포함한다. t1이 t2보다 작으면, 예를 들어, t1은 1초 30밀리초이고, t2는 5초 40밀리초이면, 비디오 프레임 1은 비디오 프레임 2 전에 있다.
특정 구현에서, 장면 변화 프레임을 검출하기 위한 검출 장치가 비디오 시스템 내에 배치될 수 있다. 검출 장치는 비디오 스트림이 통과하는 임의의 디바이스(예를 들어, 송신 디바이스(120) 또는 비디오 단말기(130)) 상에 배치될 수 있거나, 또는 비디오 스트림이 통과하는 임의의 디바이스 상에서 바이패스되어 비디오 스트림을 미러링 방식으로 획득할 수 있다.
도 3a 및 도 3b는 본 발명의 실시예 1에 따른 방법의 개략적인 흐름도들이다. 본 발명의 실시예 1의 방법은 도 1a 및 도 1b에 도시된 비디오 시스템(100)에 적용될 수 있고, 검출 장치에 의해 수행된다.
본 발명의 실시예 1에서, (이하에서 검출될 비디오로서 지칭되는) 비디오 내의 장면 변화 프레임이 검출된다. 검출될 비디오는 비디오 파일로부터 판독될 수 있거나, 또는 획득된 비디오 스트림으로부터 획득될 수 있다. 검출될 비디오는 구체적으로 완전한 비디오일 수 있거나, 또는 비디오 내의 비디오 세그먼트일 수 있다. 비교적 긴 비디오에 대해, 측정 시간 윈도우가 일반적으로 설정되고, 측정 시간 윈도우 내의 비디오 세그먼트가 검출된다. 예를 들어, 비디오가 검출되고 있을 때, 측정 시간 윈도우의 길이는 10초로 설정되고, 비디오에서 0 내지 10초의 비디오 세그먼트가 먼저 검출될 비디오로서 검출되고, 이어서 10 내지 20초의 비디오 세그먼트가 검출될 비디오로서 검출되고, 이러한 검출이 유추에 의해 수행된다.
검출 전에, 검출 모듈은 검출될 비디오에서의 각각의 비디오 프레임의 타입(예컨대, I 프레임, P 프레임 또는 B 프레임) 및 크기를 먼저 결정할 수 있다.
예를 들어, 비디오 스트림이 실시간으로 획득되고, 비디오 프레임에 관한 정보가 측정 시간 윈도우(예를 들어, 10 내지 20초) 내의 비디오 스트림에 대응하는 패킷으로부터 추출되고, (바이트 단위로) 비디오 프레임의 크기가 계산된다. 비디오 프레임의 크기를 계산하는 구체적인 프로세스는 다음과 같다: 측정 시간 윈도우 내의 각각의 패킷에 대해, 현재 비디오 프레임의 시작 식별자가 패킷의 헤더로부터 먼저 발견되고, 이어서 후속 패킷의 로드 길이 및 시작 식별자를 포함하는 패킷의 로드 길이가 다음 비디오 프레임의 시작 식별자가 발견될 때까지 누적된다. 누적된 합은 현재 비디오 프레임의 크기이다. 비디오 프레임의 크기를 계산하는 특정 구현에 대해서는, 표준 ITU-T P1201.2를 참조한다.
이어서, 측정 시간 윈도우 내의 모든 비디오 프레임의 타입들이 결정된다. 구체적으로, 비디오 프레임의 타입은 패킷의 패킷 헤더 내의 필드 random_access_indicator에 기초하여 결정될 수 있다. I 프레임에 대해, 비디오가 암호화되는지 여부에 관계없이, 프레임의 타입은 random_access_indicator에 기초하여 결정될 수 있다. 비-I 프레임에 대해, 비디오가 암호화되지 않은 경우, 프레임의 타입은 비디오 프레임의 프레임 헤더로부터 직접 획득될 수 있다. 비디오가 암호화되거나 비디오 프레임의 프레임 헤더가 손실될 때, GOP 모드는 프레임의 크기 또는 프레임의 프레젠테이션 타임 스탬프(Present Time Stamp, PTS)에 기초하여 먼저 추정될 수 있다. GOP 모드는 일반적으로 P B B P B B 또는 P B B B P B B B이다. GOP 모드는 현재 PTS의 값과 이전 PTS의 값 사이의 차이를 사용하여 설명될 수 있다. GOP 모드가 결정되면, 모든 손실된 또는 암호화된 비디오 프레임의 모드들이 결정될 수 있다. 비디오 프레임의 타입을 결정하는 특정 구현의 경우, 표준 ITU-T P1201.2를 참조한다.
검출될 비디오는 전술한 두 단계를 수행함으로써 여러 GOP로 분할될 수 있다. 하나의 검출될 비디오는 일반적으로 복수의 GOP를 포함한다. 도 5a의 예에 도시된 바와 같이, 하나의 검출될 비디오는 N개의 GOP를 포함하고, N은 2보다 크거나 같은 정수인 것으로 가정된다. 도 5a에 도시된 예에서, 단색으로 채워진 비디오 프레임은 I 프레임이고, 사선으로 채워진 비디오 프레임은 P 프레임이고, 채워지지 않은 비디오 프레임은 B 프레임이다.
하나의 비디오 프레임은 하나의 이미지이다. 비디오 내의 비디오 프레임들이 코딩되고 있을 때, 비디오 프레임들은 상이한 타입들의 프레임들, 예를 들어, I 프레임, P 프레임, 및 B 프레임으로 코딩된다. I 프레임은 인트라-프레임 예측 프레임이고, 코딩 동안 프레임 내의 데이터만이 참조되고, 따라서 I 프레임은 완전한 이미지 데이터를 포함한다. P 프레임은 예측 프레임, 즉 단방향 차가 프레임이고, 프레임과 이전 I 프레임(또는 P 프레임) 사이의 차이를 기록하기 위해 사용된다. B 프레임은 양방향 보간 예측 프레임, 즉, 양방향 차가 프레임이고, 이 프레임과, 이전 프레임 및 다음 프레임 각각 간의 차이를 기록하기 위해 사용된다.
I 프레임은 일반적으로 P 프레임보다 크고, P 프레임은 일반적으로 B 프레임보다 크다. 일반적으로, I 프레임은 P 프레임의 크기의 2 내지 5배이고, P 프레임은 B 프레임의 크기의 2 내지 5배이다.
장면 변화 프레임의 콘텐츠와 장면 변화 프레임의 이전 프레임의 콘텐츠 사이의 차이가 비교적 크기 때문에, 장면 변화 프레임이 P 프레임으로 코딩되더라도, 인트라-프레임 예측 코딩은 프레임 내의 다른 매크로블록을 참조하여 장면 변화 프레임 내의 대부분의 매크로블록들에 대해 수행된다. 따라서, 코딩된 장면 변화 프레임의 크기는 비교적 크다. P 프레임의 크기가 I 프레임의 크기의 절반을 초과하는 경우, P 프레임은 장면 변화 프레임일 가능성이 있다. 따라서, P 프레임인 장면 변화 프레임이 검출될 때, P 프레임과 I 프레임 사이의 상대적 관계가 참조될 수 있다.
그러나, 비디오 변화들에서의 이미지 콘텐츠가 비교적 빠르게 변하는 경우, 예를 들어, 격렬한 축구 이벤트와 같은 비교적 격렬한 운동의 샷 장면인 경우, 2개의 인접한 비디오 프레임 사이의 상관성이 작기 때문에, 장면 변화 프레임이 아닌 프레임이 코딩되고 있는 경우, 프레임이 이전 비디오 프레임을 참조하여 P 프레임으로 코딩되어도, 압축 레이트는 비교적 낮고, P 프레임의 크기는 비교적 큰고, 심지어 I 프레임의 크기의 절반을 초과한다. 이 경우, 장면 변화 프레임이 아닌 인접한 P 프레임들 사이의 크기 차이는 크지 않지만, 장면 변화 프레임인 P 프레임과, P 프레임에 인접하고 장면 변화 프레임이 아닌 P 프레임 사이의 크기 차이는 비교적 크다. 따라서, P 프레임인 장면 변화 프레임이 검출될 때, 인접한 P 프레임들의 크기들의 비율이 또한 참조될 수 있다.
전술한 분석에 기초하여, 이하에서는 검출될 비디오에서의 장면 변화 프레임을 검출하기 위해, 도 3a를 참조하여 본 발명의 실시예 1의 구현 A를 상세히 설명한다. 비디오는 N개의 GOP를 포함하고, N은 2보다 크거나 같은 정수이다.
검출될 비디오는 비디오 파일 내의 비디오의 세그먼트일 수 있거나, 또는 비디오 스트림 내의 비디오의 세그먼트일 수 있는데, 예컨대 비디오 서버에 의해 비디오 단말기로 전송되는 비디오 스트림 내의 비디오의 세그먼트일 수 있다. 이에 대응하여, 검출 장치는 비디오 스트림이 통과하는 임의의 디바이스(예컨대, 송신 디바이스(120) 또는 비디오 단말기(130)) 상에 배치될 수 있거나, 또는 비디오 스트림이 통과하는 임의의 디바이스 상에서 바이패스되어 비디오 스트림을 미러링 방식으로 획득할 수 있다.
도 3a에 도시된 바와 같이, 본 발명의 실시예 1의 구현 A에 제공된 방법은 다음의 단계들을 포함한다.
검출 장치는 N개의 GOP에서의 M번째 GOP로부터 출발하여 각각의 GOP 상에서의 다음 동작을 수행하여, 각각의 GOP 내의 모든 P 프레임에서 최대 P 프레임 Pmax가 장면 변화 프레임인지를 결정하고, M은 1보다 크거나 같고 N 보다 작거나 같다.
구체적으로, 검출은 1번째 GOP 상에서 먼저 수행될 수 있으며, 즉, M은 1과 동일하다. 대안적으로, 1번째 GOP 후의 GOP 상에서 검출이 먼저 수행될 수 있다. 예를 들어, 검출될 비디오는 비디오 스트림의 시작시 비디오의 세그먼트이고, 처음 2개의 GOP에서의 프레임들의 크기들은 일반적으로 참조 값을 갖지 않기 때문에, 일반적으로 3번째 GOP 상에서 검출이 먼저 수행되고, M은 3과 동일하다.
단계 103: 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같은 것으로 결정될 때, Pmax가 장면 변화 프레임인 것으로 결정하고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 K번째 GOP에서 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 제1 임계값은 0보다 크고 1보다 작고, 제2 임계값은 1보다 크다.
도 5b에 제시된 바와 같이, K번째 GOP에서의 2번째 P 프레임은 Pmax이고, K번째 GOP에서의 I 프레임은 장면 변화 프레임이 아니고, (K-1)번째 GOP에서는 장면 변화 프레임이 없고, (K-2)번째 GOP에서의 3번째 P 프레임(이하에서 P'max로 지칭됨)은 장면 변화 프레임이다. 이 경우에, Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임이 P'max이다.
특정 구현에서, 단계 102 전에, 1번째 GOP에서의 I 프레임이 장면 변화 프레임으로서 결정될 수 있다. 1번째 GOP에서의 I 프레임과 K번째 GOP 에서의 Pmax 사이에 장면 변화 프레임이 없는 경우, Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임이 1번째 GOP에서의 I 프레임이다. 검출될 비디오가 비디오 내의 비디오 세그먼트이고, 검출될 비디오 전에 장면 변화 프레임이 검출되는 비디오 세그먼트(이하에서 이전 비디오 세그먼트로서 지칭됨)가 존재하는 경우에, Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임은 이전 비디오 세그먼트에 위치할 수 있다.
는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 모든 또는 일부 I 프레임의 크기들의 중앙값 또는 평균을 사용하여 계산될 수 있다. 도 5b에 도시된 바와 같이, K번째 GOP에서의 2번째 P 프레임은 Pmax이고, Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임이 P'max이고, Pmax와 P'max 사이에 2개의 I 프레임 Ik 및 Ik-1이 존재하고, 는 Ik 및 Ik-1의 크기들의 평균이다.
= F(P-m, …, P-1, P1, …, Pn)- 여기서 P- m, ..., 및 P-1은 K번째 GOP에서의 Pmax 전의 P 프레임들을 나타내고, Pn은 K번째 GOP에서의 Pmax 후의 P 프레임들을 나타내고, F는 P-m, …, 및 P-1, 및 P1, …, 및 Pn의 크기들의 중앙값 또는 평균을 계산하기 위해 사용됨 -; 및
m = min(num_before_P_frames, max_num), 및
n = min(num_after_P_frames, max_num)- 여기서,
num_before_P_frames는 K번째 GOP에서의 Pmax 전의 P 프레임들의 수량이고, num_after_P_frames는 K번째 GOP에서의 Pmax 후의 P 프레임들의 수량이고, max_num은 고려될 필요가 있는 프레임들의 미리 설정된 수량을 나타냄 -. 도 5c에 도시된 바와 같이, num_before_P_frames는 7과 동일하고, num_after_P_frames는 4와 동일하고, max_num은 6으로 설정된다. 이 경우, m은 6과 동일하고, n은 4와 동일하다.
는 수학식을 사용하여 계산되고, 제1 비디오 프레임이 위치하는 GOP 내에 있는, 제1 비디오 프레임에 가장 가까운 일부 비디오 프레임이 고려되어서, P 프레임들 내의 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
제1 임계값은 미리 설정될 수 있고, 동일한 제1 임계값이 동일한 검출될 비디오에서의 상이한 GOP들에서 사용될 수 있다. 가 수학식 에 따라 계산될 때, 제1 임계값은 0.53으로 설정되거나; 또는 가 수학식 에 따라 계산될 때, 제1 임계값은 0.47로 설정된다.
제1 임계값은 대안적으로 계산을 통해 획득될 수 있고, 동적으로 조정될 수 있어서, 검출 정확도가 더 개선된다. 제1 임계값을 계산하고 동적으로 조정하는 프로세스는 다음과 같다:
검출될 비디오에서의 M번째 GOP가 검출되기 전에, 제1 임계값은 먼저 다음의 수학식에 따라 계산된다:
Imedian은 검출될 비디오에서의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 검출될 비디오에서의 모든 P 프레임의 크기들의 중앙값 또는 평균이다. 중앙값이 예로서 사용된다. 예를 들어, 검출될 비디오는 그 크기들이 3, 5, 3, 6, 4, 7, 3, 5, 및 4인 9개의 P 프레임을 포함하고, 시퀀스는 오름차순으로 3, 3, 3, 4, 4, 5, 5, 6, 및 7이고, 따라서, Pmedian은 4이거나; 또는 검출될 비디오는 그 크기들이 15, 12 및 18인 3개의 P 프레임을 포함하고, 시퀀스는 오름차순으로 12, 15, 및 18이고, 따라서 Imedian은 15이다.
Imedian은 비디오 내의 모든 I 프레임의 크기들의 중앙값 또는 평균이고, Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이기 때문에, 유효 임계값은 수학식 또는 를 사용하여 정확하게 계산될 수 있어서, P 프레임들 내의 장면 변화 프레임이 정확하게 검출된다.
그 다음, 새로운 P 프레임이 장면 변화 프레임으로서 결정될 때마다, 예를 들어, K번째 GOP에서의 Pmax가 장면 변화 프레임인 것으로 결정될 때마다, 검출될 비디오에서의 장면 변화 프레임으로서 결정되는 P 프레임 이외의 P 프레임들의 크기들의 중앙값 또는 평균이 새로운 Pmedian으로서 사용될 수 있고, 새로운 Ithreshold는 수학식 또는 에 따라 계산되고, 새로운 Ithreshold는 다음 GOP(K번째 GOP 후의 GOP) 내의 Pmax가 장면 변화 프레임인지를 결정하기 위해 사용된다.
제1 임계값 Ithreshold가 실시간으로 업데이트될 수 있기 때문에, 장면 변화 프레임으로서 결정되는 P 프레임의 영향은 적시에 제거되어서, P 프레임들에서 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
구체적인 구현은 다음과 같을 수 있다: 제1 임계값이 수학식 에 따라 획득되는 경우, 와 사이의 상대값 는 이거나; 또는 제1 임계값이 수학식 에 따라 획득되는 경우, 와 사이의 상대값 는 이다.
제2 임계값은 일반적으로 미리 설정될 수 있고, 동일한 제2 임계값이 동일한 검출될 비디오에서의 상이한 GOP들에서 사용될 수 있다. 예를 들어, 제2 임계값은 1.51로 설정된다.
본 발명의 실시예 1의 구현 A는 단계 101을 추가로 포함할 수 있다.
단계 101: N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출한다.
단계 101에서, K번째 GOP 내의 I 프레임이 장면 변화 프레임인지는, (K-1)번째 GOP에서의 I 프레임의 크기에 대한 K번째 GOP에서의 I 프레임의 크기의 비율, K번째 GOP에서의 모든 P 프레임의 크기들의 평균에 대한 (K-1)번째 GOP에서의 모든 P 프레임의 크기들의 평균의 비율, 또는 K번째 GOP에서의 모든 B 프레임의 크기들의 평균에 대한 (K-1)번째 GOP에서의 모든 B 프레임의 크기들의 평균의 비율에 기초하여 구체적으로 결정될 수 있다. 특정 구현은 다음과 같다:
1. (K-1)번째 GOP에서의 I 프레임의 크기에 대한 K번째 GOP에서의 I 프레임의 크기의 비율 rI를 계산한다.
2. K번째 GOP에서의 모든 P 프레임의 크기들의 평균에 대한 (K-1)번째 GOP에서의 모든 P 프레임의 크기들의 평균의 비율 rp를 계산한다.
3. (K-1)번째 GOP에서의 모든 B 프레임의 크기들의 평균에 대한 K번째 GOP에서의 모든 B 프레임의 크기들의 평균의 비율 rB를 계산한다.
4. 비율 rI가 제1 임계값보다 크거나 또는 제2 임계값보다 작은 경우, 다음 조건 (1) 및 조건 (2)를 추가로 결정하고; 그렇지 않으면, K번째 GOP 내의 I 프레임이 장면 변화 프레임이 아닌 것으로 결정한다.
조건 (1): rP는 제3 임계값보다 작고, 또는 rP는 제4 임계값보다 크다.
조건 (2): rB는 제5 임계값보다 작고, 또는 rB는 제6 임계값보다 크다.
조건 (1) 및 조건 (2) 둘 다가 충족되는 경우, K번째 GOP 내의 I 프레임이 장면 변화 프레임인 것으로 결정되고; 그렇지 않은 경우, K번째 GOP 내의 I 프레임이 장면 변화 프레임이 아닌 것으로 결정된다.
전술한 구현의 구체적인 상세들에 대해서는, 표준 ITU-T P1201.2를 참조한다.
특정 구현에서, 1번째 GOP 내의 I 프레임은 장면 변화 프레임으로서 직접 결정될 수 있다. K가 1과 동일하지 않을 때, 전술한 방법을 사용하여, K번째 GOP 내의 I 프레임이 장면 변화 프레임인지가 결정될 수 있다.
특정 구현에서, 도 3b에 도시된 바와 같이, 구현 A는 구현 J를 사용하여 구현될 수 있다: 단계 101은 먼저 수행되고, 이어서 단계 102 및 단계 103이 수행되는데, 즉, M번째 GOP 내지 N번째 GOP에서의 I 프레임들에서 장면 변화 프레임이 먼저 검출되고, 그 다음 M번째 GOP 내지 N번째 GOP에서의 P 프레임들에서 장면 변화 프레임이 검출된다. 예를 들어, GOP 1 내의 I 프레임이 장면 변화 프레임으로서 먼저 결정되고, 이어서 GOP M(예를 들어, GOP 1) 내지 GOP N에서의 I 프레임이 장면 변화 프레임인지가 결정되고, GOP M(예를 들어, GOP 1) 내지 GOP N에서의 Pmax가 장면 변화 프레임인지가 결정된다.
특정 구현에서, 도 3c에 도시된 바와 같이, 구현 A는 대안적으로 구현 K를 사용하여 구현될 수 있다: 단계 101은 단계 102 및 단계 103과 조합하여 수행되고, 장면 변화 프레임은 비디오 프레임들의 시퀀스에 기초하여 검출되는데, 즉 현재 GOP에서의 장면 변화 프레임은 GOP들의 시퀀스에 기초하여 M번째(예를 들어, 1번째) GOP로부터 시작하여 검출되고; 현재 GOP 내의 장면 변화 프레임이 검출되는 경우, 현재 GOP 내의 I 프레임이 장면 변화 프레임인지가 먼저 검출되고, 이어서 현재 GOP에서의 Pmax가 장면 변화 프레임인지가 검출된다. 예를 들어, GOP 1 내의 I 프레임이 장면 변화 프레임으로서 먼저 결정되고, 이어서 GOP 1 내의 Pmax, GOP 2 내의 I 프레임, GOP 2 내의 Pmax, GOP 3 내의 I 프레임, GOP 3 내의 Pmax, …, GOP N 내의 I 프레임, 또는 GOP N 내의 Pmax가 순차적으로 결정된다. 간략히 말하면, K가 N보다 작을 때, K번째 GOP 내의 Pmax가 장면 변화 프레임인지가 결정된 후에, (K+1)번째 GOP 내의 I 프레임이 장면 변화 프레임인지가 결정된다.
구현 A가 구현 K를 사용하여 구현되는 경우, 장면이 짧은 시간에 연속적으로 변할 확률이 비교적 낮기 때문에, I 프레임이 장면 변화 프레임인지를 결정하기 전에 I 프레임과 이전 장면 변화 프레임 사이의 거리(이하에서 제1 거리로 지칭됨)가 먼저 계산될 수 있다. 제1 거리가 거리 임계값보다 작거나 같은 경우, I 프레임이 장면 변화 프레임이 아닌 것으로 결정되고; 그렇지 않으면, I 프레임이 장면 변화 프레임인지는 표준 ITU-T P1201.2에서 제공되는 방법에 따라 추가로 결정될 수 있다. 구체적인 구현은 다음과 같다: K가 N보다 작을 때, 그리고 K번째 GOP에서의 Pmax가 장면 변화 프레임인지가 결정된 후, (K+1)번째 GOP 내의 I 프레임(이하에서 현재 I 프레임으로서 지칭됨)과 현재 I 프레임 전의, 현재 I 프레임에 가장 가까운 장면 변화 프레임 사이의 거리가 거리 임계값보다 작거나 같은 것으로 결정되는 경우, 현재 I 프레임이 장면 변화 프레임이 아닌 것으로 결정된다. 그렇지 않으면, 현재 I 프레임이 장면 변화 프레임인지가 표준 ITU-T P1201.2에서 제공되는 방법에 따라 추가로 결정될 수 있다.
본 발명에서 설명된 2개의 비디오 프레임 사이의 거리는 2개의 비디오 프레임 사이의 비디오 프레임들의 수량이다. X번째 비디오 프레임과 Y번째 비디오 프레임 사이의 거리는 Y-N이고, 2개의 인접한 비디오 프레임 사이의 거리는 1이다.
거리 임계값은 미리 설정될 수 있고, 동일한 거리 임계값은 동일한 검출될 비디오에서의 상이한 GOP들에서 사용될 수 있다.
거리 임계값은 대안적으로 결정될 수 있고, 동적으로 조정될 수 있어서, 검출 정확도가 더 개선된다. 거리 임계값을 결정하고 동적으로 조정하는 프로세스는 다음과 같다:
N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임이 검출되기 전에, 초기 거리 임계값이 먼저 결정되고, 결정된 초기 거리 임계값은 다음의 3개의 길이 중 하나일 수 있다:
(1) N개의 GOP에서 가장 긴 길이를 갖는 GOP의 길이;
(2) N개의 GOP의 길이의 평균; 및
(3) 길이 L- 여기서 길이 L을 갖는 GOP들의 수량은 N개의 GOP 내에서 가장 큼-.
본 발명에서 설명된 GOP의 길이는 GOP에 포함된 비디오 프레임들의 수량이다.
예를 들어, 검출될 비디오는 그 길이들이 10, 6, 8, 7, 8, 7, 9, 및 8인 8개의 GOP를 포함하고, 초기 거리 임계값은 방식 (1)에 따라 10으로 결정되고, 초기 거리 임계값은 방식 (2)에 따라 8로서 결정되고, 초기 거리 임계값은 방식 (3)에 따라 8로서 결정되는데, 그 이유는 길이 8을 갖는 GOP들의 수량이 가장 크기 때문이다.
고정된 GOP 길이를 사용하여 코딩이 수행될 때, 모든 GOP의 길이들은 동일하고, 따라서 전술한 3개 방식으로 계산된 초기 거리 임계값들은 동일하다.
그 다음, 새로운 장면 변화 프레임이 결정될 때, 새로운 장면 변화 프레임과 새로운 장면 변화 프레임 전의, 새로운 장면 변화 프레임에 가장 가까운 장면 변화 프레임 사이의 거리(이하에서 제2 거리로 지칭됨)가 거리 임계값보다 작은 경우, 거리 임계값은 제2 거리로 업데이트된다.
본 발명의 실시예 1의 구현 A에서, 비디오 내의 장면 변화 프레임이 검출될 때, 비디오의 GOP 내의 모든 P 프레임에서의 최대 P 프레임 Pmax가 장면 변화 프레임인지가, Pmax의 크기 와, Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균 사이의 상대적 관계, 또는 와, GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균 사이의 상대적 관계에 기초하여 결정되어 P 프레임들 내의 장면 변화 프레임을 검출해서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
또한, 비디오 코딩에서, P 프레임은 일반적으로 B 프레임보다 크고, P 프레임은 일반적으로 B 프레임의 크기의 2 내지 5배이다. 장면 변화 프레임의 콘텐츠와 장면 변화 프레임의 이전 프레임의 콘텐츠 사이의 차이가 비교적 크기 때문에, 장면 변화 프레임이 P 프레임으로 코딩되더라도, 인트라-프레임 예측 코딩은 장면 변화 프레임 내의 대부분의 매크로블록들에 대해 수행된다. 따라서, 코딩된 장면 변화 프레임의 크기는 비교적 크다. P 프레임이 B 프레임의 크기의 2배보다 작으면, P 프레임은 장면 변화 프레임일 가능성이 있다. 따라서, P 프레임인 장면 변화 프레임이 검출될 때, P 프레임과 B 프레임 사이의 상대적 관계가 참조될 수 있다.
전술한 분석에 기초하여, 이하에서는 검출될 비디오에서의 장면 변화 프레임을 검출하기 위해, 도 4a를 참조하여 본 발명의 실시예 1의 구현 B를 상세히 설명한다. 비디오는 N개의 GOP를 포함하고, N은 2보다 크거나 같은 정수이다.
도 4a에 도시된 바와 같이, 본 발명의 실시예 1의 구현 B에 제공되는 방법은 다음의 단계들을 포함한다:
단계 202: 단계 202는 단계 102와 동일하고, 상세들은 본 명세서에서 다시 설명되지 않는다.
단계 203: 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 없는 것으로 결정된 경우, 또는 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 있고, 와 사이의 상대값이 제3 임계값보다 크거나 같은 것으로 결정된 경우, Pmax가 장면 변화 프레임인 것으로 결정하고, 여기서, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 평균이고, 는 K번째 GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 모든 B 프레임의 크기들의 중앙값 또는 평균이고, 제1 임계값은 0보다 크고 1보다 작고, 제2 임계값은 1보다 크고, 제3 임계값은 1보다 크다.
또한, 와 사이의 상대값이 제1 임계값보다 작거나, 또는 와 사이의 상대값이 제2 임계값보다 작거나, 또는 와 사이의 상대값이 제3 임계값보다 작은 것으로 결정될 때, Pmax가 장면 변화 프레임이 아닌 것으로 결정된다.
와 사이의 상대값이 제1 임계값보다 크거나 같은 것으로 결정하기 위한 방법, 및 와 사이의 상대값이 제2 임계값보다 크거나 같은 것으로 결정하기 위한 방법은 단계 102에서 설명된 것들과 동일하고, 상세들은 본 명세서에서 다시 설명되지 않는다.
제3 임계값은 미리 설정될 수 있고, 동일한 제3 임계값은 동일한 검출될 비디오에서의 상이한 GOP들에서 사용될 수 있다. 가 수학식 에 따라 계산될 때, 제1 임계값은 2.87로 설정되거나; 또는 가 수학식 에 따라 계산될 때, 제1 임계값은 1.87로 설정된다.
제3 임계값은 대안적으로 계산을 통해 획득될 수 있고, 동적으로 조정될 수 있어서, 검출 정확도가 더 개선된다. 제3 임계값을 계산하고 동적으로 조정하는 프로세스는 다음과 같다:
검출될 비디오에서의 M번째 GOP가 검출되기 전에, 제3 임계값은 먼저 다음의 수학식에 따라 계산된다:
Bthreshold는 제3 임계값이고, Pmedian는 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이고, Bmedian은 검출될 비디오에서의 모든 B 프레임의 크기들의 중앙값 또는 평균이다.
Pmedian은 비디오 내의 모든 P 프레임의 크기들의 중앙값 또는 평균이고, Bmedian은 비디오 내의 모든 B 프레임의 크기들의 중앙값 또는 평균이기 때문에, 유효 임계값은 수학식 또는 을 사용하여 정확하게 계산될 수 있어서, P 프레임들 내의 장면 변화 프레임이 정확하게 검출된다.
그 다음, 새로운 P 프레임이 장면 변화 프레임으로서 결정될 때마다, K번째 GOP에서의 Pmax가 장면 변화 프레임인 것으로 결정되는 경우, 검출될 비디오에서의 장면 변화 프레임으로서 결정되는 P 프레임 이외의 P 프레임들의 크기들의 중앙값 또는 평균이 새로운 Pmedian으로서 사용될 수 있고, 새로운 Bthreshold는 수학식 또는 에 따라 계산되고, 새로운 Bthreshold는 다음 GOP 내의 Pmax가 장면 변화 프레임인지를 결정하기 위해 사용된다.
제3 임계값 Bthreshold가 실시간으로 업데이트될 수 있기 때문에, 장면 변화 프레임으로서 결정되는 P 프레임의 영향은 적시에 제거되어서, P 프레임들에서 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
본 발명의 실시예 1의 구현 B는 단계 201을 추가로 포함할 수 있고, 단계 201은 단계 101과 동일하며, 상세들은 본 명세서에서 다시 설명되지 않는다.
특정 구현에서, 구현 B는 또한 도 4b 및 도 4c에 도시된 바와 같이 구현 A의 2개의 구현(구현 J와 구현 K)과 유사한 구현들을 사용하여 또한 구현될 수 있다.
본 발명의 실시예 1의 구현 B에서, 비디오 내의 장면 변화 프레임이 검출될 때, 비디오의 GOP 내의 모든 P 프레임에서의 최대 P 프레임 Pmax가 장면 변화 프레임인지가, Pmax의 크기 와, Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균 사이의 상대적 관계, 또는 와, GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균 사이의 상대적 관계, 또는 와, Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 모든 B 프레임의 크기들의 중앙값 또는 평균 사이의 상대적 관계에 기초하여 결정되어 P 프레임들 내의 장면 변화 프레임을 검출해서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다. 또한, P 프레임들 내의 장면 변화 프레임이 검출될 때, I 프레임 및 P 프레임의 크기들뿐만 아니라 B 프레임의 크기도 고려되어서, P 프레임들 내의 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
본 발명의 실시예 1에 기초하여, 본 발명의 실시예 2는 비디오에서 장면 변화 프레임을 검출하기 위한 검출 장치(200)를 제공한다. 비디오는 N개의 GOP를 포함하고, N은 2보다 크거나 같은 정수이다. 도 6에 도시된 바와 같이, 검출 장치(200)는 제1 결정 유닛(210) 및 제2 결정 유닛(220)을 포함한다.
실시예 2의 제1 구현은 실시예 1의 구현 A에 대응하고 있고, 상세들은 다음과 같다:
제1 결정 유닛(210)은 K번째 GOP 내의 모든 P 프레임에서의 최대 P 프레임 Pmax를 결정하도록 구성되고, 여기서 Pmax의 크기는 이고, K는 M 내지 N의 범위의 변수이고, 1 ≤ M ≤ N이다.
제2 결정 유닛(220)은: 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같은 것으로 결정될 때, Pmax가 장면 변화 프레임인 것으로 결정하도록 구성되고, 여기서, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 K번째 GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 제1 임계값은 0보다 크고 1보다 작고, 제2 임계값은 1보다 크다.
구체적으로, 제1 결정 유닛(210)은 구체적으로 실시예 1의 구현 A에서의 방법에서 단계 102를 수행하도록 구성될 수 있고, 제2 결정 유닛(220)은 구체적으로 실시예 1의 구현 A에서의 방법에서 단계 103을 수행하도록 구성될 수 있다.
또한, 제2 결정 유닛(220)은 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하도록 추가로 구성될 수 있고, 구체적으로 실시예 1의 구현 A에서의 방법에서 단계 101을 수행하도록 구성될 수 있다.
실시예 2의 제2 구현은 실시예 1의 구현 B에 대응하고 있고, 상세들은 다음과 같다:
제1 결정 유닛(210)은 K번째 GOP 내의 모든 P 프레임에서의 최대 P 프레임 Pmax를 결정하도록 구성되고, 여기서 Pmax의 크기는 이고, K는 M 내지 N의 범위의 변수이고, 1 ≤ M ≤ N이다.
제2 결정 유닛(220)은: 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 없는 것으로 결정된 경우, 또는 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 있고, 와 사이의 상대값이 제3 임계값보다 크거나 같은 것으로 결정된 경우, Pmax가 장면 변화 프레임인 것으로 결정하도록 구성되고, 여기서, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 K번째 GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 모든 B 프레임의 크기들의 중앙값 또는 평균이고, 제1 임계값은 0보다 크고 1보다 작고, 제2 임계값은 1보다 크고, 제3 임계값은 1보다 크다.
구체적으로, 제1 결정 유닛(210)은 구체적으로 실시예 1의 구현 B에서의 방법에서 단계 202를 수행하도록 구성될 수 있고, 제2 결정 유닛(220)은 구체적으로 실시예 1의 구현 B에서의 방법에서 단계 203을 수행하도록 구성될 수 있다.
또한, 제2 결정 유닛(220)은 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하도록 추가로 구성될 수 있고, 구체적으로 실시예 1의 구현 B에서의 방법에서 단계 201을 수행하도록 구성될 수 있다.
본 발명의 실시예 2에서, 비디오 내의 장면 변화 프레임이 검출될 때, I 프레임들에서의 장면 변화 프레임이 검출되고, 비디오의 GOP 내의 모든 P 프레임에서의 최대 P 프레임 Pmax가 장면 변화 프레임인지가, Pmax의 크기 와, Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균 사이의 상대적 관계, 또는 와, GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균 사이의 상대적 관계에 기초하여 결정되어 P 프레임들 내의 장면 변화 프레임을 검출해서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다. 본 발명의 실시예 2의 구현 B에서, P 프레임들 내의 장면 변화 프레임이 검출되고 있을 때, I 프레임 및 P 프레임의 크기들뿐만 아니라, B 프레임의 크기도 고려되어서, P 프레임들 내의 장면 변화 프레임을 검출하는 정확도가 더 개선된다.
본 발명의 실시예 1에 따르면, 본 발명의 실시예 3은 검출 장치(1000)를 제공한다. 도 7에 도시된 바와 같이, 검출 장치(1000)는 프로세서(1010) 및 메모리(1020)를 포함하고, 프로세서(1010) 및 메모리(1020)는 버스를 사용하여 상호 통신을 완료한다.
메모리(1020)는 컴퓨터 동작 명령어를 저장하도록 구성된다. 메모리(1020)는 고속 RAM 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리와 같은 비휘발성 메모리(non-volatile memory)를 추가로 포함할 수 있다.
프로세서(1010)는 메모리(1020)에 저장된 컴퓨터 동작 명령어를 실행하도록 구성된다. 프로세서(1010)는 구체적으로 중앙 처리 유닛(CPU, central processing unit)일 수 있고 컴퓨터의 코어 유닛이다.
프로세서(1010)는 컴퓨터 동작 명령어를 실행하여, 검출 장치(1000)가 실시예 1의 방법을 수행할 수 있게 한다.
본 발명의 실시예 3에서, 비디오에서의 장면 변화 프레임이 검출될 때, P 프레임들에서의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
본 발명의 실시예들 1 내지 3에 따르면, 본 발명의 실시예 4는 검출 디바이스(400)를 제공한다. 도 8에 도시된 바와 같이, 검출 디바이스(400)는 미디어 유닛(4010) 및 검출 장치(4020)를 포함한다.
미디어 유닛(4010)은 (이하에서 검출될 비디오로서 지칭되는) 비디오를 획득하고, 비디오를 검출 장치(4020)에 송신하도록 구성된다. 미디어 유닛(4010)은 구체적으로 비디오 파일로부터 검출될 비디오를 판독할 수 있거나, 또는 비디오 서버에 의해 전송된 수신된 미디어 스트림으로부터 검출될 비디오를 획득할 수 있다. 검출될 비디오는 구체적으로 완전한 비디오일 수 있거나, 또는 비디오 내의 비디오 세그먼트일 수 있다. 검출될 비디오가 비디오 세그먼트인 경우, 미디어 유닛(4010)은 비디오 세그먼트가 위치하는 비디오(즉, 비디오 세그먼트를 포함하는 비디오)를 검출 장치(4020)에 송신할 수 있고, 검출 장치(4020)는 수신된 비디오에서 비디오 세그먼트를 검출하여, 검출될 비디오에서의 장면 변화 프레임을 검출한다.
검출 장치(4020)는 구체적으로 실시예 2에 제공되는 검출 장치(200) 또는 실시예 3에서 제공되는 검출 장치(1000) 일 수 있고, 미디어 유닛(4010)으로부터 검출될 비디오를 획득하고, 실시예 2에서 제공되는 검출 장치(200) 또는 실시예 3에서 제공되는 검출 장치(1000)에 의해 수행되는 동작을 수행하도록 구성된다.
검출 장치(4020)는 검출된 장면 변화 프레임에 기초하여, 검출될 비디오의 품질 또는 검출될 비디오가 위치하는 비디오의 품질을 추가로 평가할 수 있다.
본 발명의 실시예 4에서, 비디오에서의 장면 변화 프레임이 검출될 때, P 프레임들에서의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
본 발명의 실시예들 1 내지 3에 따르면, 본 발명의 실시예 5는 비디오 품질 평가를 구현하기 위한 시스템(2000)을 제공한다. 도 9a에 도시된 바와 같이, 시스템(2000)은 비디오 서버(2010), 송신 디바이스(2020) 및 비디오 단말기(2030)를 포함한다. 비디오 서버(2010)에 의해 전송된 비디오 스트림은 송신 디바이스(2020)를 통해 비디오 단말기(2030)에 송신된다.
구체적인 구현에서, 송신 디바이스(2020) 또는 비디오 단말기(2030)는 구체적으로 실시예 2에 제공되는 검출 장치(200) 또는 실시예 3에 제공되는 검출 장치(1000)를 포함할 수 있다. 특정 구현에서, 송신 디바이스(2020) 및 비디오 단말기(2030) 둘 다는 실시예 2에 제공되는 검출 장치(200), 또는 실시예 3에 제공되는 검출 장치(1000)를 포함할 수 있다. 송신 디바이스(2020) 또는 비디오 단말기(2030)는 구체적으로 실시예 4에서 제공되는 검출 디바이스(400)일 수 있다.
다른 특정 구현에서, 시스템은 검출 장치(2040)를 추가로 포함한다. 도 9b 및 9c에 도시된 바와 같이, 검출 장치(2040)는 구체적으로 실시예 2에 제공되는 검출 장치(200) 또는 실시예 3에 제공되는 검출 장치(1000)일 수 있다. 송신 디바이스(2020) 또는 비디오 단말기(2030)는 검출 장치(2040)에 접속되고, 검출 장치(2040)는 검출 장치(2040)에 접속되는 송신 디바이스(2020) 또는 비디오 단말기(2030)를 사용하여 비디오 스트림을 획득한다. 특정 구현에서, 송신 디바이스(2020) 및 비디오 단말기(2030)는 하나의 검출 장치(2040)에 개별적으로 접속될 수 있다.
본 발명의 실시예 5에서, 비디오에서의 장면 변화 프레임이 검출될 때, P 프레임들에서의 장면 변화 프레임이 검출될 수 있어서, 장면 변화 프레임의 누락된 검출이 효과적으로 감소된다.
본 기술분야에서의 통상의 기술자는, 본 명세서에 개시되는 실시예들에서 설명되는 예들과 조합하여, 유닛들 및 알고리즘 단계들이 전자 하드웨어 또는 컴퓨터 소프트웨어와 전자 하드웨어의 조합에 의해 구현될 수 있다는 점을 인식할 수 있다. 기능들이 하드웨어 또는 소프트웨어에 의해 수행되는지는 기술적 해결책들의 특정 애플리케이션들 및 설계 제약 조건들에 좌우된다. 본 기술분야의 통상의 기술자는 각각의 특정 응용에 대해 상이한 방법들을 사용하여 설명된 기능들을 구현할 수 있지만, 그 구현이 본 발명의 범위를 벗어나는 것으로 고려되어서는 안 된다.
편리하고 간략한 설명의 목적으로, 전술한 시스템, 장치, 및 유닛의 상세한 작업 프로세스에 대해서는, 전술한 방법 실시예들에서의 대응하는 프로세스가 참조될 수 있다는 점이 본 기술분야에서의 통상의 기술자에 의해 명확하게 이해될 수 있고, 상세들은 본 명세서에서 다시 설명되지 않는다.
본 출원에 제공되는 몇몇 실시예에서, 개시된 시스템, 장치, 및 방법은 다른 방식들로 구현될 수 있다는 것을 이해해야 한다. 예를 들어, 설명되는 장치 실시예는 단지 예일 뿐이다. 예를 들어, 유닛 구분은 논리적인 기능 구분일 뿐이며 실제 구현에서는 다른 구분이 될 수 있다. 예를 들어, 복수의 유닛 또는 컴포넌트가 조합되거나 또 다른 시스템에 통합될 수 있거나, 또는 일부 특징이 무시되거나 수행되지 않을 수 있다. 또한, 표시되는 또는 논의되는 상호 결합들 또는 직접 결합들 또는 통신 접속들은 일부 인터페이스를 사용하여 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 결합들 또는 통신 접속들은 전자적, 기계적 또는 다른 형태들로 구현될 수 있다.
별개의 부분들로 설명된 유닛들은 물리적으로 별개일 수도 있고 그렇지 않을 수도 있고, 유닛들로서 표시된 부분들은 물리적 유닛일 수도 있고 그렇지 않을 수도 있으며, 하나의 위치에 위치할 수 있거나, 또는 복수의 네트워크 유닛 상에 분포될 수 있다. 유닛들 일부 또는 전부는 실시예들의 해결책들의 목적들을 달성하기 위해 실제 요건들에 따라 선택될 수 있다.
또한, 본 발명의 실시예들에서의 기능 유닛들은 하나의 처리 유닛으로 통합될 수 있거나, 또는 유닛들 각각이 물리적으로 단독으로 존재할 수 있거나, 또는 2개 이상의 유닛이 하나의 유닛으로 통합된다.
기능들이 소프트웨어 기능 유닛의 형태로 구현되고, 독립 제품으로서 판매되거나 사용될 때, 이러한 기능들은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본질적으로 본 발명의 기술적 해결책들, 또는 종래 기술에 기여하는 부분, 또는 기술적 해결책들의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 본 발명의 실시예들에 설명된 방법들의 단계들의 전부 또는 일부를 수행하도록 컴퓨터 디바이스(이는 퍼스널 컴퓨터, 서버, 또는 네트워크 디바이스일 수 있음)에 지시하기 위한 여러 명령어를 포함한다. 전술한 저장 매체는 USB 플래시 드라이브, 이동식 하드 디스크, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 자기 디스크, 또는 광 디스크와 같이, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명은 단지 본 발명의 특정 구현들일 뿐이고, 본 발명의 보호 범위를 제한하려는 것은 아니다. 본 발명에 개시되는 기술적 범위 내에서 본 기술분야에서의 통상의 기술자에 의해 용이하게 도출되는 임의의 변형 또는 대체는 본 발명의 보호 범위 내에 속할 것이다. 따라서, 본 발명의 보호 범위는 청구항들의 보호 범위에 따를 것이다.
Claims (28)
- 비디오에서 장면 변화 프레임을 검출하기 위한 방법으로서,
상기 비디오는 N개의 픽처 그룹 GOP를 포함하고, N은 2보다 크거나 같은 정수이고, 상기 방법은:
K번째 GOP 내의 모든 P 프레임에서의 최대 P 프레임 Pmax를 결정하는 단계- Pmax의 크기는 이고, K는 M 내지 N의 범위의 변수이고, 1 ≤ M ≤ N임 -; 및
와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같은 것으로 결정될 때, Pmax가 장면 변화 프레임인 것으로 결정하는 단계- 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 K번째 GOP에서 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 상기 제1 임계값은 0보다 크고 1보다 작고, 상기 제2 임계값은 1보다 큼 -를 포함하는, 방법. - 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 방법은: 상기 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하는 단계; 및
K가 N보다 작은 경우, 상기 K번째 GOP 내의 Pmax가 장면 변화 프레임인지가 결정된 후, (K+1)번째 GOP 내의 I 프레임이 장면 변화 프레임인지를 결정하는 단계를 추가로 포함하고;
상기 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하는 단계는 구체적으로: 제1 거리가 거리 임계값보다 작거나 같은 것으로 결정되는 경우, 상기 (K+1)번째 GOP 내의 I 프레임이 장면 변화 프레임이 아닌 것으로 결정하는 것을 포함하고, 상기 제1 거리는 상기 (K+1)번째 GOP 내의 I 프레임과 상기 (K+1)번째 GOP 내의 I 프레임 전의, 상기 (K+1)번째 GOP 내의 I 프레임에 가장 가까운 장면 변화 프레임 사이의 거리인, 방법. - 제5항에 있어서,
상기 방법은:
상기 거리 임계값을 설정하는 단계를 추가로 포함하고, 상기 거리 임계값은 다음 3개의 길이:
상기 N개의 GOP에서 가장 긴 길이를 갖는 GOP의 길이;
상기 N개의 GOP의 길이들의 중앙값 또는 평균; 및
길이 L- 상기 길이 L을 갖는 GOP들의 수량은 상기 N개의 GOP에서 가장 큼 - 중 하나인, 방법. - 제5항 또는 제6항에 있어서,
새로운 장면 변화 프레임이 결정될 때, 제2 거리가 상기 거리 임계값보다 작은 경우, 상기 거리 임계값은 상기 제2 거리로 업데이트되고, 상기 제2 거리는 구체적으로, 상기 새로운 장면 변화 프레임과 상기 새로운 장면 변화 프레임 전의, 상기 새로운 장면 변화 프레임에 가장 가까운 장면 변화 프레임 사이의 거리인, 방법. - 비디오에서 장면 변화 프레임을 검출하기 위한 방법으로서,
상기 비디오는 N개의 픽처 그룹 GOP를 포함하고, N은 2보다 크거나 같은 정수이고, 상기 방법은:
K번째 GOP 내의 모든 P 프레임에서의 최대 P 프레임 Pmax를 결정하는 단계- Pmax의 크기는 이고, K는 M 내지 N의 범위의 변수이고, 1 ≤ M ≤ N임 -; 및
와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 없는 것으로 결정된 경우, 또는 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 있고, 와 사이의 상대값이 제3 임계값보다 크거나 같은 것으로 결정된 경우, Pmax가 장면 변화 프레임인 것으로 결정하는 단계를 포함하고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 상기 K번째 GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 상기 장면 변화 프레임 사이의 모든 B 프레임의 크기들의 중앙값 또는 평균이고;
상기 제1 임계값은 0보다 크고 1보다 작고, 상기 제2 임계값은 1보다 크고, 상기 제3 임계값은 1보다 큰, 방법. - 제8항 내지 제11항 중 어느 한 항에 있어서,
상기 방법은: 상기 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하는 단계; 및
K가 N보다 작은 경우, 상기 K번째 GOP 내의 Pmax가 장면 변화 프레임인지가 결정된 후, (K+1)번째 GOP 내의 I 프레임이 장면 변화 프레임인지를 결정하는 단계를 추가로 포함하고;
상기 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하는 단계는 구체적으로: 제1 거리가 거리 임계값보다 작거나 같은 것으로 결정되는 경우, 상기 (K+1)번째 GOP 내의 I 프레임이 장면 변화 프레임이 아닌 것으로 결정하는 것을 포함하고, 상기 제1 거리는 상기 (K+1)번째 GOP 내의 I 프레임과 상기 (K+1)번째 GOP 내의 I 프레임 전의, 상기 (K+1)번째 GOP 내의 I 프레임에 가장 가까운 장면 변화 프레임 사이의 거리인, 방법. - 제12항에 있어서,
상기 방법은:
상기 거리 임계값을 설정하는 단계를 추가로 포함하고, 상기 거리 임계값은 다음 3개의 길이:
상기 N개의 GOP에서 가장 긴 길이를 갖는 GOP의 길이;
상기 N개의 GOP의 길이들의 중앙값 또는 평균; 및
길이 L- 상기 길이 L을 갖는 GOP들의 수량은 상기 N개의 GOP에서 가장 큼 - 중 하나인, 방법. - 제13항에 있어서,
새로운 장면 변화 프레임이 결정될 때, 제2 거리가 상기 거리 임계값보다 작은 경우, 상기 거리 임계값은 상기 제2 거리로 업데이트되고, 상기 제2 거리는 구체적으로, 상기 새로운 장면 변화 프레임과 상기 새로운 장면 변화 프레임 전의, 상기 새로운 장면 변화 프레임에 가장 가까운 장면 변화 프레임 사이의 거리인, 방법. - 비디오에서 장면 변화 프레임을 검출하기 위한 검출 장치로서,
상기 비디오는 N개의 GOP를 포함하고, N은 2보다 크거나 같은 정수이고, 상기 검출 장치는 제1 결정 유닛 및 제2 결정 유닛을 포함하고;
상기 제1 결정 유닛은 K번째 GOP 내의 모든 P 프레임에서 최대 P 프레임 Pmax를 결정하도록 구성되고, Pmax의 크기는 이고, K는 M 내지 N의 범위의 변수이고, 1 ≤ M ≤N이고;
상기 제2 결정 유닛은: 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같은 것으로 결정될 때, Pmax가 장면 변화 프레임인 것으로 결정하도록 구성되고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 상기 K번째 GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 상기 제1 임계값은 0보다 크고 1보다 작고, 상기 제2 임계값은 1보다 큰, 검출 장치. - 제15항 내지 제18항 중 어느 한 항에 있어서,
상기 제2 결정 유닛은 상기 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하도록 추가로 구성되고;
K가 N보다 작은 경우, 상기 K번째 GOP 내의 Pmax가 장면 변화 프레임인지를 결정한 후, 상기 제2 결정 유닛은 (K+1)번째 GOP 내의 I 프레임이 장면 변화 프레임인지를 결정하고;
상기 제2 결정 유닛이 상기 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하도록 구성되는 것은 구체적으로: 제1 거리가 거리 임계값보다 작거나 같은 것으로 결정되는 경우, 상기 (K+1)번째 GOP 내의 I 프레임이 장면 변화 프레임이 아닌 것으로 결정하는 것을 포함하고, 상기 제1 거리는 상기 (K+1)번째 GOP 내의 I 프레임과 상기 (K+1)번째 GOP 내의 I 프레임 전의, 상기 (K+1)번째 GOP 내의 I 프레임에 가장 가까운 장면 변화 프레임 사이의 거리인, 검출 장치. - 제19항에 있어서,
상기 제2 결정 유닛은 상기 거리 임계값을 설정하도록 추가로 구성되고, 상기 거리 임계값은 다음 3개의 길이:
상기 N개의 GOP에서 가장 긴 길이를 갖는 GOP의 길이;
상기 N개의 GOP의 길이들의 중앙값 또는 평균; 및
길이 L- 상기 길이 L을 갖는 GOP들의 수량은 상기 N개의 GOP에서 가장 큼 - 중 하나인, 검출 장치. - 제19항 또는 제20항에 있어서,
상기 제2 결정 유닛은: 새로운 장면 변화 프레임이 결정될 때, 제2 거리가 상기 거리 임계값보다 작은 경우, 상기 거리 임계값을 상기 제2 거리로 업데이트하도록 추가로 구성되고, 상기 제2 거리는 구체적으로, 상기 새로운 장면 변화 프레임과 상기 새로운 장면 변화 프레임 전의, 상기 새로운 장면 변화 프레임에 가장 가까운 장면 변화 프레임 사이의 거리인, 검출 장치. - 비디오에서 장면 변화 프레임을 검출하기 위한 검출 장치로서,
상기 비디오는 N개의 픽처 그룹 GOP를 포함하고, N은 2보다 크거나 같은 정수이고, 상기 검출 장치는 제1 결정 유닛 및 제2 결정 유닛을 포함하고;
상기 제1 결정 유닛은 K번째 GOP 내의 모든 P 프레임에서 최대 P 프레임 Pmax를 결정하도록 구성되고, Pmax의 크기는 이고, K는 M 내지 N의 범위의 변수이고, 1 ≤ M ≤N이고;
상기 제2 결정 유닛은: 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 없는 것으로 결정된 경우, 또는 와 사이의 상대값이 제1 임계값보다 크거나 같고, 와 사이의 상대값이 제2 임계값보다 크거나 같고, K번째 GOP에 B 프레임이 있고, 와 사이의 상대값이 제3 임계값보다 크거나 같은 것으로 결정된 경우, Pmax가 장면 변화 프레임인 것으로 결정하도록 구성되고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 복수의 I 프레임의 크기들의 중앙값 또는 평균이고, 는 K번째 GOP 내의 복수의 P 프레임의 크기들의 중앙값 또는 평균이고, 는 Pmax와 Pmax 전의, Pmax에 가장 가까운 장면 변화 프레임 사이의 모든 B 프레임의 크기들의 중앙값 또는 평균이고, 상기 제1 임계값은 0보다 크고 1보다 작고, 상기 제2 임계값은 1보다 크고, 상기 제3 임계값은 1보다 큰, 검출 장치. - 제22항 내지 제25항 중 어느 한 항에 있어서,
상기 제2 결정 유닛은 상기 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하고;
K가 N보다 작은 경우, 상기 K번째 GOP 내의 Pmax가 장면 변화 프레임인지를 결정한 후, (K+1)번째 GOP 내의 I 프레임이 장면 변화 프레임인지를 결정하도록 추가로 구성되고;
상기 제2 결정 유닛이 상기 N개의 GOP 내의 M번째 GOP 내지 N번째 GOP에서의 I 프레임들로부터 장면 변화 프레임을 검출하도록 구성되는 것은 구체적으로: 제1 거리가 거리 임계값보다 작거나 같은 것으로 결정되는 경우, 상기 (K+1)번째 GOP 내의 I 프레임이 장면 변화 프레임이 아닌 것으로 결정하는 것을 포함하고, 상기 제1 거리는 상기 (K+1)번째 GOP 내의 I 프레임과 상기 (K+1)번째 GOP 내의 I 프레임 전의, 상기 (K+1)번째 GOP 내의 I 프레임에 가장 가까운 장면 변화 프레임 사이의 거리인, 검출 장치. - 제26항에 있어서,
상기 제2 결정 유닛은 상기 거리 임계값을 설정하도록 추가로 구성되고, 상기 거리 임계값은 다음 3개의 길이:
상기 N개의 GOP에서 가장 긴 길이를 갖는 GOP의 길이;
상기 N개의 GOP의 길이들의 중앙값 또는 평균; 및
길이 L- 상기 길이 L을 갖는 GOP들의 수량은 상기 N개의 GOP에서 가장 큼 - 중 하나인, 검출 장치. - 제27항에 있어서,
상기 제2 결정 유닛은: 새로운 장면 변화 프레임이 결정될 때, 제2 거리가 상기 거리 임계값보다 작은 경우, 상기 거리 임계값을 상기 제2 거리로 업데이트하도록 추가로 구성되고, 상기 제2 거리는 구체적으로, 상기 새로운 장면 변화 프레임과 상기 새로운 장면 변화 프레임 전의, 상기 새로운 장면 변화 프레임에 가장 가까운 장면 변화 프레임 사이의 거리인, 검출 장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610708531.5A CN107770538B (zh) | 2016-08-23 | 2016-08-23 | 一种检测场景切换帧的方法、装置和系统 |
CN201610708531.5 | 2016-08-23 | ||
PCT/CN2017/098483 WO2018036481A1 (zh) | 2016-08-23 | 2017-08-22 | 一种检测场景切换帧的方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190039265A true KR20190039265A (ko) | 2019-04-10 |
Family
ID=61245503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197007484A KR20190039265A (ko) | 2016-08-23 | 2017-08-22 | 장면 변화 프레임을 검출하기 위한 방법, 디바이스, 및 시스템 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10917643B2 (ko) |
EP (1) | EP3499460A1 (ko) |
JP (1) | JP2019528643A (ko) |
KR (1) | KR20190039265A (ko) |
CN (1) | CN107770538B (ko) |
WO (1) | WO2018036481A1 (ko) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114143606A (zh) | 2018-08-22 | 2022-03-04 | 华为技术有限公司 | 一种实现视频流切换的方法、装置和系统 |
CN110891182B (zh) | 2018-09-11 | 2022-04-12 | 华为技术有限公司 | 一种实现视频流切换的方法、装置和系统 |
CN109168001B (zh) * | 2018-09-27 | 2021-02-12 | 苏州科达科技股份有限公司 | 视频场景变化的检测方法、装置及视频采集设备 |
CN109361923B (zh) * | 2018-12-04 | 2022-05-31 | 深圳市梦网视讯有限公司 | 一种基于运动分析的滑动时间窗场景切换检测方法和系统 |
CN111629261B (zh) * | 2019-02-28 | 2022-04-22 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN112019850B (zh) * | 2020-08-27 | 2022-08-23 | 广州市百果园信息技术有限公司 | 基于场景切换的图像组划分方法、视频编码方法及装置 |
CN112351278B (zh) * | 2020-11-04 | 2023-07-07 | 北京金山云网络技术有限公司 | 一种视频的编码方法和装置,视频的解码方法和装置 |
US11743474B2 (en) | 2021-08-27 | 2023-08-29 | Meta Platforms, Inc. | Shot-change detection using container level information |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3315766B2 (ja) * | 1992-09-07 | 2002-08-19 | 富士通株式会社 | 画像データ符号化方法、その方法を用いた画像データ符号化装置、画像データ復元方法、その方法を用いた画像データ復元装置、シーン変化検出方法、その方法を用いたシーン変化検出装置、シーン変化記録装置、及び画像データのシーン変化記録・再生装置 |
JPH09322174A (ja) | 1996-05-30 | 1997-12-12 | Hitachi Ltd | 動画データの再生方法 |
JP2002010254A (ja) | 2000-06-20 | 2002-01-11 | Sony Corp | 特徴点検出方法および記録再生装置 |
US7525579B2 (en) * | 2004-12-27 | 2009-04-28 | Konica Minolta Holdings, Inc. | Image sensing apparatus and image processing method for use therein |
US8208536B2 (en) * | 2005-04-28 | 2012-06-26 | Apple Inc. | Method and apparatus for encoding using single pass rate controller |
CN100428801C (zh) * | 2005-11-18 | 2008-10-22 | 清华大学 | 一种视频场景切换检测方法 |
CN101072342B (zh) * | 2006-07-01 | 2010-08-11 | 腾讯科技(深圳)有限公司 | 一种场景切换的检测方法及其检测系统 |
JP2010219929A (ja) | 2009-03-17 | 2010-09-30 | Oki Networks Co Ltd | 動画像解析装置、プログラム及び方法、並びに、動画像処理装置及び動画像配信装置 |
US8588296B2 (en) * | 2009-07-02 | 2013-11-19 | Dialogic Corporation | Bitrate control algorithm for video transcoding systems |
CN102740108B (zh) | 2011-04-11 | 2015-07-08 | 华为技术有限公司 | 一种视频数据质量评估方法和装置 |
CN102630013B (zh) * | 2012-04-01 | 2013-10-16 | 北京捷成世纪科技股份有限公司 | 基于场景切换的码率控制视频压缩方法和装置 |
CN103826121B (zh) * | 2013-12-20 | 2017-05-10 | 电子科技大学 | 低延迟视频编码基于场景切换检测的码率控制方法 |
CN103945281B (zh) * | 2014-04-29 | 2018-04-17 | 中国联合网络通信集团有限公司 | 视频传输处理方法、装置和系统 |
WO2016027410A1 (ja) * | 2014-08-21 | 2016-02-25 | パナソニックIpマネジメント株式会社 | 検知装置および検知システム |
US10063866B2 (en) * | 2015-01-07 | 2018-08-28 | Texas Instruments Incorporated | Multi-pass video encoding |
-
2016
- 2016-08-23 CN CN201610708531.5A patent/CN107770538B/zh active Active
-
2017
- 2017-08-22 WO PCT/CN2017/098483 patent/WO2018036481A1/zh unknown
- 2017-08-22 EP EP17842903.1A patent/EP3499460A1/en not_active Withdrawn
- 2017-08-22 KR KR1020197007484A patent/KR20190039265A/ko active Search and Examination
- 2017-08-22 JP JP2019510927A patent/JP2019528643A/ja not_active Ceased
-
2019
- 2019-02-25 US US16/284,664 patent/US10917643B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2018036481A1 (zh) | 2018-03-01 |
US20190260999A1 (en) | 2019-08-22 |
CN107770538B (zh) | 2020-09-11 |
CN107770538A (zh) | 2018-03-06 |
US10917643B2 (en) | 2021-02-09 |
JP2019528643A (ja) | 2019-10-10 |
EP3499460A4 (en) | 2019-06-19 |
EP3499460A1 (en) | 2019-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10917643B2 (en) | Method and apparatus for detecting scene change frame and system | |
JP5670551B2 (ja) | ビデオストリームの品質を評価する方法と装置 | |
US8094713B2 (en) | Method and system for viewer quality estimation of packet video streams | |
JP5302342B2 (ja) | ビデオ符号ストリームの品質を評価する方法、装置およびシステム | |
US9030565B2 (en) | Method, apparatus, and system for evaluating video quality | |
DK2347599T3 (en) | METHOD AND SYSTEM FOR DETERMINING A QUALITY VALUE OF A VIDEO FLOW | |
KR101595875B1 (ko) | 멀티미디어 품질 평가 방법 및 장치 | |
EP2637410B1 (en) | Detection method and device for frame type | |
US11310489B2 (en) | Method, apparatus, and system for implementing video quality assessment | |
JP5911563B2 (ja) | ビットストリームレベルで動画品質を推定する方法及び装置 | |
JP4861371B2 (ja) | 映像品質推定装置、方法、およびプログラム | |
Yamada et al. | Accurate video-quality estimation without video decoding | |
KR102350570B1 (ko) | 영상프레임의 손실을 측정하기 위한 iptv 셋탑박스 및 그 동작방법 | |
KR20140096320A (ko) | 왜곡/품질 측정 | |
JP4740967B2 (ja) | 映像品質推定装置、方法、およびプログラム | |
JP5394991B2 (ja) | 映像フレーム種別推定用調整係数算出方法、装置、およびプログラム | |
KR101199470B1 (ko) | 주관적 화질 열화 측정 장치 | |
JP2015530034A (ja) | ビデオ・ビットストリーム内の徐々に変化するトランジションを示すピクチャを検出する方法および装置 | |
Garcia et al. | Video Quality Model | |
KR20150078548A (ko) | Gop 정보 기반의 실시간 체감형 영상 품질 모델링 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |