KR20130105306A - 비디오 스트림 내의 복수의 비디오 프레임의 픽쳐 구조의 그룹 유형의 추정 방법 - Google Patents

비디오 스트림 내의 복수의 비디오 프레임의 픽쳐 구조의 그룹 유형의 추정 방법 Download PDF

Info

Publication number
KR20130105306A
KR20130105306A KR1020127032631A KR20127032631A KR20130105306A KR 20130105306 A KR20130105306 A KR 20130105306A KR 1020127032631 A KR1020127032631 A KR 1020127032631A KR 20127032631 A KR20127032631 A KR 20127032631A KR 20130105306 A KR20130105306 A KR 20130105306A
Authority
KR
South Korea
Prior art keywords
frame
gop
frames
array
video
Prior art date
Application number
KR1020127032631A
Other languages
English (en)
Other versions
KR101857829B1 (ko
Inventor
사바스 아르기로풀로스
버나드 피튼
마리-네이지 가르시아
피터 리스트
알렉산더 라케
Original Assignee
도이체 텔레콤 악티엔 게젤샤프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도이체 텔레콤 악티엔 게젤샤프트 filed Critical 도이체 텔레콤 악티엔 게젤샤프트
Publication of KR20130105306A publication Critical patent/KR20130105306A/ko
Application granted granted Critical
Publication of KR101857829B1 publication Critical patent/KR101857829B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

본 발명은 비디오 스트림 내의 복수의 비디오 프레임의 프레임 유형을 추정하는 것에 의해 해당 복수의 비디오 프레임의 픽쳐 그룹(GoP)의 유형을 추정하기 위한 방법을 제공하며, 해당 방법은: a) 비디오 스트림을 전송하는 전송 계층의 특징을 이용하는 것에 의해 프레임 크기의 어레이를 획득하도록 최초의 인트라-프레임인 I-프레임에 후속하는 모든 비디오 프레임의 비트 프레임 크기를 수집하는 단계와; b) 다수의 프레임 다음에, a) 단계에서 얻어진 프레임 크기의 어레이를 복수의 0과 복수의 1로 된 어레이로 변환하는 단계로, 0은 양방향 프레임인 B-프레임을 나타내는 것으로 추정되는 작은 프레임 크기를 나타내고, 1은 예측된 프레임인 P-프레임을 나타내는 것으로 추정되는 큰 프레임 크기를 나타내는, 변환 단계와; c) 분석 대상인 GoP 구조에 특징적인 특정의 반복되는 짧은 기본 패턴을 포함하는, b) 단계에서 얻어진 2진화된 어레이의 프레임 크기를 다수의 사전 정의된 짧은 기본 2진 패턴에 매칭시키는 단계로, 상기 2진수의 사전 정의된 패턴은 고려 대상의 모든 GoP 구조를 나타내는, 그러한 매칭 단계와; d) 단일 스코어 값을 형성하도록 c) 단계에서의 상기 매칭 결과를 변환시키는 단계와; e) 사전 정의된 측정법에 따라 최적의 스코어 값을 갖는 2진수의 사전 정의된 패턴의 개수의 특정 패턴을 결정하는 단계를 포함한다.

Description

비디오 스트림 내의 복수의 비디오 프레임의 픽쳐 구조의 그룹 유형의 추정 방법{METHOD FOR ESTIMATING THE TYPE OF THE GROUP OF PICTURE STRUCTURE OF A PLURALITY OF VIDEO FRAMES IN A VIDEO STREAM}
다수의 TV 배포 서비스 중에서 IPTV(인터넷 프로토콜 TV)는 점차 중요해지고 있으며 아날로그 또는 비-패킷형 전송 방법을 점차 대체하고 있다. 정보 제공자와 소비자 모두에 대한 방송 공급자의 주요한 역할은 그 서비스 품질을 유지하는 것이다. 광역의 IPTV 네트워크에서, 오디오 및/또는 비디오 품질의 저하가 생기는 경우 경보를 발하는 전자동 품질 모니터링 프로브(fully automated quality monitoring probe)만이 이러한 요건을 이행할 수 있다. 이들 모니터링 프로브는 최종 사용자가 인지하게 되는 주관적인 품질을 추정할 수 있어야 한다. 비디오 비트 스트림으로부터의 객관적 측정 결과를 소위 "평균 평가 스코어(mean option score; MOS)" 값으로 전환시키는 여러 모델이 존재하거나 개발 중에 있다. 이러한 MOS 값의 생성에 사용될 수 있는 객관적 측정 카테고리는 예컨대 모니터링되는 비디오의 비트 속도와 프레임 속도를 포함할 것이다.
(대부분 네트워크 내의 소정 포인트에서의 일시적 오버로드에 기인하여) IP 패킷이 손실될 수 있는 것은 IP-네트워크의 고유한 특성이다. 이들 손실 중 일부는 거의 소비자에게 시인될 수 없으나, 나머지는 비디오 품질의 심각한 저하를 야기할 수 있다. 이들 손실의 만회 수단이 IPTV 배포 시스템의 일부인 경우에도, 이들 수단은 100%의 효율을 결코 보장할 수 없다. 예를 들면, 재전송 요청이 너무 길게 소요되거나 또는 재전송된 패킷 자체가 손실될 수 있다.
그러므로, 부분적 비트 스트림이 최종 사용자 장치로 전송되는 것은 언제나 제로가 아닌 확률로 존재한다. 이들은 다시 재구성된 비디오 또는 오디오에 시각적 또는 청각적 품질 저하를 야기할 수 있다. 그러므로, 측정 카테고리는 손실에 대한 확률을 표현하는 값을 포함할 수 있다. 이러한 값은 "패킷 손실률"과 "손실 이벤트의 버스트(burstiness)"의 표현을 포함할 수 있다.
패킷 손실이 심지어 오랜 시간 기간 동안 비 시인적(invisible)이거나 반대로 확실하게 시인적(visible)이 될 것인지 여부를 추정할 수 있도록 하기 위해, 모니터링되는 비트 스트림의 더 많은 특성을 수집하는 것이 필요할 것이다. 이들 추가의 특성 중 가장 중요한 특성은 모든 프레임과 특히 손실에 의해 영향을 받은 프레임의 "프레임 유형(frame type)"이다. "프레임 유형" 특성에 대한 가능한 값은 "인트라-프레임(Intra-Frame)" 또는 "키-프레임(Key-Frame)"(이하 I-프레임으로 지칭됨), "예측된-프레임(Predicted-Frame)"(이하 P-프레임) 및 "양방향-프레임(Bidirectional-Frame)"(이하 B-프레임)을 포함한다. 임의의 이전 프레임에 대한 지식 없이 I-프레임 만이 디코딩될 수 있음이 잘 알려져 있다. 반대로, P-프레임은 "기준 프레임(reference frame)"으로 불리는 하나 이상의 선행자(predeccesor)에 항상 의존하는데, 이는 P-프레임에 대한 전송 정보는 주로 정보가 기술하는 비디오-프레임과 그 기준 간의 차이로 이루어지기 때문이다. 그러므로, I-프레임 또는 그것의 연속적 P-프레임 내의 패킷 손실은 모든 후속 프레임 내로 전달되는데, 이는 손실의 영향을 받은 I- 및 P-프레임이 전반적으로 후속하는 프레임에 대한 기준으로서 작용하기 때문이다. 따라서, 이들 프레임은 임의의 손실 자체를 포함하지 않음에도 품질 저하된다.
이러한 메커니즘에 기인하여, 다음의 에러 없는 I-프레임이 생기기까지 단일의 패킷 손실 에러가 비디오 시퀀스의 긴 부분들을 통해 남을 수 있다. 따라서, P-프레임, 특히 I-프레임에서의 에러는 매우 높은 시인성(visibility)을 가질 수 있다.
동일한 기준 프레임 메커니즘은 B-프레임의 경우 사실이지만, B-프레임은 전반적으로 기준 자체로서 기능하지 않으므로, B-프레임에서의 에러는 이러한 단일 프레임에서 시인 가능할 것이고, 따라서 I- 또는 P-프레임에서의 손실에 기인한 에러에 비해 훨씬 덜 시인 가능할 것이다.
I-프레임은 임의의 이전 기준에 좌우되지 않으므로, 이들 프레임은 비트 스트림 내의 유일한 포인트들이 비디오 플레이어였음을 나타내거나 셋톱 박스가 비디오를 동기화할 수 있다. 또한, (손실 없는) I-프레임은 패킷 손실에 기인하는 임의의 품질 저하를 일소시키는 유일한 시점이다. 두 개의 I-프레임 간의 비디오 프레임의 시퀀스는 "픽쳐의 그룹(Group of Picture: GoP)"으로 지칭된다. 대부분의 경우, GoP 내의 P-와 B-프레임은 MPEG2로부터 알려진 전형적인 패턴: "I, B, B, P, B, B, P,..."와 같은 다소 엄격한 패턴을 따른다. 이러한 패턴이 알려지면, 패킷 손실 또는 암호화에 기인하여 비트 스트림으로부터 프레임 유형 자체가 판독될 수 없을지라도 비트 스트림 내의 임의의 픽쳐의 프레임 유형을 신뢰성 있게 사전 추정하는 것이 가능하다.
전술한 측정 값 또는 기타의 측정 값에 대한 양호한 추정을 획득하는 것이 크게 요망되고 있다. 이것은 주로 두 가지 별개 이유에 기인한다:
1. 인증되지 않은 접근을 방지하기 위해, 비트 스트림이 암호화되거나 중요한 비트 스트림 특성이 측정 위치에서 판독 불가할 수 있다.
2. 전술한 바와 같은 패킷 손실에 기인하여, 중요한 정보 부분이 비트 스트림으로부터 제거됐을 수 있다.
WO 2009/02297 및 WO 2009/012302에서, GoP의 "패턴"은 초대형 크기(I-프레임), 중간 크기(P-프레임) 및 작은 크기(B-프레임)의 비디오-프레임 간을 구별하는 적응적 임계값의 도움으로 모든 개별 비디오-프레임의 프레임 유형을 개별적으로 추정하는 것에 의해 따로 결정된다. I-프레임은 P-프레임 또는 B-프레임의 비트보다 평균 2배 내지 5배 많은 비트를 포함하고 있으므로, P-프레임과 B-프레임으로부터 I-프레임을 구별하는 것은 용이하다. 그럼에도 B-프레임으로부터 P-프레임을 구별하는 것은 오히려 신뢰적이지 않다. B-프레임은 평균적으로 P-프레임보다 작지만, 크기의 차이는 크지 않고, 대신에 P-프레임과 B-프레임의 크기의 변화가 존재한다. 대체로, 크기의 평균적 차이는 조사되는 비디오 시퀀스를 압축하는데 사용되는 특정 인코더와 해당 시퀀스의 특정 특성에도 크게 의존한다. 이것은 B-프레임의 일부이고 다른 B-프레임에 대한 기준으로서 사용되는 "계층적 코딩"으로 불리는 H.264 인코더의 새로운 인코딩 전략의 경우 더욱 그러하다.
EP-A-2 077 672 문헌은 예컨대 인코딩된 비디오 신호의 프레임 유형을 추정하기 위해 전송 스트림을 분석하는 것에 관련된다. 제1 실시예에서, GoP의 "패턴"은 계산된 대소의 관계가 사전 정의된 "판정 프레임 패턴(determination frame pattern)"을 매칭하는 경우, 최대 크기의 비디오 프레임이 P-프레임으로 간주되는 소수의 연속적 비디오-프레임의 국부적 크기-최대를 결정하는 것에 의해 결정된다. 다른 모든 프레임은 B-프레임으로 간주된다.
제2 실시예에서, 프레임은 해당 프레임이 1보다 큰 인수(예, 1.2)로 곱한 다수의 선행하는 프레임의 평균으로서 계산된 임계값을 초과하는 경우, P-프레임으로서 추정된다. 개방(open)-GoP B, B, P 패턴을 검출한 것으로 추정되는 이러한 1차 계산이 실패하면, 다른 GoP 패턴을 나타내는 유사한 임계값-기초의 시험이 행해진다. 이들 시험은 순차적으로 수행되고 첫 번째 성공이 최종 결과로서 취급되므로, 연쇄 시험의 시작의 부정합(mismatch)은 다음의 시험에 의해 수정될 수 없다.
이전의 기술(former art)의 모든 프레임-유형의 추정은 P-프레임이 시퀀스 중의 일시적 주변 B-프레임보다 항상 충분히 큰 크기를 가진다는 가정에 의존한다. 실제, 이것은 항상 그러한 것은 아니다. 오직 프레임-유형 크기의 평균값만이 이러한 가정을 신뢰성 있게 매칭한다.
그러므로, 본 발명에서 행해지는 바와 같이 크기에 따른 프레임-유형의 판별이 신뢰적이지 않거나 불확실하면, 통계학적 수단에 의해 전반적 GoP 구조를 검출하고 이러한 지식을 개별 프레임에 적용하는 것이 바람직하다.
본 발명은 암호화된 비디오 스트림 내에서, 또는 프레임 유형(슬라이스 헤더)에 대한 정보를 포함하는 비트 스트림 특성이 패킷 손실에 기인하여 손실을 경험한 경우, 비디오 프레임의 프레임 유형을 추정하는 방법을 제안한다.
특히, 본 발명은 단지 그 크기에만 의존하는 것이 아닌 프레임 유형의 추정 방법을 제시한다. 대신에, 각 GoP에서의 해당 프레임 크기를 통상의 사전 정의된 GoP 패턴에 패턴 매칭하는 것에 의해 조사되는 비디오 비트 스트림의 GoP 패턴이 추정된다. 이렇게 추정된 GoP 패턴의 지식으로 모든 후속하는 프레임의 유형이 추정될 수 있다.
본 발명은 청구항들에서 정의된다.
제1 측면에 따르면, 본 발명은 청구범위 제1항에 따라 비디오 스트립 내의 복수의 비디오 프레임의 픽쳐 그룹(GoP) 구조의 유형을 추정하기 위한 방법을 제공한다.
a) 단계에서, 전송 계층의 소정의 타임스탬프의 변화를 모니터링하거나, 새로운 프레임을 지시하고 다른 프레임으로부터 인트라-프레임을 결정하는데 사용되는 헤더 구조 내의 소정의 비트에 의해 비트 스트림 내의 비디오 프레임의 경계가 검출될 수 있다.
a) 단계에서 1 측정 구간 중에 수집된 프레임의 개수는 다음 I-프레임까지 모든 프레임을 포함하는 것이 바람직하다.
b) 단계에서, 연속하는 프레임 크기를 2진수로 변환하는 것은 이전에 수집된 프레임 크기 및/또는 다른 동적인 특징의 값에 의존하는 것이 바람직한, 일정하거나 서서히 변동하는 특징에 의존하는 기준 값 또는 동적인 적응적 기준 값의 사용을 포함한다.
2진수의 사전 정의된 기본 패턴은 프레임 기초 코딩(frame based coding), 필드 기초 코딩(field based coding), 개방 GoP 코딩, 또는 폐쇄 GoP 코딩에서 다른 개수의 연속적 B-프레임에 대해 가능한 GoP 구조를 표현한다.
c) 단계에서, 일련의 반복되는 기본 패턴이 프레임 크기의 어레이에서 일련의 이진화된 프레임 크기와 동일한 길이를 가질 때까지 가능한 최종 기본 패턴의 절단을 행하여 짧은 사전 정의된 기본 패턴이 반복되는 것이 바람직하다.
또한, c) 단계에서, 엘리먼트 와이즈 배타적 부정 논리합(element wise exclusive nor) 연산에 의해 매칭이 수행될 수 있으며, d) 단계에서 모든 배타적 부정 논리합의 결과는 가산되어 스코어 값을 형성하며, e) 단계에서 스코어 값 측정치는 최대 값에 대응한다.
일 실시예에 따르면, e) 단계에서, 최적의 스코어 값을 갖는 패턴을 위해, 관련된 GoP-구조, 필드/프레임 상태 및 개방 GoP/폐쇄 GoP 상태가 현재 GoP의 GoP 패턴을 위한 추정 결과로서 선택된다.
바람직하게, 후속하는 GoP들의 경우, 새로운 일련의 프레임 크기가 수집되거나, 프레임 크기의 이전 및 현재의 어레이의 프레임 크기를 평균화하는 것에 의해 임의의 종류의 GoP 평균이 사용된다.
GoP 패턴의 추정 이후, 검출된 픽쳐 구조의 그룹 내에 기준 B-프레임의 존재를 검출하기 위해 청구항 제11항에 따라 추가의 프레임 유형의 분류가 수행된다.
제2 측면에 따르면, 본 발명은 청구항 제12항에 따라 비디오 스트립 내의 복수의 비디오 프레임의 픽쳐 그룹(GoP) 구조의 유형을 추정하기 위한 다른 방법을 제공한다.
1 측정 구간 중에 수집된 a) 단계에서의 프레임의 개수는 다음 인트라-프레임까지 모든 프레임을 포함하는 것이 바람직하다.
c) 단계에서, 모든 어레이에 대해 두 개의 관계 값이 하기에 기술되는 바와 같이 생성된다:
i) 조사되는 비디오 스트림이 개방 GoP 코딩으로 구성되면, 어레이(BP) 각각이 나타내는 기본 패턴의 추정된 P-프레임은 상기 어레이(BP)의 최종 엘리먼트에 위치될 것이고, 상기 어레이의 다른 모든 엘리먼트는 개방 GoP 코딩 스트림에 대한 관계가 다른 모든 어레이 엘리먼트의 평균에 의해 나눠진 최종 어레이 엘리먼트로서 계산되도록 B-프레임에 의해 점유될 수 있거나, 또는
ii) 조사되는 비디오 스트림이 폐쇄 GoP 코딩으로 구성되면, 어레이(BP) 각각이 나타내는 기본 패턴의 추정된 P-프레임은 상기 어레이(BP)의 최초 엘리먼트에 위치되고, 상기 어레이의 다른 모든 엘리먼트는 폐쇄 GoP 코딩 스트림에 대한 관계가 다른 모든 어레이 엘리먼트의 평균에 의해 나눠진 최초 어레이 엘리먼트로서 계산되도록 B-프레임에 의해 점유될 수 있다.
바람직하게, GoP 패턴의 추정 이후, c) 단계에 따라 추정된 GoP 구조를 나타내는 어레이 내의 B-프레임의 서브세트가, 기준 B-프레임을 포함할 수 있는 상기 어레이 내의 엘리먼트에 대해 상기 b) 단계의 결과에 따라 평균화된 프레임 크기가 상기 어레이 내에 B-프레임을 포함하는 그외의 모든 엘리먼트보다 상당히 큰지 여부에 대해 조사되고, 조사 결과가 그러하면, 상기 프레임은 기준 B-프레임인 것으로 추정되고 추정된 GoP 구조는 소위 계층적 코딩 시퀀스(hierarchical coding sequence)의 GoP 구조인 것으로 추정되도록, 추가의 프레임 유형 분류가 수행된다.
추정된 GoP 구조는 후속하는 GoP-구조에 대한 추정으로서 기능하고, 이렇게 추정된 GoP 구조는 패킷 손실에 기인한 비디오 프레임 손실을 검출하거나, 손실되거나 존재하는 프레임에 그 특정 프레임 유형을 표시하기 위한 지원으로서 사용된다.
제1 단계에서, 각각의 비디오 프레임에 대한 바이트 수가 추정되거나 계산된다. 이 작업의 수행에 다른 방법이 적절할 수 있다. 예를 들면, 전송 계층에서 소정의 타임스탬프의 변화를 이용하여 새로운 프레임의 시작을 검출할 수 있거나, 새로운 프레임을 지시하는데 사용되는 헤더 구조 내의 소정의 비트를 이용할 수 있다. 전반적으로 이들 비트 스트림 특성은 암호화된 비트 스트림에서도 사용 가능하다. 그러므로, 프레임 크기는 정확히 계산된 바이트이거나 다음의 단계를 수행하기에 충분하게 적절히 추정될 수 있다.
제2 단계에서, 다음 GoP의 시작을 나타내는 다음의 I-프레임이 검색될 때까지 비디오 비트 스트림이 스캐닝된다.
비 암호화된 스트림에서, 다음 I-프레임(모든 프레임 유형으로서)은 비디오 프레임 헤더의 조사를 통해 확인될 수 있다. 암호화된 스트림에서, 또는 프레임 경계가 페이로드(payload) 내의 무지의 포인트에서 어딘가에 보이면, I-프레임을 "랜덤 액세스 포인트"로서 마킹하는 소정의 플래그가 대신 액세스될 수 있다. 여러 이유로 인해 이들 플래그가 보이지 않으면, 여전히 대면한 프레임 크기의 분석이 사용되어 I-프레임을 검출할 수 있는데, 이는 그 크기가 전반적으로 P와 B-프레임에서보다 훨씬 크기 때문이다.
제3 단계에서, 다른 I-프레임까지의 모든 후속 비디오 프레임의 바이트의 크기는 다음 I-프레임을 만나서 GoP가 완료될 때까지 소정의 어레이로 캡처될 것이다.
제4 단계에서, 이들 어레이는 통상의 GoP 구조를 나타내는 다수의 사전 정의된 패턴에 매칭될 것이다. 최적의 매칭은 추후의 단계에서 다음의 GoPs에 대한 프로토유형(prototype)으로서 작용하는 특정 GoP에 관련되며, 그에 따라 들어오는 프레임의 프레임 유형의 사전 추정을 용이하게 할 수 있다.
후속 GoPs의 경우, 프레임 크기의 어레이는 리셋될 수 있어서, 현재 GoP의 데이터만이 사용되거나 소정 개수의 이전의 GoPs의 프레임 크기가 가산되어 평균 값을 얻을 수 있다. 후자의 경우, 어레이의 요소에 가산된 프레임 크기 값의 수를 알기 위해 추가의 어레이가 필요할 수 있다. 바람직하게, 다음을 적용하는 것에 의해 이동 평균을 계산할 수 있다:
Figure pct00001
여기서 M은 평균화될 GoPs의 개수이다.
본 발명에 따라 다른 가중 방식이 사용될 수 있다.
가능한 GoP 패턴
전술한 바와 같이, GoP는 통상 GoP의 경계를 마킹하는 두 개의 I-프레임 간의 소정 시퀀스의 P-와 B-프레임으로 이루어진 특정 구조를 가진다. 전형적인 GoP 구조는 다음과 같다:
Figure pct00002
("MPEG2로 알려진 "고전적인" GoP 구조)
Figure pct00003
(계층적 인코딩을 위한 가능한 GoP 구조, B= 기준 B-프레임, b=비 기준 B-프레임)
인터레이스된(interlaced) 비디오는 때로 하나의 비디오 프레임마다 두 개의 독립적 필드로 이루어진 "필드 시퀀스"로서 인코딩되는 것을 고려하여야 한다. 이 경우, 상기 구조는 다음과 같이 보일 수 있다:
Figure pct00004
이러한 구조는 정확히 검출되면 암호화된 스트림에서의 프레임과 필드 인코딩 간을 결정할 수 있게 하는 분명한 패턴을 형성한다. 여기서 필드 시퀀스에서는 키 프레임의 제1 필드만이 실제 인트라 필드로서 코딩됨을 알 것이다. 키-프레임의 제2 필드는 예측 필드일 수 있다. 상기 표기에서 이것은 I/P 프레임이 될 것이다. P/I 프레임도 가능하다.
상기 패턴은 "디스플레이 순서"로 가시화된다. 사실, 프레임은 다른 순서, 즉 소위 "비트 스트림 순서" 또는 "디코딩 순서"로 전송된다. B-프레임은 과거와 미래의 기준을 가지므로, 이들 미래 기준이 미리 전송됨으로써 아래에 보여지는 바와 같은 비트 스트림이 얻어진다:
Figure pct00005
비트 스트림 순서
Figure pct00006
디스플레이 순서(비트 스트림 순서 지수를 가짐)
Figure pct00007
비트 스트림 순서
Figure pct00008
디스플레이 순서(비트 스트림 순서 지수를 가짐)
동일한 GoP 구조에 대해서도 다른 패턴도 가능하다. 이것은 "폐쇄된 GoP 전송"과 "개방된 GoP 전송"의 기술이 존재하기 때문이다.
폐쇄된 GoPs에서, 다른 GoPs의 정보의 전송은 결코 중복되지 않는다. 개방된 GoP 구조에서 제1 I-프레임은 디스플레이 순서로 선행하는 B-프레임(선행하는 GoP를 폐쇄함) 이전에 전송된다. 상기 예들은 폐쇄된 형태로 나타낸 것이다. 개방된 GoP 형태의 동일한 예는 다음과 같다:
Figure pct00009
디스플레이 순서(개방 GoP)
Figure pct00010
비트 스트림 순서
Figure pct00011
디스플레이 순서(개방 GoP)
Figure pct00012
비트 스트림 순서
여기서 첫 번째 2개(3개) B-프레임(여기서는 볼드체로 표기됨)은 선행하는 GoP에 속하고 이들은 현재 GoP의 I-프레임 이후에 전송된다.
쉽게 알 수 있는 바와 같이, 비트 스트림 순서와 그에 따라 얻어지는 GoP 패턴은 정확하게 검출되면 폐쇄된 GoP와 개방된 GoP 시퀀스 간의 결정을 허용하는 확실한 방식으로 상이하다.
다른 가능한 패턴은 다음을 포함한다:
Figure pct00013
(비디오 컨퍼런싱 및 기타 낮은 지연의 적용 등에 사용되는 B-프레임 없는 GoP 구조)
Figure pct00014
(단 하나의 B-프레임을 갖는 GoP 패턴)
완전히 판독 가능하거나 암호화되거나 패킷 손실에 의해 손상될 수 있는 임의의 분석된 비디오 스트림의 GoP 구조를 추정하는 것은 본 발명의 범위 내에 있다. 이러한 목적을 달성하기 위해 필요한 유일한 정보는 모든 대면된 비디오 프레임의 바이트의 크기와 어떤 프레임이 I- 프레임 유형인지에 대한 지식이다.
프레임 크기의 계산/추정
본 발명은 비디오 시퀀스의 모든 프레임의 바이트 크기의 분석을 기초로 하므로, 이들 크기는 모든 프레임에 대해 비트 스트림으로부터 추출되어야 한다. 이러한 작업을 수행하기 위해 다른 동작을 요할 수 있는 여러 가지 상이한 전송 방식이 존재한다. 현재까지 가장 중요한 IP 베이스 네트워크 상의 전송 방식은 실시간 프로토콜(real time protocol; RTP)"이다. 따라서 여기서는 프레임 크기 추출은 RTP만에 대해 설명되지만, 다른 전송 방식의 경우 유사하게 작동할 것이다. 당업자는 본 발명을 이러한 용도의 임의의 다른 전송 방식에 용이하게 적용할 수 있을 것이다.
RTP를 통해 비디오 정보의 전송 방식은 두 가지 주요 접근이 존재한다:
● 비디오는 RTP 패킷의 페이로드로서 직접 전달된다. 이 경우, 오디오 및 기타 가능한 정보("시스템" 정보)가 다른 포트 수를 갖는 다른 RTP-스트림으로 전달된다. 그러므로, 비트 스트림의 비디오 부분은 패킷의 나머지로부터 쉽게 분리될 수 있다.
하나의 비디오 프레임은 통상 각기 타임스탬프를 전달하는 다수의 RTP 패킷의 페이로드로 이루어진다. 비디오의 경우, 이들 RTP-타임스탬프는 이들이 가지는 상대적 디코딩 시간으로 설정된다. RTP 패킷은 각각 다른 크기를 가질 수 있으므로, 비디오 프레임은 대체로 다수의 완전한 RTP-패킷으로 존재할 것이다. 이 경우 비디오 프레임의 크기를 계산하기 위해, 동일한 타임스탬프를 갖는 모든 RTP-패킷의 페이로드 크기만이 가산되어야 한다.
프레임 경계가 하나의 RTP-페이로드 내에 보이는 경우에도, 프레임 크기는 상기 값에 의해 매우 양호하게 추정될 수 있다. 암호화될 수 있는 페이로드 자체로의 액세스는 필요하지 않다.
RTP-패킷 손실을 검출하기 위해 RTP-헤더의 일부인 RTP-시퀀스 번호가 액세스될 수 있다. 손실된 패킷의 크기를 알 수 없으므로, 추정이 필요하다. 이것은 소정 종류의 평균 크기의 과거 패킷에 의해 행해질 수 있다.
● 비디오는 RTP를 통해 전달되지만, 페이로드는 "전송 스트림"(TS)이다. TS에서, 비디오, 오디오 및 기타 정보가 하나의 스트림으로 멀티플렉싱된다. 멀티플렉스 패킷 각각은 작은 TS-헤더를 포함하는 188 바이트의 크기를 가진다. 하나의 RTP-패킷은 소위 "프로그램 ID"(PID)에 의해 특정 서브 스트림에 속하는 것으로 마킹되는 이들 TS-패킷 중 7개를 보유한다. 이들 서브 스트림 중 하나는 분석 대상인 비디오이다. 암호화된 스트림에서도 TS-헤더는 대체로 암호화되지 않으며, 그에 따라 액세스될 수 있다. 이들 헤더는 프레임 크기의 정확한 측정을 가능케 한다. RTP-패킷 손실의 경우, 소위 TS 헤더 내의 소위 "연속성 카운터(continuity counter)"가 사용되어 특정 RTP 손실에 대해 각 서브 스트림마다 별도로 손실된 서브 스트림-패킷의 수를 계산할 수 있다. TS-패킷은 RTP-패킷보다 훨씬 작고, 그리고 (드문 경우인 스터핑(stuffing)이 없는 경우) 동일한 페이로드 크기를 가지므로, 손실된 바이트의 수가 더 정확하게 추정될 수 있다. TS-헤더 내의 전술한 연속성 카운터는 4비트만을 가질 뿐이다. 그러므로, 16개까지의 손실된 TS-패킷이 검출될 수 있다. 공지의 손실된 RTP 패킷의 수 및 용이하게 계산될 수 있는 RTP 패킷 당 TS-서브 스트림 패킷의 평균 수에 대한 값과 함께, 16개 이상의 손실된 TS-패킷에 대한 정확한 추정이 추정될 수 있다.
RTP 타임스탬프는 비디오 프레임이 가지는 비디오 프레임의 상대적인 디코팅 시간에 동기화되므로, 완벽한 손실 프레임조차 검출될 수 있는데, 이는 이러한 경우 RTP-타임스탬프가 연속적인 프레임 간에 두 개 이상의 시간차에 의해 증분될 것이기 때문이다.
I-프레임의 검출
분석을 시작하기 위해, 비트 스트림은 새로운 GoP의 시작을 마킹하는 다음 I-프레임의 시작을 찾기 위해 스캐닝된다. I-프레임은 다른 수단에 의해 검출된다. 비 암호화된 스트림의 경우, 기본 스트림의 프레임 헤더는 모든 비디오 프레임에 대해 용이하게 액세스될 수 있다. 비디오 프레임 헤더는 프레임 유형을 명시적으로 담고 있다.
비디오가 RTP-페이로드로서 직접 전달되면, 프레임-헤더는 언제나 모든 RTP-패킷의 페이로드 내의 제1 바이트가 M-비트의 RTP-헤더가 1로 설정된 RTP-패킷 다음에 오는 것으로 보여야 한다. 프레임 헤더도 RTP-패킷의 페이로드 내에 있는 것으로 보일 수 있으면, 이들 헤더는 용이하게 검색될 수 있는데, 이는 특유의 바이트 시퀀스를 포함하고 있기 때문이다.
RTP를 통한 TS의 사용의 경우, 소위 TS-헤더의 적응-필드 내의 "랜덤_액세스_플래그(random_access_flag)"가 사용될 수 있다. 이것은 도착 프레임이 I-프레임으로서 코딩되었음을 나타낸다. 모든 암호화된 스트림에서 TS-헤더의 일부로서 적응 필드는 통상 암호화되지 않는다.
일단 프레임 경계가 알려지면, I-프레임은 경험적으로 검출될 수 있다. I-프레임의 평균 크기는 통상 P와 B-프레임보다 훨씬 크다.
일단 I-프레임의 시작이 발견되면, 다음 GoP의 시작도 발견된다. 해당 시점으로부터 후속하는 모든 프레임의 크기는 다수의 가능한 방식으로 수집된다. 다음의 설명에서 이러한 수집 처리는 수집된 데이터의 분석이 시작될 때까지 완전한 GoP에 대해 계속된다. 본 발명의 다른 실시예에서, 수집 기간은 다른 길이를 가질 수 있다.
데이터 수집 및 패턴 매칭의 제1 실시예
하나의 긴 어레이의 프레임 크기
현재 GoP의 초기 I-프레임이 대면된 후, 모든 후속 프레임의 프레임 크기는 어레이로 된 요소 내로 저장되며, 어레이의 지수는 상기 I-프레임을 지난 프레임의 수와 같다. 이것은 다음 I-프레임이 검출되어 분석 대상인 제1 GoP의 종료를 지시할 때까지 행해지는 것이 바람직하다. 이렇게 구성된 프레임 크기의 어레이는 이러한 어레이를 통상의 패턴 세트에 비교하고 추정된 GoP-패턴과 그리고 적용 가능한 경우 다른 데이터를 출력하는 패턴 매칭 처리로의 입력이다.
분석된 비트 스트림이 암호화되지 않고, 그에 따라 프레임 유형이 알고리즘에 알려지면, 실제 프레임 크기는 비-기준 B-프레임의 경우 '1', 기준 B-프레임의 경우 '2', P-프레임의 경우 '4'와 같이 실제 프레임 크기와 동일한 목적을 제공하지만 임의의 통계적 불확실성을 도입하지 않는 표준화된 값으로 대체될 수 있다.
패턴 매칭
본 발명의 일 실시예에서, 프레임 크기의 어레이는 B-프레임의 경우 '0'이고 P-프레임의 경우 '1'인 이진 패턴에 매칭될 수 있다. 따라서 상기 GoP-구조의 예는 다음과 같은 패턴으로 매칭될 것이다:
0, 0, 1, 0, 0, 1 ... (개방 GoP를 갖는 I, b, b, P, b, b, P 구조)
1, 0, 0 1, 0, 0 ... (폐쇄 GoP를 갖는 I, b, b, P, b, b, P 구조)
0, 0, 0, 1, 0, 0, 0, 1 ... (개방 GoP를 갖는 I, b, B, b, P, b, B, b, P 구조)
1, 0, 0, 0 1, 0, 0, 0 ... (폐쇄 GoP를 갖는 I, b, B, b, P, b, B, b, P 구조)
본 발명의 해당 실시예에서, "프레임 크기의 어레이"는 이진 어레이로도 변환될 수 있다. 가장 용이한 경우로, 하나의 기준 값이 사용되어, 상기 어레이의 모든 요소의 값을 "작은 크기의 프레임(들)"의 경우 '0'으로, "큰 프레임(들)"의 경우 '1'로 대체할 수 있다. "큰 것"과 "작은 것" 사이를 결정하는 기준 값은 단순히 1보다 큰 요소(factor >1)를 곱한 모든 요소의 평균일 수 있다. 다른 실시예들에서, 임계 값은 모든 어레이 요소의 중간 값 또는 요소의 최소값과 최대값의 가중 조합 또는 어레이 요소의 기타 조합일 수 있다. 또한, 임계값은 작은 수의 프레임 크기 값에 대해 적용될 수 있다. 이것은 소정의 인자 또는 추가적 항목에 의해 상기 기술된 임계값들 중 하나를 변화시키거나 현재 값의 소정의 인접부의 프레임 크기 값으로부터만 임계값을 계산하는 것에 의해 얻어질 수 있다.
전반적으로, 어레이에는 제1의 극소값을 사용하지 않는 것이 합당할 수 있는데, 이는 I-프레임 직후에 P- 및 B-프레임이 불규칙하게 작은 크기를 가질 수 있기 때문이다.
매칭 처리
GoP의 길이는 대체로 미리 알려지지 않는다. 통상의 값은 매 1초 또는 2초당 하나의 I-프레임으로, 25 프레임/초의 통상의 프레임 속도에 대해 예컨대 25-50 프레임(또는 "필드 코딩" 모드의 경우 50-100 필드)의 GoP 길이가 얻어진다. 통상, 인코더는 장면-컷 검출를 가지며, 모든 장면-컷 위치에 I-프레임을 배치한다. 그러므로, 장면-컷이 충돌하면, GoP는 2 프레임 또는 심지어 1 프레임까지 떨어진 임의의 크기를 가질 수 있다.
전체 길이에 비해, 가능한 GoP 구조 각각의 기본 패턴은 일정하면서도 짧다(예, I, b,b,P,...의 예의 경우 0, 0, 1). 완전한 GoP의 요소와의 매칭을 위해, 이들 간단한 기본 패턴은 실제 GoP 크기에 도달하기까지 반복되어야 한다.
오직 이진 매칭이 적용되는 본 발명의 실시예에서, 매칭 처리 자체는 연결된 기본 패턴 요소의 변환된 어레이의 프레임 크기의 모든 요소에 대해 단순히 "배타적 부정 논리합(exclusive nor)" 연산일 수 있다. 이들 '배타적 부정 논리합'의 결과는 이후 사용된 패턴에 대해 매칭 스코어까지 가산된다. 이것은 모든 사용 가능한 사전 정의된 패턴으로 행해진다.
최고 스코어 수를 얻는 특정 패턴은 최적의 매칭으로 간주되고, 그 관련된 GoP 구조, 프레임/필드-상태, 개방/폐쇄-상태가 추가의 분석을 위해 채택된다.
계층적 코딩 및 통상의 B-프레임 코딩 간의 차별화
3개 이상의 연속하는 B-프레임이 최적 매칭의 GoP 패턴으로 추정되는 경우, 프레임의 시퀀스는 전술한 바와 같이 기준 B-프레임에 의한 "계층적 코딩" 방법으로 코딩됐을 수 있다. 만일 그렇다면, 이들 기준 B-프레임은 비 기준 B-프레임(b-프레임으로(위에서 b-프레임으로 표기됨)보다 바이트 프레임 크기가 크기 쉽다.
계층적 또는 비계층적 코딩의 사용 여부에 대한 신뢰성 있는 추정을 얻기 위해, 모든 서브 세트의 연속적 B-프레임(두 개의 P-프레임 사이)은 기준 B-프레임을 나타내는 서브 세트 내의 요소의 프레임 크기가 상기 서브 세트 내의 B-프레임을 나타내는 다른 모든 요소보다 상당히 큰지 여부에 대해 조사될 수 있다. 3개의 연속적 B-프레임의 경우, 이것은 제1 서브 세트 요소이고, 5개의 연속적 B-프레임의 경우, 이들은 제1 및 제2 서브 세트 요소이다. 7개의 연속적 B-프레임의 경우, 이들은 제1, 제2, 제3 서브 세트 요소이다(디코딩 순서로). 다른 조합은 계층적 코딩의 경우 매우 가능성이 작다. 이러한 조건이 연속하는 B-프레임의 세트의 크기에 대해 참(true)이면, GoP, 계층적 코딩이 추정될 수 있다.
4개 이상의 B-프레임의 패턴의 경우, 계층적 코딩은 전술된 시험 없이도 추정될 수 있는데, 이는 계층적 코딩 없이 행 내에 4개 이상의 B-프레임은 극히 가능성이 낮기 때문이다.
얻어진 추정된 GoP-구조를 다음의 GoP의 프레임에 적용하는 것은 시퀀스가 암호화되거나 프레임 헤더가 패킷 손실로 인해 소실되는 경우 이들 프레임의 프레임 유형을 신뢰성 있게 추정할 수 있게 한다.
데이터 수집 및 패턴 매칭의 제2 실시예
다수의 짧은 어레이의 평균화된 프레임 크기
가능한 기본 패턴의 수(BP)가 제한되기 때문에, 본 발명은 전술한 바와 같은 하나의 어레이 대신에 가능한 기본 패턴 당 단 하나의 어레이가 존재할 수 있도록 변형될 수 있다. 이들 어레이는 짧은 크기의 기본 패턴을 가질 수 있다. 예를 들면: 개방 GoP 코딩의 경우 0, 0, 1 패턴 또는 폐쇄 GoP 코딩의 경우 1, 0, 0의 GoP 구조의 어레이 "I,b,b,P"는 3의 크기를 가질 수 있다.
n을 최초 I-프레임을 지난 프레임의 수로 한다. 모든 대면된 프레임 n의 바이트 크기를 각각의
Figure pct00015
Figure pct00016
엘리먼트로 가산하고(
Figure pct00017
Figure pct00018
) 엘리먼트 당 그 개수를 카운트하는 것에 의해, 평균 프레임 크기 값이 각 어레이의 엘리먼트에 생성될 수 있다.
그럼에도 진정한 GoP 구조에 관련된 하나의 특정 어레이에서만, P-프레임은 P-프레임과 배타적으로 합산되어 있고, B-프레임은 B-프레임과 배타적으로 합산되어 있다. 그러므로, 꼭 해당 어레이에서만 P와 B 프레임 간의 진정한 평균 관계가 그 엘리먼트에 반영된다. 모든 다른 어레이의 엘리먼트는 P- 및 B-프레임 크기의 조합을 포함한다. 따라서, 이들 사이의 관계는 훨씬 덜 중요할 것이다.
다음의 의사(pseudo) 코드는 최초 I-프레임 다음의 프레임(n)의 프레임 크기가 상기 어레이의 얼리먼트에 가산되는 방식을 분명히 한다:
Figure pct00019
고려되는 GoP 패턴은 프레임 기초 코딩과 필드 기초 코딩을 위한 패턴을 포함할 수 있으며, 여기서 후자는 엘리먼트 개수의 2배를 가진다.
패턴 매칭
예컨대 하나의 GoP의 모든 프레임 크기가 어레이 내에서 합산된 후, 이들 크기가 조사된다. 제1 단계에서, 각 어레이의 모든 엘리먼트를 엘리먼트가 포함하는 항목의 수로 나누는 것에 의해 각 어레이의 각각의 엘리먼트의 평균 프레임 크기가 계산된다.
Figure pct00020

매칭의 목적을 위해, 전술한 바와 같은 "개발 GoP 코딩"과 "폐쇄 GoP 코딩"의 두 가지 경우는 차별화되어야 한다. "폐쇄 GoP 코딩"의 경우, 진정한 GoP 패턴을 반영하는 어레이의 첫 번째 엘리먼트는 모든 평균화된 P-프레임 크기를 포함할 것이지만, "개방 GoP 코딩"은 최종의 엘리먼트가 모든 평균화된 P-프레임 크기를 포함한다. 다음의 의사 코드는 모든 가능한 GoP 패턴과 "개방 GoP 코딩(OG)"/"폐쇄 GoP 코딩(CG)"에 대한 관계가 어떻게 얻어지는지를 요약한다:
Figure pct00021

추가의 단계에서, OG_relation[]과 CG_Relation[]에서 모든 엘리먼트의 최대 값이 검색된다. 이러한 최대 값에 대응하는 패턴(BP)은 최적의 매칭으로 간주되고, 그 관련 GoP 구조는 분석되는 비디오 시퀀스의 진정한 GoP 구조인 것으로 간주된다. 또한, 그 필드/프레임 및 개방/폐쇄 상태는 시퀀스의 진정한 상태인 것으로 간주된다.
본 발명의 본 실시예의 장점은 기준 값으로 사용되거나 임의의 다른 목적으로 사용되는 임의의 사전 정의된 미리 계산되거나 "그때그때 계산된" 변수가 존재하지 않는다는 것이다. 그러므로, 본 제2 실시예의 알고리즘에 어떤 추가적인 통계적 불확실성도 도입되지 않는다.
계층적 코딩 및 통상의 B-프레임 코딩 간의 차별화
3개 이상의 연속하는 B-프레임이 최적 매칭의 GoP 패턴으로 추정되는 경우, 프레임의 시퀀스는 전술한 바와 같이 기준 B-프레임에 의한 "계층적 코딩" 방법으로 코딩됐을 수 있다. 만일 그렇다면, 이들 기준 B-프레임은 비 기준 B-프레임(위에서 또한 b-프레임으로 표기됨)보다 바이트 프레임 크기가 크기 쉽다.
계층적 또는 비계층적 코딩의 사용 여부에 대한 신뢰성 있는 추정을 얻기 위해, 평균화된 비 기준 b-프레임을 나타내는 최적의 매칭 어레이의 엘리먼트는 평균화된 기준 B-프레임을 나타내는 어레이 엘리먼트와 비교되어야 한다. 후자의 엘리먼트는 평균화된 기준 B-프레임을 나타내는 엘리먼트보다 상당히 커야 한다. 3개의 B-프레임을 갖는 예에서 대응하는 어레이는 다음과 같다:
개방 GoP:
Figure pct00022
폐쇄 GoP:
Figure pct00023
얻어진 추정된 GoP-구조를 다음의 GoP의 프레임에 적용하는 것은 시퀀스가 암호화되거나 프레임 헤더가 패킷 손실로 인해 소실되는 경우 이들 프레임을 신뢰성 있게 추정할 수 있게 한다.
본 발명은 도면과 전술한 설명에 상세히 예시 및 기술되고 있지만, 이러한 예시와 기술은 실례를 보이거나 예시적인 것이고 제한적인 것은 아닌 것으로 간주되어야 한다. 이어지는 특허청구범위의 범위 내에서 당업자들에 의해 변경 및 변형이 이루어질 수 있음을 알 것이다. 특히, 본 발명은 설명된 상이한 실시예로부터의 특징들이 임의로 조합된 추가의 실시예들을 포괄한다.
또한, 특허청구범위에서 "가지는 또는 포함하는"이란 표현은 다른 요소 나 단계를 배제하지 않으며, 부정관사는 복수를 배제하지 않는다. 단일 유닛은 청구범위에 언급된 여러 특징의 기능들을 수행할 수 있다. 소정의 속성, 특히 소정의 값과 관련된 "필수적으로", "약", "대략" 등의 용어는 정확하게 그 속성이나 정확하게 그 값을 각각 정의한다. 청구범위에서 임의의 참조 부호는 범위를 제한하는것으로 해석되어서는 안된다.

Claims (18)

  1. 비디오 스트림 내의 복수의 비디오 프레임의 프레임 유형을 추정하는 것에 의해 해당 복수의 비디오 프레임의 픽쳐 그룹(GoP)의 유형을 추정하기 위한 방법으로서,
    a) 비디오 스트림을 전송하는 전송 계층의 특징을 이용하는 것에 의해 프레임 크기의 어레이를 획득하도록 최초의 인트라-프레임인 I-프레임에 후속하는 모든 비디오 프레임의 비트 프레임 크기를 수집하는 단계와;
    b) 다수의 프레임 다음에, a) 단계에서 얻어진 프레임 크기의 어레이를 복수의 0과 복수의 1로 된 어레이로 변환하는 단계로, 0은 양방향 프레임인 B-프레임을 나타내는 것으로 추정되는 작은 프레임 크기를 나타내고, 1은 예측된 프레임인 P-프레임을 나타내는 것으로 추정되는 큰 프레임 크기를 나타내는, 변환 단계와;
    c) 분석 대상인 GoP 구조에 특징적인 특정의 반복되는 짧은 기본 패턴을 포함하는, b) 단계에서 얻어진 2진화된 어레이의 프레임 크기를 다수의 사전 정의된 짧은 기본 2진 패턴에 매칭시키는 단계로, 상기 2진수의 사전 정의된 패턴은 고려 대상의 모든 GoP 구조를 나타내는, 매칭 단계와;
    d) 단일 스코어 값을 형성하도록 c) 단계에서의 상기 매칭 결과를 변환시키는 단계와;
    e) 사전 정의된 측정법에 따라 최적의 스코어 값을 갖는 2진수의 사전 정의된 패턴의 개수의 특정 패턴을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 a) 단계에서, 전송 계층의 소정의 타임스탬프의 변화를 모니터링하고, 새로운 프레임을 지시하고 다른 프레임으로부터 인트라-프레임을 결정하는데 사용되는 헤더 구조 내의 소정의 비트에 의해 비트 스트림 내의 비디오 프레임의 경계가 검출되는 것을 특징으로 하는 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 b) 단계에서 프레임의 개수는 다음 I-프레임까지 모든 프레임을 포함하는 것을 특징으로 하는 방법.
  4. 제1항 내지 제3항 중 어느 항에 있어서,
    상기 b) 단계에서, 연속하는 프레임 크기를 2진수로 변환하는 것은 분석 대상인 비디오 시퀀스의 일정하거나 변동하는 특징에 의존하는 기준 값 또는 동적인 적응적 기준 값의 사용을 포함하는 것을 특징으로 하는 방법.
  5. 제4항에 있어서,
    상기 동적인 적응적 기준 값은 이전에 수집된 프레임 크기 및/또는 분석 대상인 비디오 시퀀스의 다른 동적인 특징의 값에 의존하는 것을 특징으로 하는 방법.
  6. 제1항 내지 제5항 중 어느 항에 있어서,
    상기 사전 정의된 기본 패턴은 프레임-기초 코딩, 필드-기초 코딩, 개방 GoP 코딩, 또는 폐쇄 GoP 코딩에서 다른 개수의 연속적 B-프레임에 대해 가능한 GoP 구조를 표현하는 것을 특징으로 하는 방법.
  7. 제1항 내지 제6항 중 어느 항에 있어서,
    상기 c) 단계에서, 반복되는 기본 패턴이 프레임 크기의 어레이로부터 얻어진 일련의 이진화된 프레임 크기와 동일한 길이를 가질 때까지 가능한 최종 기본 패턴의 절단을 행하여 사전 정의된 짧은 기본 2진 패턴이 반복되는 것을 특징으로 하는 방법.
  8. 제1항 내지 제7항 중 어느 항에 있어서,
    상기 c) 단계에서, 엘리먼트 와이즈 배타적 부정 논리합(element wise exclusive nor) 또는 엘리먼트 와이즈 배타적 논리합(element wise exclusive or) 연산에 의해 매칭이 수행되며, 상기 d) 단계에서 모든 배타적 부정 논리합 또는 배타적 논리합 연산의 결과는 가산되어 상기 스코어 값을 형성하며, 상기 e) 단계에서 상기 스코어 값 측정치는 최대값 또는 최소값에 대응하는 것을 특징으로 하는 방법.
  9. 제1항 내지 제8항 중 어느 항에 있어서,
    상기 e) 단계에서, 최적의 스코어 값을 갖는 패턴을 위해, 관련된 GoP-패턴, 필드/프레임 상태 및 개방 GoP/폐쇄 GoP 상태가 현재 일련의 분석된 프레임의 GoP-구조에 대한 추정 결과로서 선택되는 것을 특징으로 하는 방법.
  10. 제1항 내지 제9항 중 어느 항에 있어서,
    후속하는 GoP의 GoP 구조 추정을 위해, 새로운 어레이의 프레임 크기가 후속하는 GoP 각각에 대해 수집되거나, 프레임 크기의 이전 및 현재의 어레이의 엘리먼트에 대한 임의의 종류의 평균이 사용되는 것을 특징으로 하는 방법.
  11. 제1항 내지 제10항 중 어느 항에 있어서,
    상기 GoP 구조의 추정 이후, 두 개의 P-프레임 사이의 연속하는 B-프레임의 모든 서브 세트가, 기준 B-프레임이 비 기준 B-프레임보다 평균적으로 큰 것으로 가정할 때, 비 기준 B-프레임만을 포함할 수 있는 엘리먼트에 대한 기준 B-프레임을 포함할 수 있는 상기 서브 세트 내의 엘리먼트에 대해 상기 a) 단계의 출력에 따른 프레임 크기의 관계가 1보다 훨씬 큰 임계값보다 큰지 여부에 대해 조사되고, 상기 프레임 크기의 어레이 내의 상기 서브 세트의 B-프레임의 통계적으로 중요한 수치에 대해 조사 결과가 그러하면, 상기 프레임은 기준 B-프레임인 것으로 추정되고 추정된 GoP 구조는 소위 계층적 코딩 시퀀스의 GoP 구조인 것으로 추정되도록, 추가의 프레임 유형 분류가 수행되는 것을 특징으로 하는 방법.
  12. 비디오 스트림 내의 복수의 비디오 프레임의 프레임 유형을 추정하는 것에 의해 해당 복수의 비디오 프레임의 픽쳐 그룹(GoP) 구조의 유형을 추정하기 위한 방법으로서:
    a) 비디오 스트림을 전송하는 전송 계층의 특징을 이용하는 것에 의해 최초 I-프레임에 n개 후속하는 모든 비디오 프레임(n)의 비트 프레임 크기를 수집하는 단계로서, 상기 프레임(n)의 크기는 다수의 어레이 중 각각의 어레이 Array[BP]의 특정 엘리먼트에 가산되고, 이들 다수의 어레이 중 각각의 어레이는 각각의 고려되는 GoP 구조의 기본 프레임 유형 패턴(BP)의 길이와 같은 상이한 크기 ArraySize[BP]를 가지며, 프레임(n)의 프레임 크기가 합산되는 특정 엘리먼트는 각각의 어레이 Array[BP]의 (n%ArraySize[BP])-차 엘리먼트이며, 모든 어레이의 모든 엘리먼트에 합산된 프레임 크기의 수는 알려지고, Array와 ArrayCount가 의미있는 정보(예, 제로)를 가지는 것으로 가정하는 다음의 부호 코드:
    Figure pct00024

    에 의해 표현되고, 그에 따라, 검출될 진정한 GoP 구조를 나타내는 하나의 특정 어레이 내에서만, P-프레임은 다른 P-프레임과 항상 합산되어 있고, B-프레임은 다른 B-프레임과 합산되어 있는, 그러한 단계와;
    b) 소정 수의 프레임 이후에, 동일한 어레이에 의해 양자가 표현되는 특정 기본 패턴을 위한 것으로, 개방 GoP 코딩과 폐쇄 GoP 코딩 모두의 경우의 추정된 P-프레임과 추정된 B-프레임 간의 관계에 대해 얻어지는 다수의 어레이의 정보를 조사하는 단계로서, 해당 조사의 제1 단계는 다음의 부호 코드:
    Figure pct00025

    로 표현되는 바와 같이 각각의 어레이의 각각의 엘리먼트를 해당 엘리먼트 내의 가산된 프레임 크기의 수로 나누는 것으로 이루어진, 그러한 단계와;
    c) 상기 b) 단계의 모든 어레이 'BP'에 대한 폐쇄 GoP 코딩 및 개방 GoP 코딩의 경우의 추정된 P-프레임과 평균화된 추정된 B-프레임 간의 관계를 계산하는 단계와;
    d) 개방 GoP 코딩과 폐쇄 GoP 코딩에 대한 모든 계산된 관계 중에 추정된 P-프레임과 추정된 평균 B-프레임 간의 최대 관계를 갖는 특정 어레이를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  13. 제12항에 있어서,
    상기 프레임의 개수는 다음 인트라-프레임까지 모든 프레임을 포함하는 것을 특징으로 하는 방법.
  14. 제12항 또는 제13항에 있어서,
    상기 c) 단계에서, 모든 어레이에 대해 개방 GoP와 폐쇄 GoP 코딩 사이를 결정할 수 있도록,
    i) 조사되는 비디오 스트림이 개방 GoP 코딩으로 구성되면, Array[BP]로 표현되는 기본 패턴(BP)의 추정된 합산된 P-프레임은 상기 어레이(BP)의 최종 엘리먼트에 위치될 것이고, 상기 어레이의 다른 모든 엘리먼트는 개방 GoP 코딩 스트림에 대한 관계(Ro)가,
    Figure pct00026

    의 관계식으로써, 다른 모든 어레이 엘리먼트의 평균에 의해 나눠진 최종 어레이 엘리먼트로서 계산되도록 합산된 B-프레임에 의해 점유될 수 있거나, 또는
    ii) 조사되는 비디오 스트림이 폐쇄 GoP 코딩으로 구성되면, Array[BP]로 표현되는 기본 패턴(BP)의 추정된 합산된 P-프레임은 상기 어레이(BP)의 최초 엘리먼트에 위치되고, 상기 어레이의 다른 모든 엘리먼트는 폐쇄 GoP 코딩 스트림에 대한 관계(Rc)가,
    Figure pct00027

    의 관계식으로써, 다른 모든 어레이 엘리먼트의 평균에 의해 나눠진 최초 어레이 엘리먼트로서 계산되도록 합산된 B-프레임에 의해 점유되도록,
    기술되는 바와 같이 두 개의 관계값이 생성되는 것을 특징으로 하는 방법.
  15. 제14항에 있어서,
    상기 d) 단계에서 최대의 관계는, Rc 값 중 하나가 최대값을 구성하면, 시퀀스는 폐쇄 GoP 코딩된 시퀀스로 간주될 수 있고, Ro 값 중 하나가 최대값을 구성하면, 시퀀스는 개방 GoP 코딩된 시퀀스로 간주될 수 있도록, 제14항에서 계산되는 바와 같은 모든 값(Rc와 Ro)의 최대값을 선택하는 것에 의해 발견되는 것을 특징으로 하는 방법.
  16. 제12항 내지 제15항 중 어느 항에 있어서,
    상기 d) 단계에 따라 결정된 어레이와 관련된 GoP 구조는 현재 분석되는 일련의 프레임의 GoP 패턴 필드/프레임 상태 및 개방 GoP/폐쇄 GoP 상태의 유효한 추정이 되도록 선택되는 것을 특징으로 하는 방법.
  17. 제12항 내지 제16항 중 어느 항에 있어서,
    GoP 패턴의 추정 이후, d) 단계에 따라 추정된 GoP 구조를 나타내는 어레이 내의 B-프레임의 서브세트가, 기준 B-프레임이 비 기준 B-프레임보다 평균적으로 큰 것으로 가정할 때, 비 기준 B-프레임만을 포함할 수 있는 엘리먼트에 대한 기준 B-프레임을 포함할 수 있는 어레이 엘리먼트(개방 GoP 코딩의 제1 엘리먼트, 폐쇄 GoP 코딩의 제2 엘리먼트)의 관계가 1보다 훨씬 큰 임계값보다 큰지 여부에 대해 조사되고, 만일 조사 결과가 그러하면, 상기 프레임은 기준 B-프레임인 것으로 추정되고 추정된 GoP 구조는 소위 계층적 코딩 시퀀스의 GoP 구조인 것으로 추정되도록, 추가의 프레임 유형 분류가 수행되는 것을 특징으로 하는 방법.
  18. 제8항 또는 제16항에 있어서,
    상기 추정된 GoP 구조를 후속하는 GoP-구조에 대한 추정으로서 사용하고 이렇게 추정된 GoP 구조를 패킷 손실에 기인한 비디오 프레임 손실을 검출하거나, 손실되거나 존재하는 프레임에 그 특정 프레임 유형을 표시하기 위한 지원으로서 사용하는 단계를 더 포함하는 것을 특징으로 하는 방법.
KR1020127032631A 2010-07-30 2011-07-26 비디오 스트림 내의 복수의 비디오 프레임의 픽쳐 구조의 그룹 유형의 추정 방법 KR101857829B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10171431A EP2413535B1 (en) 2010-07-30 2010-07-30 Method for estimating the type of the group of picture structure of a plurality of video frames in a video stream
EP10171431.9 2010-07-30
PCT/EP2011/062797 WO2012013655A1 (en) 2010-07-30 2011-07-26 Method for estimating the type of the group of picture structure of a plurality of video frames in a video stream

Publications (2)

Publication Number Publication Date
KR20130105306A true KR20130105306A (ko) 2013-09-25
KR101857829B1 KR101857829B1 (ko) 2018-05-14

Family

ID=43064737

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127032631A KR101857829B1 (ko) 2010-07-30 2011-07-26 비디오 스트림 내의 복수의 비디오 프레임의 픽쳐 구조의 그룹 유형의 추정 방법

Country Status (10)

Country Link
US (1) US9241156B2 (ko)
EP (1) EP2413535B1 (ko)
JP (2) JP5964828B2 (ko)
KR (1) KR101857829B1 (ko)
CN (1) CN103053134B (ko)
ES (1) ES2394779T3 (ko)
HR (1) HRP20120996T1 (ko)
PL (1) PL2413535T3 (ko)
PT (1) PT2413535E (ko)
WO (1) WO2012013655A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101834031B1 (ko) 2010-12-10 2018-03-02 도이체 텔레콤 악티엔 게젤샤프트 비디오 신호의 인코딩 및 전송 동안에 비디오 신호의 품질 평가 방법 및 장치
CN102547300B (zh) 2010-12-17 2015-01-21 华为技术有限公司 帧类型的检测方法和装置
PT2701397E (pt) * 2012-08-20 2014-12-12 Deutsche Telekom Ag Modelo de qualidade de vídeo dependente do conteúdo para serviços de fluxo de vídeo
CN103634698B (zh) * 2012-08-21 2014-12-03 华为技术有限公司 视频流的帧类型检测、帧大小检测方法及装置
US9351011B2 (en) * 2012-11-28 2016-05-24 Intel Corporation Video pipeline with direct linkage between decoding and post processing
CN104301711B (zh) * 2013-07-16 2016-05-18 北大方正集团有限公司 视频素材的报警控制方法及装置
US10037708B2 (en) 2014-03-31 2018-07-31 Konica Minolta Laboratory U.S.A., Inc. Method and system for analyzing exam-taking behavior and improving exam-taking skills
US9654405B2 (en) * 2014-11-14 2017-05-16 Dialogic Corporation Effective intra-frame refresh in multimedia communications over packet networks
US9807247B2 (en) * 2015-12-21 2017-10-31 Rovi Guides, Inc. Systems and methods for sharing cost of a video-on-demand subscription with another subscriber
US10805663B2 (en) * 2018-07-13 2020-10-13 Comcast Cable Communications, Llc Audio video synchronization
CN111372071B (zh) * 2018-12-25 2022-07-19 浙江宇视科技有限公司 一种搜集视频图像异常信息的方法及装置
CN112291559B (zh) * 2020-10-30 2023-10-31 北京百度网讯科技有限公司 视频编码方法、装置、设备和介质
CN112291560B (zh) * 2020-10-30 2024-05-07 北京百度网讯科技有限公司 视频编码方法、装置、设备和介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850567B1 (en) * 1997-01-13 2005-02-01 Koninklijke Philips Electronics N.V. Embedding supplemental data in a digital video signal
DE69830979T2 (de) * 1997-07-29 2006-05-24 Koninklijke Philips Electronics N.V. Verfahren und vorrichtung zur videocodierung mit variabler bitrate
US7277483B1 (en) * 2000-04-18 2007-10-02 Ati International Srl Method and apparatus for rate control for constant-bit-rate finite-buffer-size video encoder
CN100353750C (zh) * 2000-09-15 2007-12-05 北京算通数字技术研究中心有限公司 基于mpeg-2码流的非线性编辑系统编辑方法
US6731685B1 (en) * 2000-09-20 2004-05-04 General Instrument Corporation Method and apparatus for determining a bit rate need parameter in a statistical multiplexer
WO2006114761A1 (en) * 2005-04-26 2006-11-02 Koninklijke Philips Electronics N.V. A device for and a method of detecting positions of intra-coded frames in a data stream
US8208536B2 (en) * 2005-04-28 2012-06-26 Apple Inc. Method and apparatus for encoding using single pass rate controller
JP2007006425A (ja) * 2005-06-27 2007-01-11 Matsushita Electric Ind Co Ltd 映像配信サーバ装置及びデータ蓄積方法
JP4377357B2 (ja) * 2005-07-07 2009-12-02 日本電信電話株式会社 映像品質推定装置および映像品質推定方法
JPWO2008053557A1 (ja) * 2006-11-02 2010-02-25 パイオニア株式会社 動画像再符号化装置、動画像再符号化方法、動画像再符号化プログラムおよび動画像再符号化プログラムを格納した記録媒体
US7706384B2 (en) * 2007-04-20 2010-04-27 Sharp Laboratories Of America, Inc. Packet scheduling with quality-aware frame dropping for video streaming
CA2690776A1 (en) 2007-06-22 2008-12-31 Gluconova Llc Halide-free glucosamine-acidic drug complexes
WO2009012302A1 (en) 2007-07-16 2009-01-22 Telchemy, Incorporated Method and system for viewer quality estimation of packet video streams
CN101558657B (zh) 2007-08-22 2011-07-27 日本电信电话株式会社 视频质量估计装置、视频质量估计方法、帧类型确定方法
US8311344B2 (en) * 2008-02-15 2012-11-13 Digitalsmiths, Inc. Systems and methods for semantically classifying shots in video

Also Published As

Publication number Publication date
JP2016040955A (ja) 2016-03-24
JP5964828B2 (ja) 2016-08-03
JP6333792B2 (ja) 2018-05-30
PL2413535T3 (pl) 2013-08-30
CN103053134A (zh) 2013-04-17
CN103053134B (zh) 2016-08-03
HRP20120996T1 (hr) 2012-12-31
EP2413535A1 (en) 2012-02-01
US20130219443A1 (en) 2013-08-22
EP2413535B1 (en) 2012-09-19
US9241156B2 (en) 2016-01-19
KR101857829B1 (ko) 2018-05-14
WO2012013655A1 (en) 2012-02-02
ES2394779T3 (es) 2013-02-05
PT2413535E (pt) 2013-01-25
JP2013535907A (ja) 2013-09-12

Similar Documents

Publication Publication Date Title
KR101857829B1 (ko) 비디오 스트림 내의 복수의 비디오 프레임의 픽쳐 구조의 그룹 유형의 추정 방법
EP2413612B1 (en) Methods and apparatuses for temporal synchronization between the video bit stream and the output video sequence
EP2213000B1 (en) Method and system for content estimation of packet video streams
JP5996541B2 (ja) 伝送チェーンを介したオーディオおよびビデオビットストリーム伝送の品質を測定するための方法およびシステム
US20100110199A1 (en) Measuring Video Quality Using Partial Decoding
US20070133608A1 (en) Video quality assessment
EP2615833A1 (en) A method for determining video quality
DK2347599T3 (en) METHOD AND SYSTEM FOR DETERMINING A QUALITY VALUE OF A VIDEO FLOW
EP2413604B1 (en) Assessing the quality of a video signal during encoding or compressing of the video signal
CN106888376B (zh) 基于丢包分析的多级联网监控视频质量实时评价方法
JP5300278B2 (ja) ネットワークジッターを測定するメディアレートを検出する方法
Yamada et al. Accurate video-quality estimation without video decoding
US8392803B2 (en) Method and device for identifying video data losses
Khorov et al. Distortion avoidance while streaming public safety video in smart cities
Farias et al. Video quality assessment based on data hiding for IEEE 802.11 wireless networks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant