KR20110094487A - 멀티미디어 인식 장치 및 방법 - Google Patents

멀티미디어 인식 장치 및 방법 Download PDF

Info

Publication number
KR20110094487A
KR20110094487A KR1020100013886A KR20100013886A KR20110094487A KR 20110094487 A KR20110094487 A KR 20110094487A KR 1020100013886 A KR1020100013886 A KR 1020100013886A KR 20100013886 A KR20100013886 A KR 20100013886A KR 20110094487 A KR20110094487 A KR 20110094487A
Authority
KR
South Korea
Prior art keywords
node
fingerprint
segment
image
hidden
Prior art date
Application number
KR1020100013886A
Other languages
English (en)
Other versions
KR101094896B1 (ko
Inventor
유창동
진민호
김종민
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020100013886A priority Critical patent/KR101094896B1/ko
Publication of KR20110094487A publication Critical patent/KR20110094487A/ko
Application granted granted Critical
Publication of KR101094896B1 publication Critical patent/KR101094896B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/46Analysis of texture based on statistical description of texture using random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

본 발명은 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 상기 영상을 분절 단위로 나누는 영상 분절부, 상기 나누어진 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드(MRF)를 구축하는 마르코프 랜덤 필드 구축부, 상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값
Figure pat00110
을 추정하는 변수값 추정부, 상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 영상 인식부로 구성되어, 화질 저하, 손실 압축은 물론 속도 변화가 있는 멀티미디어 및 편집이 가해진 멀티미디어를 인식할 수 있다.

Description

멀티미디어 인식 장치 및 방법{Apparatus and Method for realizing multimedia}
본 발명은 멀티미디어 인식 방법에 관한 것으로, 더욱 상세하게는 입력 영상을 분절 단위로 나눈 후, 분절간의 확률관계를 마르코프 랜덤 필드로 모델링하고, 상기 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 멀티미디어 인식 장치 및 방법에 관한 것이다.
정보 처리 기술의 발전에 따라 멀티미디어의 복제, 저장, 전송이 수월해졌다. 이러한 기술의 발전은 멀티미디어 유통을 원활하게 하는 장점이 있으나, 동시에 멀티미디어의 불법 복제를 촉진하고 있다.
따라서 불법 복제방지를 위한 시스템의 필요성이 대두되었고, 이를 위해 멀티미디어 인식 시스템을 이용한 P2P 필터링 시스템이 개발되었다. 기존의 멀티미디어 인식 시스템의 경우, 원본 콘텐츠를 재압축, 화면 크기 변화, 화질 저화 등을 통해 재가공해서 올린 불법 복제 콘텐츠를 검출하고 유통을 막는데 목표를 두고 있다.
도 1은 종래의 멀티미디어 인식 장치의 구성을 개략적으로 나타낸 블럭도, 도 2는 종래의 멀티미디어 인식 장치가 인식하는 영상을 나타낸 예시도이다.
도 1을 참조하면, 멀티미디어 인식 장치는 핑거프린트 추출부(100), 핑거프린트 검색부(110), 데이터베이스(120), 핑거프린트 검증부(130)를 포함한다.
상기 데이터베이스(120)는 저작권을 보호해야 하는 콘텐츠에서 추출한 핑거프린트 수열들이 저장된 핑거프린트 데이터베이스(124), 각각의 핑거프린트 수열에 대해서 그 핑거프린트 수열이 어떤 콘텐츠의 어느 부분에서 추출된 것인지를 밝힐 수 있는 메타데이터 데이터베이스(348)를 포함된다.
상기 핑거프린트 추출부(100)는 입력된 영상에서 콘텐츠를 구분하기 위해 산출된 핑거프린트 수열(sequence)를 추출한다. 이러한 핑거프린트들은 원본 콘텐츠에서 추출한 경우와, 원본에 콘텐츠 손실 압축, 화면 크기, 영상 화질 저하가 가해진 경우에 추출한 경우에도 비슷한 값을 가지도록 설계되어 있다.
즉, 상기 핑거프린트 추출부(100)는 인식해야 하는 멀티미디어 콘텐츠가 입력되면, 멀티미디어 핑거프린트 수열을 추출하고, 이를 핑거프린트 검색부(110)의 입력으로 전달한다.
상기 핑거프린트 검색부(110)는 상기 핑거프린트 데이터베이스(124)를 검색하여 상기 핑거프린트 추출부(100)에서 추출된 핑거프린트 수열과 가장 유사한 핑거프린트 수열을 검색한다. 예를 들면, 상기 핑거프린트 검색부(110)는 상기 추출된 핑거프린트 수열과 동일한 길이를 가지는 핑거프린트 수열들을 상기 핑거프린트 데이터베이스(124)에서 검색한다.
상기 핑거프린트 검증부(130)는 상기 핑거프린트 검색부(110)에서 검색된 핑거프린트 수열과 상기 핑거프린트 추출부(100)에서 추출한 핑거프린트 수열 사이의 거리를 계산한 후, 그 거리 값을 기준으로 실제 이 둘이 같은 콘텐츠에 해당하는지를 판별한다.
즉, 입력된 멀티미디어 콘텐츠는 핑거프린트 데이터베이스(124)에 등록되어 있을 수도, 등록되어 있지 않을 수도 있다. 또한, 핑거프린트 검색부(110)에서 검색된 가장 가까운 핑거프린트 수열이 실제 입력된 멀티미디어에 해당할 수도 있고 아닐 수도 있다. 따라서 가장 가까운 핑거프린트 수열에 해당하는 멀티미디어 콘텐츠가 실제 입력과 동일한지를 검증할 필요가 있다.
그러므로, 상기 핑거프린트 검증부(130)는 입력에서 추출한 핑거프린트 수열과 가장 가까운 핑거프린트 수열 사이의 거리를 계산한 후, 그 거리 값을 기준으로 실제 이 둘이 같은 콘텐츠에 해당하는지를 판별한다.
상기에서 사용된 멀티미디어는 도 2a와 같이 화질 저하가 있지만 속도 변화는 없는 멀티미디어, 도 2b와 같이 속도 변화가 있는 멀티미디어를 인식 대상으로 하고 있다.
그러나, 종래의 멀티미디 인식 장치는 손실 압축, 화면 크기, 영상 화질 저하가 있는 영상을 인식대상으로 하고 있기에 사용자가 영상의 일정 부분을 삭제하고, 다른 영상에서 가져와서 삽입하는 등의 편집이 가해지는 경우에는 인식할 수 없는 단점이 있다.
또한, 멀티미디어 인식 대상을 길이 변화가 없이 화질 저화, 손실 압축 등의 재생 시간의 변화 및 재생 순서의 변화가 없는 멀티미디어 콘텐츠로 한정하는 단점이 있다.
본 발명의 목적은 화질 저하, 손실 압축은 물론 속도 변화가 있는 멀티미디어 및 편집이 가해진 멀티미디어를 인식 대상으로 삼는 멀티미디어 인식 장치 및 방법을 제공하는데 있다
본 발명의 다른 목적은 편집이 가해진 사용자 제작 콘텐츠(User Created Contents, UCC)의 내부에 저작권 보호를 받는 영상이 존재할 경우 이를 검출할 수 있는 멀티미디어 인식 장치 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명에 따르면, 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 상기 영상을 분절 단위로 나누는 영상 분절부, 상기 나누어진 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드(MRF)를 구축하는 마르코프 랜덤 필드 구축부, 상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값
Figure pat00001
을 추정하는 변수값 추정부, 상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 영상 인식부를 포함하는 멀티미디어 인식 장치가 제공된다.
상기 멀티미디어 인식 장치는 각 원본 영상의 분절에서 추출한 핑거프린트, 각 핑거프린트가 포함된 영상과 그 영상에서의 위치 정보가 저장된 데이터베이스를 더 포함하고, 상기 영상 인식부는 상기 데이터베이스에서 상기 숨겨진 변수값에 해당하는 핑거프린트 및 그 위치 정보를 추출하여 해당 영상을 인식한다.
상기 영상 분절부는 상기 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 분절경계 집합(B)을 구한 후, 상기 분절경계 집합을 이용하여 분절(S)을 정의한다.
상기 분절경계(B)는
Figure pat00002
를 이용하여 구하되,
상기 v[k]는 각 프레임에서 추출된 핑거프린트,
Figure pat00003
는 실수 벡터의 2놈,
Figure pat00004
는 미리 선택된 문턱값이다.
상기 분절(S)은
Figure pat00005
을 이용하여 정의하되, 상기
Figure pat00006
는 분절경계 집합에 있는 원소의 수이다.
상기 마르코프 랜덤 필드 구축부는 각 분절을 노드로 설정하고, 각 노드와 이웃 노드 사이를 선분으로 연결한 후, 각 노드의 관측 변수 및 숨겨진 변수를 설정하여 마르코프 랜덤 필드를 구축한다.
상기 관측변수는 각 노드에 속하는 프레임에서 추출한 핑거프린트 벡터의 수열이고, 상기 숨겨진 변수는 해당 노드가 핑거프린트 데이터베이스에 존재하는 몇 번째 핑거프린트 벡터에 해당하는지에 대한 추정치를 말한다.
상기 변수값 추정부는 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하여 친화성이 있는 경우 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정한다.
상기 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성
Figure pat00007
Figure pat00008
를 이용하여 구하되, 상기
Figure pat00009
는 노드
Figure pat00010
의 숨겨진 변수, 상기
Figure pat00011
는 이웃 노드
Figure pat00012
의 숨겨진 변수,
Figure pat00013
Figure pat00014
는 미리 설정된 매개변수이다.
각 노드의 숨겨진 변수와 관측변수 사이의 친화성
Figure pat00015
Figure pat00016
를 이용하여 구하되, 상기
Figure pat00017
Figure pat00018
를 이용하여 구하고,
Figure pat00019
는 i번째 분절에서 추출한 핑거프린트 벡터의 개수,
Figure pat00020
는 핑거프린트 데이터베이스에 존재하는
Figure pat00021
번째 핑거프린트 벡터이다.
상기 변수값 추정부는
Figure pat00022
를 이용하여 확률 값을 최대화시키는 숨겨진 변수값
Figure pat00023
을 추정한다.
또한, 본 발명에 따르면, (a)입력 영상의 각 프레임에서 핑거프린트를 추출하고, 그 추출된 핑거프린트를 이용하여 분절을 정의하는 단계, (b)상기 정의된 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드를 구축하는 단계, (c)상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정하는 단계, (d)상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 단계를 포함하는 멀티미디어 인식 방법이 제공된다.
상기 (a)단계는, 상기 영상의 각 프레임에서 핑거프린트를 추출하는 단계, 현재 프레임과 인접 프레임의 핑거프린트간의 차가 미리 정해진 문턱치 이상인지의 여부를 이용하여 분절 경계 집합을 구하는 단계, 상기 구해진 분절경계 집합을 이용하여 분절을 정의하는 단계를 포함한다.
상기 (b)단계는, 상기 정의된 각 분절을 노드로 설정하고, 각 노드와 주위 노드 사이를 선분으로 연결하는 단계, 각 노드에 존재하는 프레임에서 추출한 핑거프린트 벡터의 수열을 관측변수로 설정하고, 믿음 전파 알고리즘을 이용하여 구해진 값을 숨겨진 변수로 설정하여 마르코프 랜덤 필드를 구축하는 단계를 포함한다.
상기 (c)단계는, 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하는 단계, 친화성이 있는 경우 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정하는 단계를 포함한다.
상술한 바와 같이 본 발명에 따르면, 화질 저하, 손실 압축은 물론 속도 변화가 있는 멀티미디어 및 편집이 가해진 멀티미디어를 인식할 수 있다.
또한, 편집이 가해진 사용자 제작 콘텐츠(User Created Contents, UCC)의 내부에 저작권 보호를 받는 영상이 존재할 경우 이를 검출할 수 있다.
도 1은 종래의 멀티미디어 인식 장치의 구성을 개략적으로 나타낸 블럭도.
도 2는 종래의 멀티미디어 인식 장치가 인식하는 영상을 나타낸 예시도.
도 3은 본 발명에 따른 멀티미디어 인식 장치의 구성을 개략적으로 나타낸 블럭도.
도 4는 본 발명에 따른 삭제 및 삽입이 있는 영상을 나타낸 도면.
도 5는 본 발명에 따른 멀티미디어 인식 방법을 나타낸 흐름도.
도 6은 본 발명에 따른 마르코프 랜덤 필드를 구축하는 방법을 나타낸 흐름도.
도 7은 본 발명에 따른 마르코프 랜덤 필드의 확률값을 최대화하는 숨겨진 변수값을 추정하는 방법을 나타낸 흐름도.
도 8은 본 발명에 따른 멀티미디어 인식 방법을 설명하기 위한 예시도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 3은 본 발명에 따른 멀티미디어 인식 장치의 구성을 개략적으로 나타낸 블럭도, 도 4는 본 발명에 따른 삭제 및 삽입이 있는 영상을 나타낸 도면이다.
도 3을 참조하면, 멀티미디어 인식 장치는 영상 분절부(300), 마르코프 랜덤 필드 구축부(310), 변수값 추정부(320), 영상 인식부(330), 데이터베이스(340)를 포함한다.
상기 데이터베이스(340)는 각 원본 영상의 분절들에서 추출한 핑거프린트 수열이 저장된 핑거프린트 데이터베이스(344), 각 핑거프린트 수열에 대해서 그 핑거프린트 수열이 어떤 영상의 어느 부분에서 추출된 것인지를 나타내는 정보가 저장된 메타-데이터 데이터베이스(348)를 포함한다.
상기 영상 분절부(300)는 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 상기 영상을 분절 단위로 나눈다.
여기서, 상기 입력 영상은 화질 저하는 있지만 속도 변화는 없는 영상, 속도 변화가 있는 영상은 물론 도 4와 같이 짧은 길이의 영상 클립이 삽입 또는 삭제되는 영상 등을 모두 포함한다. 또한, 상기 분절은 유사한 특성을 가지는 시간적으로 연속된 프레임들의 모임을 말한다.
상기 영상 분절부(300)는 상기 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용한 수학식 1을 이용하여 분절경계 집합(B)을 구한다.
Figure pat00024
여기에서는 입력된 영상이 K개의 프레임으로 구성되어 있고 k번째 프레임에서 추출한 D차원 실수 핑거프린트가 v[k]인 경우이고,
Figure pat00025
는 실수 벡터의 2놈(즉, 유클리드 거리),
Figure pat00026
는 미리 선택된 문턱값이다.
따라서, 상기 영상 분절부(300)는 수학식 1과 같이 현재 프레임의 핑커프린트와 인접 프레임의 핑거프린트간의 차가 문턱값 이상인 프레임을 모아서 분절 경계 집합을 구한다.
그런 다음 상기 영상 분절부(300)는 상기 구해진 분절경계 집합을 이용하여 수학식 2와 같이 분절(S)을 정의한다.
Figure pat00027
여기서, 상기
Figure pat00028
는 분절경계 집합(B)에 있는 원소의 수를 말한다.
상기 마르코프 랜덤 필드 구축부(310)는 상기 영상 분절부에서 나뉘어진 각 분절간의 확률 관계를 표현하기 위해 마르코프 랜덤 필드(MRF,Markov random field)를 구축한다.
즉, 상기 마르코프 랜덤 필드 구축부(310)는 각 분절을 노드로 설정하고, 각 노드와 주위 노드 사이를 선분(edge)으로 연결한다. 이때, i번째 노드
Figure pat00029
의 이웃노드(neighbor nodes)는 이 노드와 선분으로 연결되어 있는 노드로 수학식 3과 같이 정의된다.
Figure pat00030
예를 들어, i번째 노드를 i가 0 또는
Figure pat00031
이 아닌 경우에는 (i-1)번째 노드 및 (i+1)번째 노드를 이웃 노드로 삼는다. 0번째 노드는 1번째 노드와
Figure pat00032
째 노드를 이웃으로,
Figure pat00033
째 노드는
Figure pat00034
번째 노드와 0번째 노드를 이웃 노드로 삼는다.
상기와 같이 형성된 마르코프 랜덤 필드에서 각각의 노드는 관측변수(observation variable)와 숨겨진 변수(hidden variable)를 가진다.
상기 관측변수
Figure pat00035
는 각 노드에 속하는 프레임에서 추출한 핑거프린트 벡터의 수열을 말하고, 각 노드의 관측값은 화살표로 연결된다. 상기 숨겨진 변수
Figure pat00036
는 해당 노드가 핑거프린트 데이터베이스(344)에 존재하는 몇 번째 핑거프린트 벡터에 해당하는지에 대한 추정치로, 핑거프린트 데이터베이스(344)에 있는 임의의 핑거프린트를 가르킬 수 있으며, 본 발명에서는 믿음 전파 알고리즘을 이용하여 수많은 추정치 중에서 주변 확률을 최대화 시키는 추정치를 계산한다.
상기 변수값 추정부(320)는 상기 마르코프 랜덤 필드 구축부(310)에서 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정하는 역할을 수행한다.
즉, 상기 변수값 추정부(320)는 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하여 친화성이 있는 경우 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정한다.
먼저 상기 변수값 추정부(320)는 노드
Figure pat00037
의 숨겨진 변수
Figure pat00038
와 이웃 노드
Figure pat00039
의 숨겨진 변수
Figure pat00040
사이의 친화성
Figure pat00041
을 수학식 4를 이용하여 구한다.
Figure pat00042
여기서,
Figure pat00043
Figure pat00044
는 미리 설정된 매개변수이고, 친화성은
Figure pat00045
Figure pat00046
가 핑거프린트 데이터베이스 상에서 물리적으로 얼마나 가까운 위치에 있는가를 측정하는 것이다. 이를 위해 핑거프린트 데이터베이스(344)는 원본 영상에서 추출한 핑거프린트를 시간적 순서를 보존한 상태로 추가하여 생성한다.
또한, 상기 변수값 추정부(320)는 숨겨진 변수
Figure pat00047
와 관측변수
Figure pat00048
사이의 친화성
Figure pat00049
을 수학식 5를 이용하여 구한다.
Figure pat00050
여기서, 상기
Figure pat00051
는 실험적으로 설정되는 매개변수,
Figure pat00052
Figure pat00053
에 해당하는 분절에서 추출된 핑거프린트 수열로 설정된
Figure pat00054
와 핑거프린트 데이터베이스(344)의 u번째에서 시작하는 핑거프린트 수열 사이의 유사도이다.
상기 유사도
Figure pat00055
는 수학식 6을 이용하여 구한다.
Figure pat00056
여기서, 상기
Figure pat00057
는 i번째 분절에서 추출한 핑거프린트 벡터의 개수,
Figure pat00058
은 m번째 핑거프링트에 대한 관측변수,
Figure pat00059
는 핑거프린트 데이터베이스(344)에 존재하는
Figure pat00060
번째 핑거프린트 벡터이다.
상기 수학식 6의 유사도는 속도 변화가 있는 영상 입력도 인식하기 위해 미리 설정된 최소 속도
Figure pat00061
, 최대 속도
Figure pat00062
를 가정하고 정해진 것이다.
상기 수학식 5, 6과 같이 정의된 친화성이 있으면, 상기 변수값 추정부(320)는 상기 마르코프 랜덤 필드에 있는 숨겨진 변수들의 주변 확률(marginal probability)을 최대화시키는 숨겨진 변수값
Figure pat00063
을 수학식 7을 이용하여 추정한다.
Figure pat00064
이때, 상기 변수값 추정부(320)는 주변확률을 최대화시키는 숨겨진 변수값을 믿은 전파(belief propagation) 방법 등을 이용하여 추정한다.
상기 영상 인식부(330)는 상기 변수값 추정부(320)에서 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상의 어느 부분에서 추출된 것인지를 인식한다.
즉, 상기 핑거프린트 데이터베이스(344)에는 원본 영상에서 얻어낸 분절에서 추출한 핑거프린트가 저장되어 있고, 숨겨진 변수 값
Figure pat00065
은 데이터베이스(340)의 어떤 분절이 입력된 영상의 i번째 분절에 해당하는가를 의미하므로, 믿음 전파 알고리즘으로 숨겨진 변수값을 결정하면, 상기 영상 인식부는 상기
Figure pat00066
값이 가리키는 데이터베이스의 분절이 곧 i번째 분절에 해당된다고 판단한다. 물론
Figure pat00067
가 가리키는 데이터베이스(340)의 분절이 어느 영상의 어느 부분인가는 메타데이터 데이터베이스(348)를 이용하여 판단한다.
도 5는 본 발명에 따른 멀티미디어 인식 방법을 나타낸 흐름도이다.
도 5를 참조하면, 멀티미디어 인식 장치는 입력된 영상을 유사한 특성을 가지는 연속된 프레임의 모임인 분절 단위로 나눈다(S500). 즉, 상기 멀티미디어 인식 장치는 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출한 현재 프레임과 인접 프레임의 핑거프린트간의 차가 임계치 이상인지의 여부를 이용하여 분절 경계 집합을 구한다. 그런 다음 상기 멀티미디어 인식 장치는 상기 구해진 분절경계 집합을 이용하여 분절을 정의한다.
상기 S500의 수행 후, 상기 멀티미디어 인식 장치는 상기 나뉘어진 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드를 구축한다(S502). 상기 멀티미디어 인식 장치가 마르코프 랜덤 필드를 구축하는 방법에 대한 상세한 설명은 도 6을 참조하기로 한다.
상기 S502의 수행 후, 상기 멀티미디어 인식 장치는 상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정한다(S504). 상기 숨겨진 변수값을 추정하는 방법에 대한 상세한 설명은 도 7을 참조하기로 한다.
상기 S504의 수행 후, 상기 멀티미디어 인식 장치는 상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 확인한다(S506).
도 6은 본 발명에 따른 마르코프 랜덤 필드를 구축하는 방법을 나타낸 흐름도이다.
도 6을 참조하면, 멀티미디어 인식 장치는 각 분절을 노드로 설정하고(S600), 각 노드와 주위 노드 사이를 선분으로 연결한다(S602).
그런 다음 상기 멀티미디어 인식 장치는 각 노드의 관측 변수와 숨겨진 변수를 설정하여(S604), 마르코프 랜덤 필드를 구축한다(S606).
즉, 상기 멀티미디어 인식 장치는 각 노드의 분절에 존재하는 프레임에서 추출한 핑거프린트 벡터의 수열을 관측변수로 설정하고, 믿음 전파 알고리즘을 이용하여 구해진 변수를 숨겨진 변수로 설정하여 마르코프 랜덤 필드를 구축한다.
도 7은 본 발명에 따른 마르코프 랜덤 필드의 확률값을 최대화하는 숨겨진 변수값을 추정하는 방법을 나타낸 흐름도이다.
도 7을 참조하면, 멀티미디어 인식 장치는 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성을 계산하고(S700), 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산한다(S702). 상기 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성은 현재 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수가 핑거프린트 데이터베이스 상에서 물리적으로 얼마나 가까운 위치에 있는가를 측정하는 것이다.
상기 각 노드의 숨겨진 변수와 관측변수 사이의 친화성은 관측변수와 숨겨진 변수 사이의 유사도를 이용하여 구한다.
상기 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성과 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 구하는 순서는 변경가능하다.
상기 S702의 수행 후, 상기 멀티미디어 인식 장치는 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정한다(S704). 이때, 상기 멀티미디어 인식 장치는 믿음 전파 알고리즘을 이용하여 숨겨진 변수값을 추정하게 된다.
상기와 같이 멀티미디어 인식 장치는 각 입력 영상들을 분절화 한 후 각 분절별로 이 분절이 핑거프린트 데이터베이스의 어느 부분과 일치하는지를 상기 수학식 7과 같은 기준으로 추출한다.
도 8은 본 발명에 따른 멀티미디어 인식 방법을 설명하기 위한 예시도이다.
도 8을 참조하면, a)와 같은 영상이 입력되면, 멀티미디어 인식 장치는 상기 영상을 b)와 같이 분절 단위로 나눈다. 즉, 상기 멀티미디어 인식 장치는 유사한 특성을 가진 연속된 프레임으로 제1 분절(810), 제2 분절(820), 제3분절(830), 제4분절(840)으로 나눈다.
그런 다음 상기 멀티미디어 인식 장치는 c)와 같이 제1 분절(810)을 제1 노드(
Figure pat00068
), 제2 분절(820)을 제2 노드(
Figure pat00069
), 제3분절(830)을 제3 노드(
Figure pat00070
), 제4분절(840)을 제4 노드(
Figure pat00071
)로 각각 설정하고, 각 노드와 주위 노드 사이를 선분으로 연결한다. 이때, 처음과 마지막 노드가 아닌 노드들은 모두 그 양 옆의 노드를 이웃으로 삼고, 한 노드에 대해 화살표가 없는 선분으로 연결된 노드들은 모두 그 노드의 이웃 노드들이다.
그리고, 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성
Figure pat00072
, 각 노드의 숨겨진 변수와 관측변수 사이의 친화성
Figure pat00073
이 표시된 마르코프 랜덤 필드가 구축된다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 핑거프린트 추출부 110 : 핑거프린트 검출부
120, 340 : 데이터베이스 130 : 핑거프린트 검증부
300 : 영상 분절부 310 : 마르코프 랜덤 필드 구축부
320 : 변수값 추정부 330 : 영상 인식부

Claims (16)

  1. 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 상기 영상을 분절 단위로 나누는 영상 분절부;
    상기 나누어진 각 분절을 노드로 설정하고, 각 노드의 관측변수
    Figure pat00074
    와 숨겨진 변수
    Figure pat00075
    를 설정하여 마르코프 랜덤 필드(MRF)를 구축하는 마르코프 랜덤 필드 구축부;
    상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값
    Figure pat00076
    을 추정하는 변수값 추정부;및
    상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 영상 인식부;
    를 포함하는 멀티미디어 인식 장치.
  2. 제1항에 있어서,
    각 원본 영상의 분절에서 추출한 핑거프린트, 각 핑거프린트가 포함된 영상과 그 영상에서의 위치 정보가 저장된 데이터베이스를 더 포함하고,
    상기 영상 인식부는 상기 데이터베이스에서 상기 숨겨진 변수값에 해당하는 핑거프린트 및 그 위치 정보를 추출하여 해당 영상을 인식하는 것을 특징으로 하는 멀티미디어 인식 장치.
  3. 제1항에 있어서,
    상기 영상 분절부는 상기 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 분절경계 집합(B)을 구한 후, 상기 분절경계 집합을 이용하여 분절(S)을 정의하는 것을 특징으로 하는 멀티미디어 인식 장치.
  4. 제3항에 있어서,
    상기 분절경계(B)는
    Figure pat00077
    를 이용하여 구하되,
    상기 v[k]는 각 프레임에서 추출된 핑거프린트,
    Figure pat00078
    는 실수 벡터의 2놈(즉, 유클리드 거리),
    Figure pat00079
    는 미리 선택된 문턱값, K는 프레임의 개수,
    Figure pat00080
    Figure pat00081
    번째 프레임인 것을 특징으로 하는 멀티미디어 인식 장치.
  5. 제3항에 있어서,
    상기 분절(S)은
    Figure pat00082
    를 이용하여 정의하되, 상기
    Figure pat00083
    는 분절경계 집합에 있는 원소의 수인 것을 특징으로 하는 멀티미디어 인식 장치.
  6. 제1항에 있어서,
    상기 마르코프 랜덤 필드 구축부는 각 분절을 노드로 설정하고, 각 노드와 이웃 노드 사이를 선분으로 연결한 후, 각 노드의 관측변수
    Figure pat00084
    및 숨겨진 변수
    Figure pat00085
    를 설정하여 마르코프 랜덤 필드를 구축하는 것을 특징으로 하는 멀티미디어 인식 장치.
  7. 제6항에 있어서,
    상기 관측변수
    Figure pat00086
    는 각 노드에 속하는 프레임에서 추출한 핑거프린트 벡터의 수열인 것을 특징으로 하는 멀티미디어 인식 장치.
  8. 제6항에 있어서,
    상기 숨겨진 변수
    Figure pat00087
    는 해당 노드가 핑거프린트 데이터베이스에 존재하는 몇 번째 핑거프린트 벡터에 해당하는지에 대한 추정치인 것을 특징으로 하는 멀티미디어 인식 장치.
  9. 제1항에 있어서,
    상기 변수값 추정부는 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하여 친화성이 있는 경우 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정하는 것을 특징으로 하는 멀티미디어 인식 장치.
  10. 제9항에 있어서,
    상기 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성
    Figure pat00088
    Figure pat00089
    를 이용하여 구하되,
    상기
    Figure pat00090
    는 노드
    Figure pat00091
    의 숨겨진 변수, 상기
    Figure pat00092
    는 이웃 노드
    Figure pat00093
    의 숨겨진 변수,
    Figure pat00094
    Figure pat00095
    는 미리 설정된 매개변수,
    Figure pat00096
    는 i번째 분절에서 추출한 핑거프린트 벡터의 개수인 것을 특징으로 하는 멀티미디어 인식 장치.
  11. 제9항에 있어서,
    각 노드의 숨겨진 변수와 관측변수 사이의 친화성
    Figure pat00097
    Figure pat00098
    를 이용하여 구하되,
    상기
    Figure pat00099
    Figure pat00100
    를 이용하여 구하고,
    Figure pat00101
    는 실험적으로 설정되는 매개변수,
    Figure pat00102
    는 미리 설정된 최소 속도,
    Figure pat00103
    는 미리 설정된 최대 속도,
    Figure pat00104
    는 i번째 분절에서 추출한 핑거프린트 벡터의 개수,
    Figure pat00105
    은 m번째 핑거프링트에 대한 관측변수,
    Figure pat00106
    는 핑거프린트 데이터베이스에 존재하는
    Figure pat00107
    번째 핑거프린트 벡터인 것을 특징으로 하는 멀티미디어 인식 장치.
  12. 제1항에 있어서,
    상기 변수값 추정부는
    Figure pat00108
    를 이용하여 확률 값을 최대화시키는 숨겨진 변수값
    Figure pat00109
    을 추정하는 것을 특징으로 하는 멀티미디어 인식 장치.
  13. (a)입력 영상의 각 프레임에서 핑거프린트를 추출하고, 그 추출된 핑거프린트를 이용하여 분절을 정의하는 단계;
    (b)상기 정의된 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드를 구축하는 단계;
    (c)상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정하는 단계;및
    (d)상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 단계;
    를 포함하는 멀티미디어 인식 방법.
  14. 제13항에 있어서,
    상기 (a)단계는, 상기 영상의 각 프레임에서 핑거프린트를 추출하는 단계;
    현재 프레임과 인접 프레임의 핑거프린트간의 차가 미리 정해진 문턱치 이상인지의 여부를 이용하여 분절 경계 집합을 구하는 단계;및
    상기 구해진 분절경계 집합을 이용하여 분절을 정의하는 단계;를 포함하는 하는 것을 특징으로 하는 멀티미디어 인식 방법.
  15. 제13항에 있어서,
    상기 (b)단계는,
    상기 정의된 각 분절을 노드로 설정하고, 각 노드와 주위 노드 사이를 선분으로 연결하는 단계;
    각 노드에 존재하는 프레임에서 추출한 핑거프린트 벡터의 수열을 관측변수로 설정하고, 믿음 전파 알고리즘을 이용하여 구해진 값을 숨겨진 변수로 설정하여 마르코프 랜덤 필드를 구축하는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 인식 방법.
  16. 제13항에 있어서,
    상기 (c)단계는,
    각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하는 단계;
    친화성이 있는 경우 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정하는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 인식 방법.
KR1020100013886A 2010-02-16 2010-02-16 멀티미디어 인식 장치 및 방법 KR101094896B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100013886A KR101094896B1 (ko) 2010-02-16 2010-02-16 멀티미디어 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100013886A KR101094896B1 (ko) 2010-02-16 2010-02-16 멀티미디어 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110094487A true KR20110094487A (ko) 2011-08-24
KR101094896B1 KR101094896B1 (ko) 2011-12-15

Family

ID=44930475

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100013886A KR101094896B1 (ko) 2010-02-16 2010-02-16 멀티미디어 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101094896B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570880A (zh) * 2016-10-28 2017-04-19 中国人民解放军第三军医大学 结合模糊聚类和马尔科夫随机场的脑组织mri图像分割方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100888804B1 (ko) 2007-06-04 2009-03-13 (주)엔써즈 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치
KR100920227B1 (ko) 2007-06-29 2009-10-05 포항공과대학교 산학협력단 신념 전파 기반의 고속 시스톨릭 어레이 장치 및 그 방법
KR100896336B1 (ko) 2007-08-22 2009-05-07 주식회사 코난테크놀로지 영상 정보 기반의 동영상 연관 검색 시스템 및 방법
US7983486B2 (en) 2007-08-29 2011-07-19 Seiko Epson Corporation Method and apparatus for automatic image categorization using image texture

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570880A (zh) * 2016-10-28 2017-04-19 中国人民解放军第三军医大学 结合模糊聚类和马尔科夫随机场的脑组织mri图像分割方法
CN106570880B (zh) * 2016-10-28 2019-10-11 中国人民解放军第三军医大学 结合模糊聚类和马尔科夫随机场的脑组织mri图像分割方法

Also Published As

Publication number Publication date
KR101094896B1 (ko) 2011-12-15

Similar Documents

Publication Publication Date Title
Wang et al. Adaptive fusion for RGB-D salient object detection
CN111327945B (zh) 用于分割视频的方法和装置
CN109635686B (zh) 结合人脸与外观的两阶段行人搜索方法
US8270806B2 (en) Information processing apparatus and method of controlling same
Zhao et al. Inter-frame passive-blind forgery detection for video shot based on similarity analysis
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
WO2018099268A1 (zh) 目标跟踪方法、装置及存储介质
CN110795595A (zh) 基于边缘计算的视频结构化存储方法、装置、设备及介质
WO2017114211A1 (zh) 用于对视频场景切换进行检测的方法和装置
CN106991370B (zh) 基于颜色和深度的行人检索方法
CN105184238A (zh) 一种人脸识别方法及系统
JP5685324B2 (ja) 映像を比較する方法および装置
CN110334622B (zh) 基于自适应特征金字塔的行人检索方法
JP5192437B2 (ja) 物体領域検出装置、物体領域検出方法および物体領域検出プログラム
CN112926557B (zh) 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法
KR101717441B1 (ko) 문자영상 내의 개인정보 보호장치 및 방법
JP5538781B2 (ja) 画像検索装置及び画像検索方法
KR101094896B1 (ko) 멀티미디어 인식 장치 및 방법
CN105141968B (zh) 一种视频同源copy-move篡改检测方法及系统
KR20110125458A (ko) 객체 검출 정보를 이용한 유사 동영상 검색 시스템 및 방법
JP6789175B2 (ja) 画像認識装置、方法、及びプログラム
Hato Temporal video segmentation using optical flow estimation
KR102263230B1 (ko) 프레임 특징 벡터 융합을 이용한 비디오 부분 복사 검출 시스템 및 비디오 부분 복사 검출 방법
KR20130023903A (ko) Db 효율화를 통한 영상 인식 시스템 및 그 제공방법
WO2013154062A1 (ja) 画像識別システム、画像識別方法、およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141127

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee