KR20010042672A - 신호 처리 방법 및 영상 음성 처리 장치 - Google Patents

신호 처리 방법 및 영상 음성 처리 장치 Download PDF

Info

Publication number
KR20010042672A
KR20010042672A KR1020007011374A KR20007011374A KR20010042672A KR 20010042672 A KR20010042672 A KR 20010042672A KR 1020007011374 A KR1020007011374 A KR 1020007011374A KR 20007011374 A KR20007011374 A KR 20007011374A KR 20010042672 A KR20010042672 A KR 20010042672A
Authority
KR
South Korea
Prior art keywords
video
segment
audio
representative
segments
Prior art date
Application number
KR1020007011374A
Other languages
English (en)
Other versions
KR100737176B1 (ko
Inventor
월커토비
마쯔바라히로시
Original Assignee
이데이 노부유끼
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이데이 노부유끼, 소니 가부시끼 가이샤 filed Critical 이데이 노부유끼
Publication of KR20010042672A publication Critical patent/KR20010042672A/ko
Application granted granted Critical
Publication of KR100737176B1 publication Critical patent/KR100737176B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

영상 음성 처리 장치(10)는 단계(S1)에서, 세그먼트를, r 세그먼트의 후보가 되는 서브세그먼트로 분할하여, 단계(S2)에 있어서, 얻어진 서브세그먼트 중, 서로 유사한 서브세그먼트끼리를 그룹화한다. 그리고, 영상 음성 처리 장치(10)는 단계(S3)에 있어서, 얻어진 그룹 중, 시그너쳐의 대상 그룹을 선택하고, 단계(S4)에서, 선택된 그룹의 각각으로부터, 1개의 r 세그먼트를 선택한 후, 단계(S5)에 있어서, 얻어진 r 세그먼트의 각각에 대한 무게를 산출한다.

Description

신호 처리 방법 및 영상 음성 처리 장치{SIGNAL PROCESSING METHOD AND VIDEO/AUDIO PROCESSING DEVICE}
예를 들면 비디오 데이터에 녹화된 텔레비전 프로그램과 같은 대량의 다른 영상 데이터로 구성되는 영상 어플리케이션 중에서, 흥미 있는 부분 등의 소망의 부분을 탐색하여 재생하고 싶은 경우가 있다.
이와 같이, 비디오 데이터와 같은 멀티미디어 데이터를 탐색하는 경우에는 많은 컴퓨터 어플리케이션에서 사용되고 있는 데이터와는 본질적으로 달라서, 정확하게 일치하는 것 끼리를 발견하는 것은 기대할 수 없으며, 오히려, 유사한 것을 탐색하게 된다. 그러므로, 멀티미디어 데이터의 내용에 의거한 탐색에 관한 기술 중, 거의 모든 기술은 예를 들면, "G. Ahanger and T. D. C. Little, A survey of techno1ogies for parsing and indexing digita1 video, J. of Visual Communication and Image Representation 7:28-4, 1996" 등에 기재되어 있는 바와 같이, 유사성에 근거한 탐색을 기초로 하고 있다.
이러한 유사성에 의거한 탐색을 행하는 기술에 있어서는 우선 내용의 유사성이 수치적으로 측정된다. 그리고, 상기 기술에 있어서는 유사성의 측정 결과를 사용하여, 대상으로 하는 아이템과의 유사성 측정 기준에 근거하여 유사성이 높은 것부터 순위 부가한다. 그 결과 얻어진 리스트에 있어서는 가장 유사한 것 끼리는 그의 리스트의 선두 부근에 나타나게 된다.
이러한 멀티미디어 데이터의 내용에 의거한 탐색방법에 있어서는 영상 데이터 및 음성 데이터, 및 본질적으로는 신호 처리에 의한 비디오 처리 기술을 사용하여, 우선 멀티미디어 데이터로부터 저레벨의 특징량을 추출한다. 그리고, 상기 탐색방법에 있어서는 추출한 특징량을 사용하여, 유사성에 의거한 탐색을 위해 필요하게 되는 유사성 측정 기준을 구한다.
멀티미디어 데이터의 내용에 의거한 탐색에 관한 연구는 최초는 이미지(정지 화상)의 탐색에 초점을 맞춘 것이 많다. 이러한 연구에 있어서는 이미지끼리의 유사성을 측정하기 위해서, 소위 색, 텍스쳐, 형상과 같은 다수의 저레벨 영상 특징량을 사용하고 있다.
또한, 최근에는 비디오 데이터에 대한 내용에 의거한 탐색에 관한 연구도 행하여지고 있다. 비디오 데이터의 경우에는 통상적으로, 긴 비디오 데이터 중에 있어서 일치하는 부분을 탐색하기 때문에, 비디오 CBR(Contents Base Retrieva1)에 관한 대개의 기술에 있어서는 우선 비디오 데이터를 세그먼트라고 하는 연속하는 프레임의 일련 단위로 분할한다. 이들의 세그먼트는 유사성에 의거한 탐색을 행할 때의 대상이 되는 것이다. 상기 비디오 데이터를 세그먼트로 분할하는 기존의 방법에서는 예를 들면 상술한 "G. Ahanger and T. D. C. Litt1e, Asurvey of techno1ogies for parsing and indexing digita1 video, J. of Visual Communication and Image Representation 7:28-4,1996"에 기재되어 있는 바와 같이, 통상적으로, 쇼트 검출 알고리즘을 사용하여, 비디오 데이터를 소위 쇼트로 분할하는 것이 있다. 그리고, 탐색을 행할 때에는 얻어진 쇼트로부터 유사성에 의거한 비교를 가능하게 하는 특징량을 추출한다.
그렇지만, 쇼트에 있어서의 우수한 특징량을 파악하여, 또한, 유사성에 의거한 쇼트끼리의 비교를 가능하게 하도록 특징량을 검출하기는 곤란하다. 그래서, 비디오 데이터에 대한 내용에 의거한 탐색에 대한 기존의 어프로치로서는 통상적으로, 각 쇼트로부터 대표 프레임을 추출하여, 이들의 대표 프레임의 집합에 대하여 탐색을 행함으로써 대체된다. 이들의 대표 프레임은 통상적으로, 키 프레임이라고 칭하는 것이다. 즉, 쇼트 내용에 의거한 탐색 기술은 쇼트·키 프레임의 비교를 행함으로써, 이미지 내용에 의거한 탐색 기술로 귀착된다. 예를 들면, 쇼트에 대해서 키 프레임으로부터 컬러 히스토그램을 추출한 경우, 이들 키 프레임의 히스토그램을 사용하여 2개의 쇼트의 유사성을 측정할 수 있다. 상기 어프로치는 키 프레임을 선택할 때에도 유효하다.
간단한 어프로치로서는 각 쇼트로부터 고정적으로 1개의 정해진 프레임을 선택하는 것이 있다. 또한, 다수의 프레임을 선택하기 위한 다른 방법으로서는 "B.L.Yeo and B.Liu, Rapid Scene ana1ysis on compressed video, IEEE Transactions on Circuits and Systems for Video Techno1ogy, vol. 5, no.6, pp­533, December 1995"에 기재되어 있는 프레임차나, "W.Wo1f, Key frame se1ection by motion ana1ysis, Proceedings of IEEE Int'1 Conference on Acoustic, Speech and Signal Proceeding, 1996"에 기재되어 있는 운동 분석이나, "Y. Zhuang, Y. Rui, T.Huang and S.Mehrotra, Adaptive key frame extraction using unsupervised c1ustering, Proceedings of IEEE Int'1 Conference on Image Proceeding, Chicago, IL, , 0ctober 4-71998"에 기재되어 있는 클러스터링 기술을 사용하는 것이 있다.
그런데, 키 프레임에 의거한 상술한 탐색 기술은 쇼트의 유사성에 의거한 탐색에 한정되는 것이다. 그렇지만, 예를 들면 대표적인 30분의 텔레비전 프로그램중에는 수백개나 되는 쇼트가 포함되어 있기 때문에, 상술한 종래의 탐색 기술에 있어서는 추출된 방대한 수의 쇼트를 조사할 필요가 있으며, 이러한 방대한 수의 데이터를 탐색 대상으로 하는 것은 큰 부담이었다.
그러므로, 예를 들면 세그먼트를 어떤 관련에 근거하여 정리한 신이나 프로그램과 같은 쇼트보다도 긴 영상 세그먼트 및 음성 세그먼트끼리의 유사성을 비교함으로써, 부담을 경감할 필요가 있었다.
그렇지만, 종래의 탐색 기술은 예를 들면, 특정한 커머셜과 유사한 세그먼트를 탐색하거나, 어떤 텔레비전 프로그램에 있어서, 동일 연기를 그린 관련 쇼트군으로 구성된 어떤 신과 유사한 신을 탐색하게 하는 요구에 응할 수 있는 것이 아니었다.
이와 같이, 쇼트 레벨보다도 높은 레벨의 세그먼트의 유사성에 의거한 비교를 논한 간행 완료의 연구는 거의 보이지 않는다. 이러한 종류의 유일한 연구로서는 "J. Kender and B.L.Yeo, Video Secne Segmentation via Continuous Video Coberence, IBM Research Report, RC21061, December 18,1997"가 있다. 상기 연구는 2개의 신의 유사성을 비교하기 위한 방법을 제공하고 있다. 상기 연구에 있어서의 탐색 기술은 비디오 데이터의 모든 쇼트를 카테고리로 분류한 후, 각 신에 대해서, 각 카테고리에 속하는 신 중의 쇼트의 수를 센다. 얻어진 결과는 표준의 유사성 측정 기준을 사용하여 비교하는 것이 가능한 히스토그램이다. 이 연구에서는 유사한 신끼리의 유사성을 비교하는 데에 있어서, 어느정도 성공한 것이 보고되어 있다.
그렇지만, 상기 방법은 비디오 데이터의 모든 쇼트를 분류할 필요가 있었다. 모든 쇼트를 분류하기는 곤란한 것으로서, 통상적으로, 방대한 계산을 요하는 기술을 필요로 한다.
또한, 상기 방법은 가령 모든 쇼트를 정확히 분류할 수 있다고 해도, 카테고리끼리의 유사성을 고려하지 않고 있기 때문에, 혼동되기 쉬운 결과를 줄 가능성이 있다. 예를 들면, 비디오 데이터의 쇼트가 3개의 카테고리(A, B, C)로 분할되는 것으로 하거나, 혹은 신(X)이, 카테고리(B) 및 카테고리(C)의 쇼트를 전혀 갖지 않고, 카테고리(A)의 쇼트를 2개 갖는 것으로 하고, 다른 신(Y)이, 카테고리(A) 및 카테고리(C)의 쇼트를 전혀 갖고 있지 않고, 카테고리(B)의 쇼트를 2개 갖는 것으로 한다. 이 경우, 상기 방법에 있어서는 신(X)과 신(Y)의 유사성이 없는 것으로 판단한다. 그렇지만, 카테고리(A)와 카테고리(B)의 쇼트가 서로 유사한 경우에는 유사성의 값은 제로는 아닌 것이다. 즉, 상기 방법에 있어서는 쇼트 자체의 유사성을 고려하지 않고 있기 때문에터, 이러한 잘 못된 판단이 이루어지기도 한다.
본 발명은 신호를 구성하는 서로 다른 임의의 세그먼트 사이의 유사성을 측정하는 신호 처리 방법 및 비디오 신호를 구성하는 서로 다른 임의의 영상 또는 음성 세그먼트 사이의 유사성을 측정하는 영상 음성 처리 장치에 관한 것이다.
도 1은 본 발명에서 적용하는 비디오 데이터의 구성을 설명한 도면으로, 모델화한 비디오 데이터의 구조를 설명한 도면이다.
도 2는 쇼트에 대한 영상 프레임 시그너쳐를 설명한 도면이다.
도 3은 신(scene)에 대한 쇼트 시그너쳐를 설명한 도면이다.
도 4는 신에 대한 음성 세그먼트 시그너쳐를 설명한 도면이다.
도 5는 텔레비전 프로그램에 대한 쇼트 시그너쳐를 설명한 도면이다.
도 6은 본 발명의 실시예로서 도시한 영상 음성 처리 장치의 구성을 설명한 블록도이다.
도 7은 동영상 음성 처리 장치에 있어서, 시그너쳐를 추출할 때의 일련의 공정을 설명한 플로우챠트이다.
도 8은 도 7에 있어서의 일련의 공정을 구체적으로 설명하기 위해서 적용한 신을 설명한 도면이다.
도 9는 도 8에 도시한 신에서 선택된 r 세그먼트를 설명한 도면이다.
본 발명은 이러한 실정을 감안하여 이루어진 것으로, 상술한 종래의 탐색 기술의 문제를 해결하여, 여러가지의 비디오 데이터에 있어서의 다양한 레벨의 세그먼트의 유사성에 의거한 탐색을 행하는 신호 처리 방법 및 영상 음성 처리 장치를 제공하는 것을 목적으로 하는 것이다.
상술한 목적을 달성하는 본 발명에 따른 신호 처리 방법은 공급된 신호를 구성하는 세그먼트에 포함되는 서브세그먼트 중, 세그먼트의 내용을 대표하는 서브세그먼트인 대표 세그먼트와, 상기 대표 세그먼트에 무게를 할당하는 가중 함수로 정의되는 시그너쳐를 추출하는 신호 처리 방법으로서, 서브세그먼트를 임의의 속성에 근거하여 분류하여 얻은 그룹 중, 시그너쳐의 대상으로 하는 그룹을 선택하는 그룹 선택 공정과, 상기 그룹 선택 공정에서 선택한 그룹에서, 1개의 대표 세그먼트를 선택하는 대표 세그먼트 선택 공정과, 상기 대표 세그먼트 선택 공정에서 얻은 대표 세그먼트에 대해서의 무게를 산출하는 무게 산출 공정을 구비하는 것을 특징으로 하고 있다.
이러한 본 발명에 따른 신호 처리 방법은 세그먼트에 관한 시그너쳐를 추출한다.
또한, 상술한 목적을 달성하는 본 발명에 따른 영상 음성 처리 장치는 공급된 비디오 신호를 구성하는 영상 또는 음성 세그먼트에 포함되는 영상 또는 음성 서브세그먼트 중, 영상 또는 음성 세그먼트의 내용을 대표하는 영상 및/또는 음성 서브세그먼트인 대표 세그먼트와, 상기 대표 세그먼트에 무게를 할당하는 가중 함수로 정의되는 시그너쳐를 추출하는 영상 음성 처리 장치로서, 영상 및/또는 음성 서브세그먼트를 임의의 속성에 근거하여 분류하여 얻은 그룹 중, 시그너쳐의 대상으로 하는 그룹을 선택하고, 상기 선택한 그룹에서, 1개의 대표 세그먼트를 선택하여, 얻어진 대표 세그먼트에 대한 무게를 산출하는 실행 수단을 구비하는 것을 특징으로 하고 있다.
이와 같이 구성된 본 발명에 따른 영상 음성 처리 장치는 영상 및/또는 음성 세그먼트에 관한 시그너쳐를 추출한다.
이하, 본 발명을 적용한 구체적인 실시예에 관해서 도면을 참조하면서 상세히 설명한다.
본 발명에 따른 실시예는 비디오 데이터로부터 소망의 내용을 자동적으로 찾아내어 추출하기 위해서, 비디오 데이터내의 임의의 집합을 대표하는 데이터를 자동적으로 추출하는 영상 음성 처리 장치이다. 상기 영상 음성 처리 장치의 구체적인 설명을 행하기 전에, 여기서는 우선 본 발명에 있어서 대상으로 하는 비디오 데이터에 관한 설명을 행한다.
본 발명에 있어서 대상으로 하는 비디오 데이터에 대해서는 도 1에 도시한 바와 같이 모델화하여, 프레임, 세그먼트, 프로그램과 같은 레벨로 계층화된 구조를 갖는 것으로 한다. 즉, 비디오 데이터는 그의 최상위층이고 비디오 데이터 전체를 나타내는 프로그램과, 그의 최하위층인 일련의 프레임 사이를, 복수 계층으로 이루어진 세그먼트로 구성한다.
비디오 데이터에서의 세그먼트로서는 연속하는 프레임을 연속으로 형성되는 것이나, 또한, 이러한 프레임의 열을 어떤 관련에 근거하여 신으로서 정리한 것도 있고, 이러한 신을 어떤 관련에 근거하여 정리한 것도 있다. 또한, 넓은 의미에서는 단일의 프레임도 세그먼트의 일종으로 생각할 수 있다.
즉, 비디오 데이터에 있어서의 세그먼트란, 여기서는 프로그램과 프레임을 포함한 비디오 데이터에 있어서의 어떤 그룹을, 계층의 고저와는 무관하게 총칭한 것으로, 비디오 데이터의 스트림 중 어느 하나의 연속적 부분으로 정의한다. 물론, 세그먼트는, 상술한 연속하는 프레임의 연속으로 형성되는 것과, 신과의 중간구조와 같이, 어느 하나의 의미를 가진 중간적인 구조이어도 된다. 한편, 예를 들면, 임의의 세그먼트(X)가 다른 세그먼트(Y) 내에 완전히 포함되는 것인 경우에는 세그먼트(X)는 세그먼트(Y)의 서브세그먼트로 정의한다.
이러한 비디오 데이터는 일반적으로, 영상 및 음성의 양쪽의 정보를 포함한다. 즉, 상기 비디오 데이터에 있어서 프레임은 단일 정지 화상인 영상 프레임과, 일반적으로 수십 내지 수백 밀리세컨드/길이와 같은 단시간에 있어서 표본화된 음성 정보를 나타내는 음성 프레임을 포함하는 것으로 한다.
또한, 세그먼트는 영상 세그먼트와 음성 세그먼트를 포함하는 것이다. 즉, 세그먼트는, 단일의 카메라에 의해 연속적으로 촬영된 영상 프레임의 연속으로 이루어지는 소위 쇼트나, 상기 특징을 나타내는 특징량을 사용하여, 쇼트를 어떤 그룹으로 그룹화한 신 등의 영상 세그먼트를 포함한다. 또한, 세그먼트는 예를 들면, 일반적으로 잘 알려져 있는 방법에 의해 검출된 비디오 데이터 중의 무음 기간에 의해 경계를 정하게 되어 형성되는 것이나, "D. Kimber and L. Wilcox, Acoustic Segmentation for Audio Browsers, Xerox Parc technica1 Report"에 기재되어 있는 바와 같이, 예를 들면, 음성, 음악, 노이즈, 무음 등과 같이 소수의 카테고리로 분류된 음성 프레임의 일련으로 형성되는 것이나, "S. Pfeiffer, S. Fiscber and E. Wo1fgang, Automatic Audio Content Ana1ysis, Proceeding of ACM Mu1timedia 96, Nov. 1996, pp21-30"에 기재되어 있는 바와 같이, 2장의 연속하는 음성 프레임간의 어떤 특징에 있어서의 큰 변화를 검출하는 음성 컷 검출을 사용하여 결정되는 것이나, 일련의 음성 프레임을 어느 하나의 특징량에 근거하여 의미가 있는 그룹으로 그룹화한 것과 같은 음성 세그먼트를 포함한다.
본 발명을 적용한 실시예로서 예시한 영상 음성 처리 장치는 상술한 비디오 데이터에 있어서의 세그먼트의 내용을 특징짓는 일반적인 특징량인 시그너쳐(Signature)를 자동적으로 추출함과 동시에, 2개의 시그너쳐의 유사성을 비교하는 것이고, 영상 세그먼트 및 음성 세그먼트의 양쪽에 적용할 수 있는 것이다. 얻어지는 유사성 측정 기준은 세그먼트의 탐색 및 분류를 행하기 위한 범용 툴을 부여하는 것이다.
여기서, 시그너쳐에 대해서 설명한다. 시그너쳐란, 일반적으로, 어떤 대상을 식별하는 것으로, 그 대상보다도 적은 정보에 의해서, 그 대상을 높은 정밀도로 식별하는 데이터이다. 예를 들면, 인간에 관한 시그너쳐로서는, 지문을 그의 일종으로서 들 수 있다. 즉, 어떤 물체에 부착한 2개의 지문의 유사성을 비교하는 것은 동일 인물이 그 지문을 뭍혔는지의 여부를 정확히 판정하는 것을 가능하게 한다.
마찬가지로, 영상 세그먼트 및 음성 세그먼트에 관한 시그너쳐는 영상 세그먼트 및 음성 세그먼트를 식별하는 것을 가능하게 하는 데이터이다. 상기 시그너쳐는 여기서는 세그먼트를 분할하여 얻어지는 상술한 서브세그먼트의 가중 집합으로서 주어지는 것으로 한다. 예를 들면, 어떤 세그먼트(X)에 관한 시그너쳐(S)는 후술하는 바와 같이, 세그먼트(X)를 대표하는 서브세그먼트를 요소로 하는 대표 세그먼트(R)와, 상기 대표 세그먼트(R)의 각 요소에 무게를 할당하는 함수인 가중 함수(W)로 나타내는 대〈R, W〉로 정의된다.
이하의 설명에서는 소위 대표 프레임을 나타내는 용어인 r 프레임(Representative frame)을 확장하여, 대표 세그먼트를 r 세그먼트로 표기하기로 한다. 이로써, 어떤 시그너쳐가 포함하는 모든 r 세그먼트의 집합은 그의 시그너쳐의 r 세그먼트라고 칭하게 된다. 또한, r 세그먼트의 형태를, 그의 시그너쳐의 r 형태라고 칭한다. 그리고, 시그너쳐의 r 형태를 명시할 필요가 있는 경우에는 그의 형태를 "시그너쳐"라는 용어 앞에 붙인다. 예를 들면, 영상 프레임 시그너쳐는 그의 r 세그먼트가 모두 영상 프레임인 시그너쳐를 나타낸다. 또한, 쇼트 시그너쳐는 그의 r 세그먼트가 상술한 쇼트인 시그너쳐를 나타낸다. 한편, 어떤 시그너쳐(S)에 의해 기술되는 세그먼트를, 해당 시그너쳐(S)의 대상 세그먼트라고 칭한다. 시그너쳐는 영상 세그먼트, 음성 세그먼트, 혹은 이들 양쪽의 조합을 포함하는 r 세그먼트를 사용할 수 있다.
이러한 시그너쳐는 세그먼트를 유효하게 나타내는 몇개의 성질을 갖는다.
우선, 시그너쳐는 가장 중요한 성질로서, 쇼트 등의 짧은 세그먼트를 기술하는 것만이 아니라, 어떤 신 전체 혹은 비디오 데이터 전체와 같은 보다 긴 세그먼트를 기술하는 것을 가능하게 한다.
또한, 긴 대상 세그먼트를 특징짓기 위해서 필요한 r 세그먼트는 통상적으로, 얼마안되는 수에 불과하다. 즉, 시그너쳐는 약간의 데이터량으로 세그먼트를 특징짓는 것을 가능하게 한다.
또한, 시그너쳐에 있어서는 각 r 세그먼트에 할당된 무게가, 각 r 세그먼트의 중요성 또는 관련성을 나타내고, 대상으로 하는 세그먼트를 식별하는 것을 가능하게 한다.
또한, 프레임 뿐만 아니라, 쇼트나 신 등의 세그먼트도 r 세그먼트로서 사용할 수 있기 때문에, 시그너쳐는, 소위 키 프레임이라고 하는 개념을 확장하여 일반화한 것이 분명하다고 할 수 있다.
또한, 세그먼트를 보다 단순한 서브세그먼트의 집합으로 분해할 수 있는 경우에는 그들의 서브세그먼트를 r 세그먼트로서 사용할 수 있다.
이러한 시그너쳐는 컴퓨터 지원·유저·인터페이스를 통해, 유저가 임의로 작성할 수 있지만, 대개의 어플리케이션에 있어서는 자동적으로 추출되는 것이 바람직하다.
여기서, 시그너쳐의 실례에 대해서 몇가지 설명한다.
우선, 쇼트에 대해서의 영상 프레임 시그너쳐는 도 2에 도시한 바와 같이, 그의 r 세그먼트가 정지 화상인 시그너쳐이다. 이러한 시그너쳐를 작성하는 1개의 방법은 각 쇼트에 대해서의 키 프레임을 r 세그먼트로서 사용하고, 해당 키 프레임에 거의 일치하는 쇼트내 영상 프레임의, 쇼트내 모든 영상 프레임에 대한 비율을 가중으로 사용하는 것이다.
또한, 신에 대한 쇼트 시그너쳐는 도 3에 도시한 바와 같이, 그의 r 세그먼트가 쇼트인 시그너쳐이다. 여기서, 신 중의 쇼트를 n개의 그룹으로 분류할 수 있는 것으로 한다. 이 경우, n 개의 r 세그먼트로 이루어지는 시그너쳐를 작성할 수 있다. 즉, 각 그룹에 대해서, 어떤 1개의 쇼트를 r 세그먼트로서 취급하여 선택한다. 여기서, 각 r 세그먼트에 대한 가중이지만, 후술하는 바와 같이, 신을 구성하는 모든 쇼트수에 대한 각 그룹을 구성하는 쇼트수의 비율로서 부여할 수 있다.
또한, 시그너쳐는 시각 정보만을 사용하는 것에 한정되지 않고, 도 4에 도시한 바와 같이, 신에 대한 음성 세그먼트 시그너쳐도 시그너쳐의 실례로서 들 수 있다. 여기서, 신에 대한 음성 세그먼트 시그너쳐는, 음성 세그먼트의 집합을 r 세그먼트로서 사용하는 것이다. 예를 들면, 서로 회화를 하고 있는 복수인으로 이루어진 신을 생각한다. 이 경우, 이야기하는 사람을 자동적으로 구별하는 것이 가능하면, 각 이야기하는 사람이 짧은 스피치 세그먼트를 r 세그먼트로서 사용할 수 있다.
또한, 시그너쳐는 짧은 세그먼트를 기술하기 위해서 도움이 될 뿐만 아니라, 비디오 전체를 기술하기 위해서도 사용할 수 있다. 예를 들면, 복수의 쇼트를 적절히 선택함으로써, 특정한 텔레비전 프로그램을 다른 텔레비전 프로그램으로부터 명확히 구별하는 것이 가능해진다. 이러한 쇼트는 해당 텔레비전 프로그램에서 반복하여 사용되는 것으로, 예를 들면, 도 5에 도시하는 바와 같은 뉴스 프로그램에 있어서의 시작의 로고·쇼트와, 뉴스 캐스터를 나타내는 쇼트가 이것에 상당한다. 이 경우, 가중은 쇼트의 중요성을 나타내는 것으로, 로고·쇼트와 뉴스 캐스터의 쇼트와 같은 무게를 할당하는 것이 적당하다.
이러한 시그너쳐를 자동적으로 추출함과 동시에, 2개의 시그너쳐의 유사성을 비교하는 영상 음성 처리 장치(10)는 도 6에 도시한 바와 같이, 각부의 동작을 제어함과 동시에, ROM(12)에 기억되어 있는 프로그램을 실행하여 세그먼트의 시그너쳐를 추출하는 실행 수단인 CPU(Centra1 Processing Unit)(11)과, 시그너쳐를 추출하기 위해서 CPU(11)가 실행하는 프로그램이나, 사용하는 수치 등을 기억하여 놓은 판독 전용 메모리인 ROM(Read On1y Memory)(12)과, 입력한 세그먼트를 분할하여 얻어지는 서브세그먼트나, r 세그먼트 등을 기억하는 작업 영역으로서의 기능을 갖는 메모리인 RAM(Random Access Memory)(13)과, 작성한 시그너쳐 등을 필요에 따라서 도시하지 않은 기록 매체에 대하여 기록 및/또는 재생하는 HDD(Hard Disk Dive) (14)와, 시그너쳐를 구하는 세그먼트를 입력함과 동시에, r 세그먼트의 집합과 이들의 각 r 세그먼트에 대해서의 무게를 시그너쳐로서 출력하는 인터페이스(이하, I/F로약기한다)(15)를 구비하고, 이들의 각부는 버스(16)에 의해 서로 접속되어 있다.
이러한 영상 음성 처리 장치(10)는 CPU(11)가 ROM(12)에 기억되어 있는 프로그램을 판독하여 실행하고, 도 7에 도시한 바와 같은 일련의 처리를 행함으로써, 시그너쳐를 추출한다.
우선, 영상 음성 처리 장치(10)는 동도면에 도시한 바와 같이, 단계(S1)에서, I/F(15)를 통해 입력한 세그먼트를 서브세그먼트로 분할한다. 여기서 분할되어 얻어진 서브세그먼트는 r 세그먼트의 후보인 후보 r 세그먼트가 된다.
영상 음성 처리 장치(10)는 세그먼트를 서브세그먼트로 분할하는 방법으로서 특별히 한정되지 않고, 적용 가능한 방법이면 어떠한 방법이어도 된다. 이러한 방법은 사용되는 서브세그먼트 형태에 크게 의존한다. 여기서는 세그먼트를 또한 작은 세그먼트의 집합으로 분해하는 방법을 사용한다. 구체적으로는 영상 음성 처리 장치(10)는 예를 들면, r 세그먼트가 영상 프레임인 경우에는 용이하게 분해할 수 있어, 그의 세그먼트 중의 모든 영상 프레임(정지 화상)의 집합이 서브세그먼트의 후보 집합이 된다. 또한, 영상 음성 처리 장치(10)는 r 세그먼트가 쇼트인 경우에는 예를 들면 "B. Furht(Editor), Handbook of Multimedia Computing, CRC Press, 1998" 나 "J. Kender and B. L. Yeo, Video Secne Segmentation via Conti nuous Vedeo Coherence, IBM Research Report, RC21061, December 18,1997"에 기재되어 있는 바와 같은 기존의 알고리즘을 사용하여, 세그먼트를 쇼트로 분할한다. 또한, 영상 음성 처리 장치(10)는 서브세그먼트가 음성 세그먼트인 경우에는 예를 들면 상술한 "D. Kimber and L. Wi1cox, Acoustic Segmentation for Audio Browsers, Xerox Parc Technica1 Report" 나 "S. Pfeiffer, S. Fiscber and E. Wo1fgang, Automatic Audio Content Ana1ysis, Proceeding of ACM Mu1timedia 96, Nov. 1996, pp21-30"에 기재되어 있는 바와 같은 오디오 분할 수법을 사용하여, 서브세그먼트간의 경계를 검출한다.
이와 같이, 영상 음성 처리 장치(10)는 세그먼트의 형태에 의존하지 않고 세그먼트를 서브세그먼트로 분할한다. 또한, 영상 음성 처리 장치(10)는 세그먼트가 프레임인 경우에는 상기 분할 공정을 행할 필요는 없다.
다음에, 영상 음성 처리 장치(10)는 단계(S2)에 있어서, 서로 유사한 서브세그먼트를 그룹화한다. 즉, 서로 유사한 서브세그먼트의 그룹은 대상으로 하는 세그먼트의 내용을 가장 양호하게 나타내는 것으로 생각되기 때문에, 영상 음성 처리 장치(10)는 서로 유사한 서브세그먼트를 검출하여 그룹화한다. 또한, 서로 유사한 서브세그먼트란, 각 서브세그먼트가 갖는 후술하는 특징량에 있어서, 그들의 비유사성 측정 기준 값이 작은 서브세그먼트 끼리인 것을 나타낸다.
영상 음성 처리 장치(10)는 단계(S1)와 마찬가지로, 서로 유사한 서브세그먼트를 그룹화하는 방법으로서 특별히 한정하지 않고, 적용 가능한 방법이면, 어떠한 방법이어도 된다. 영상 음성 처리 장치(10)는 예를 들면, "L. Kaufman and P. J. R. usseeuw, Finding Groups in Data: An Introduction to Cluster Analysis, John-Wiley and sons, 1990"에 기재되어 잘 알려져 있는 k 평균치 클러스터링법(k-means-c1ustering method)이나 k-메드이드 알고리즘법(k-medoids algorithm method)과 같은 클러스터링·알고리즘을 사용하여, 후보 r 세그먼트의 집합 내에 유사 그룹을 생성한다. 이러한 클러스터링·알고리즘의 대부분은 2개의 서브세그먼트를 비교하기 위해서, 서브세그먼트로부터 추출한 후술하는 특징량에 관한 비유사성 측정 기준만을 필요로 한다. 영상 음성 처리 장치(10)는 영상 프레임이나 쇼트 등에 대해서 널리 알려져 있는 유사성에 의거한 측정 기준 중 어느 것이든 사용할 수 있다.
여기서, 특징량에 관해서 설명한다. 특징량이란, 세그먼트의 특징을 나타냄 과 동시에, 다른 세그먼트간의 유사성을 측정하기 위한 데이터를 공급하는 세그먼트의 속성이다. 영상 음성 처리 장치(10)는 어떠한 특징의 구체적 상세에도 의존하는 것이 아니지만, 해당 영상 음성 처리 장치(10)에 있어서 사용하여 효과적이라고 생각되는 특징량으로서는 예를 들면, 이하에 나타내는 영상 특징량, 음성 특징량, 영상 음성 공통 특징량과 같은 것이 있다.
영상 특징량으로서 이미 알려진 것은 다수 존재하며, 예를 들면 색 특징량(히스토그램)이나 영상 상관이 있다.
영상에 있어서의 색은 2개의 영상이 유사한 가를 판단할 때의 중요한 재료가 된다. 컬러 히스토그램을 사용하여 영상의 유사성을 판단하는 것은 예를 들면 "G. Ahanger and T. D. C. Litt1e, Asurvey of techno1ogies for parsing and indexing digita1 video, J. of Visua1 Communication and Image Representation 7:=28-4, 1996"에 기재되어 있는 바와 같이, 잘 알려져 있다. 여기서, 컬러 히스토그램이란, 예를 들면 HSV나 RGB 등의 3차원 색 공간을 n 개의 영역으로 분할하여, 영상에 있어서의 화소의, 각 영역에서의 출현 빈도의 상대적 비율을 계산한 것이다. 그리고, 얻어진 정보로부터는 n 차원 벡터가 주어진다. 압축된 비디오 데이터에 대해서는 예를 들면 U. S. Patent #5,708,767호 공보에 기재되어 있는 바와 같이, 컬러 히스토그램을, 압축 데이터로부터 직접 추출할 수 있다.
서브세그먼트로부터의 특징량으로서 히스토그램을 추출하는 경우에는 영상 음성 처리 장치(10)는 서브세그먼트를 구성하는 영상에 있어서의 본래의 YUV 색 공간을, 색 채널당 2비트로 샘플하여 구성하였다, 길이 22·3= 64 차원의 히스토그램 벡터를 얻는다.
이러한 히스토그램은 영상의 전체적인 색조를 나타내지만, 이것에는 시간 정보가 포함되어 있지 않다. 그래서, 영상 음성 처리 장치(10)에서는 이미 1개의 영상 특징량으로서, 영상 상관을 계산할 수 있다. 복수의 유사 세그먼트가 서로 교차한 구조는 그것이 모여진 1개의 구조인 것이 유력한 지표가 된다. 예를 들면 회화 장면에 있어서, 카메라의 위치는 2명의 이야기하는 사람의 사이를 교대로 이동하지만, 카메라는 통상적으로, 동일의 이야기하는 사람을 두 번째 촬영할 때에는 거의 같은 위치로 되돌아간다. 이러한 경우에 있어서의 구조를 검출하기 위해서는 그레이 스켈 영상의 축소 화상에 의거한 상관이 서브세그먼트의 유사성이 양호한 지표가 되기 때문에, 영상 음성 처리 장치(10)는 원래의 영상을 M×N의 크기의 그레이 스켈 영상으로 솎아내어 축소하고, 이것을 사용하여 영상 상관을 계산한다. 여기서, M과 N은 양쪽 모두 작은 값으로 충분하고, 예를 들면 8×8이다. 즉, 이들의 축소 그레이 스켈 영상은 MN 차원의 특징량 벡터로서 해석된다.
또한, 상술한 영상 특징량과는 다른 특징량으로서는 음성에 관한 것을 들 수 있다. 이하에서는 상기 특징량을 음성 특징량이라고 칭하기로 한다. 음성 특징량이란, 음성 세그먼트의 내용을 나타낼 수 있는 특징량이다. 음성 특징량으로서는 예를 들면, 주파수 해석, 피치, 레벨을 들 수 있다. 이들의 음성 특징량은 여러가지의 문헌에 의해 알려져 있는 것이다.
우선, 음성 특징량으로서, 푸리에 변환 등의 주파수 해석을 행함으로써 얻어진, 단일의 음성 프레임에 있어서의 주파수 정보의 분포를 들 수 있다. 영상 음성 처리 장치(10)는 예를 들면, 1개의 음성 서브세그먼트에 걸친 주파수 정보의 분포를 나타내기 때문에, FFT(Fast Fourier Transform; 고속 푸리에 변환)성분, 주파수히스토그램, 파워 스펙트럼, 그 밖의 특징량을 사용할 수 있다.
또한, 영상 음성 처리 장치(10)는 평균 피치나 최대 피치와 같은 피치나, 평균 음량이나 최대 음량 등의 음성 레벨도 또한, 음성 서브세그먼트를 나타내는 유효한 음성 특징량으로서 사용할 수 있다.
또다른 특징량으로서는 영상 음성 공통 특징량을 들 수 있 다. 이것은 특히 영상 특징량도 아니고 음성 특징량도 아니지만, 영상 음성 처리 장치(10)에 있어서, 서브세그먼트의 특징을 나타내는 데 유용한 정보를 주는 것이다. 영상 음성 처리 장치(10)는 상기 영상 음성 공통 특징량으로서, 세그먼트 길이와 액티버티를 사용한다.
영상 음성 처리 장치(10)는 영상 음성 공통 특징량으로서, 세그먼트 길이를 사용할 수 있다. 상기 세그먼트 길이란, 세그먼트에 있어서의 시간 길이이다. 일반적으로, 신은 그 신 고유의 리듬 특징을 갖는다. 그의 리듬 특징은 신내의 세그먼트 길이의 변화로서 나타난다. 예를 들면, 신속하게 연속해 있는 짧은 세그먼트는 커머셜을 나타낸다. 한편, 회화 신에서의 세그먼트는 커머셜의 경우보다도 길게, 또한 회화 신에는 서로 조합된 세그먼트가 서로 유사하다는 특징이 있다. 영상 음성 처리 장치(10)는 이러한 특징을 갖는 세그먼트 길이를 영상 음성 공통 특징량으로서 사용할 수 있다.
또한, 영상 음성 처리 장치(10)는 영상 음성 공통 특징량으로서, 액티버티를 사용할 수 있다. 액티버티란, 세그먼트의 내용이 어느 정도 동적 혹은 정적이도록 느껴지는 가를 나타내는 지표이다. 예를 들면, 시각적으로 동적인 경우, 액티버티는 카메라가 대상물을 따라 신속하게 이동하는 정도 또는 촬영되어 있는 오브젝트가 신속하게 변화하는 정도를 나타낸다.
상기 액티버티는 컬러 히스토그램과 같은 특징량의 프레임간 비유사성의 평균치를 측정함으로써 간접적으로 계산된다. 여기서, 프레임(i)과 프레임(j) 사이에서 측정된 특징량(F)에 대한 비유사성 측정 기준을 dF(i, J)로 정의하면, 영상 액티버티(VF)는 다음식(l)과 같이 정의된다.
…(1)
식(1)에 있어서, b와 f는 각각, 1 세그먼트에 있어서의 최초와 최후의 프레임의 프레임 번호이다. 영상 음성 처리 장치(10)는 구체적으로는 예를 들면 상술한 히스토그램을 사용하여, 영상 액티버티(VF)를 계산한다.
영상 음성 처리 장치(10)는 이러한 특징량을 서브세그먼트로부터 추출하여 서로 유사한 서브세그먼트를 클러스터링·알고리즘에 의해 검출하여 그룹화한다.
또한, 2개의 서브세그먼트의 유사성을 측정하는 실수치를 산출하는 함수인 비유사성 측정 기준에 대해서는 후술한다.
다음에, 영상 음성 처리 장치(10)는 단계(S3)에 있어서, 서브세그먼트를 그룹화하여 얻은 유사 그룹 중에서, 시그너쳐의 대상 그룹을 선택한다. 여기서, 영상 음성 처리 장치(10)는 세그먼트가 정확한 특징 지음을 위해 필요하게 되는 r 세그먼트의 수를 결정할 때에, 각 그룹으로 분류된 서브세그먼트의 수를 고려한다.
구체적으로는 영상 음성 처리 장치(10)는 시그너쳐의 대상 그룹을 선택하기 위해서, 그룹 중에 존재하는 서브세그먼트의 개수에 대하여 임계치를 설정한다.
영상 음성 처리 장치(10)에 있어서는 통상적으로, 상기 임계치는 모든 서브세그먼트수에 대한, 혹은 그룹에 포함되는 서브세그먼트수의 비로서 주어진다. 즉, 영상 음성 처리 장치(10)는 얻어진 그룹 중, 그 요소 수가 임계치를 상회하는 그룹을, 시그너쳐의 대상 그룹으로 한다.
한편, 영상 음성 처리 장치(10)는 임의의 정수(k)를 r 세그먼트의 개수로서 설정할 수 있다. 이 경우에는 영상 음성 처리 장치(10)는 모든 그룹을, 그것이 포함하는 요소수의 순차로 나열하고, 요소수가 큰 순차로 k개의 그룹 만을 시그너쳐의 대상 그룹으로서 선택한다.
이렇게하여, 영상 음성 처리 장치(10)는 그룹 중에서, 시그너쳐의 대상 그룹 을 선택한다.
다음에, 영상 음성 처리 장치(10)는 단계(S4)에 있어서, r 세그먼트를 선택한다. 즉, 영상 음성 처리 장치(10)는 단계(S3)에서 선택된 각 그룹을 구성하는 서브세그먼트 중에서 1개의 서브세그먼트만을 선택하고, 그의 서브세그먼트를 r 세그먼트로서, 시그너쳐의 요소로 한다.
영상 음성 처리 장치(10)는 구체적으로는 각 그룹에서 임의의 서브세그먼트를 선택하여 갖을 수 있다. 또는 영상 음성 처리 장치(10)는 보다 세련된 어프로치로서, 각 그룹에서의 서브세그먼트의 평균치 또는 중앙치(median)에 대하여, 그것과 가장 유사한 서브세그먼트를 r 세그먼트로서 선택한다.
이렇게하여, 영상 음성 처리 장치(10)는 선택한 각 대상 그룹으로부터, r 세그먼트를 선택한다.
그리고, 영상 음성 처리 장치(10)는 단계(S5)에 있어서, r 세그먼트의 각각에 대한 무게를 산출한다. 영상 음성 처리 장치(10)는 무게를, 각 r 세그먼트가 대응하는 그룹이 포함하는 서브세그먼트 수의, 총수에 대한 비로서 설정한다.
영상 음성 처리 장치(10)는 이상과 같은 일련의 공정을 모든 세그먼트에 대하여 행함으로써, 각 세그먼트에 관한 시그네쳐를 추출한다.
이러한 일련의 처리를 보다 구체적으로 설명하기 위해서, 도 8에 도시한 어떤 신에 관한 쇼트 시그너쳐를 추출하는 예에 관해서 설명한다.
상기 신은 2명의 인물이 서로 회화하고 있는 장면을 나타내는 것으로, 2명의 인물의 양쪽을 나타내는 쇼트로부터 시작하여, 이후, 2명의 인물이 이야기하는 사람에 따라서 교대로 출현하는 쇼트가 계속되고 있다.
이러한 신의 경우, 영상 음성 처리 장치(10)는 도 7 중 단계(S11)에 있어서, 신을 서브세그먼트인 쇼트로 분할한다. 즉, 이 경우에는 영상 음성 처리 장치(10)는 쇼트 검출 방법을 사용하여, 도 8에 도시한 바와 같은 9개의 다른 서브세그먼트를 검출하여 분할한다.
다음에, 영상 음성 처리 장치(10)는 도 7 중 단계(S2)에 있어서, 서로 유사한 서브세그먼트를 분류하여 그룹화한다. 즉, 이 경우에는 영상 음성 처리 장치(10)는 쇼트의 시각적인 유사성에 근거하여, 도 8에 도시한 신에서의 2명의 인물의 양쪽을 나타내는 제 1 번째의 쇼트만을 요소로 하는 제 1 그룹과, 각 이야기하는 사람에 대한 4 쇼트씩을 정리한 제 2, 제 3 그룹의 3개의 그룹으로 분류한다.
또한, 영상 음성 처리 장치(10)는 도 7중 단계(S3)에 있어서, 신을 특징짓기기 위해서 필요한 그룹을 선택한다. 여기서는 도 8에 도시한 신에서의 제 1 그룹 내지 제 3 그룹 중 어느것이든 중요하기 때문에, 영상 음성 처리 장치(10)는 제 1 그룹 내지 제 3 그룹 모두를 쇼트 시그너쳐로 사용한 것을 결정한다.
또한, 영상 음성 처리 장치(10)는 도 7중 단계(S4)에 있어서, 각 그룹에서 1 쇼트를 r 세그먼트로서 선택한다. 여기서는 영상 음성 처리 장치(10)는 제 1 그룹 내지 제 3 그룹에서, 각각, 도 9에 도시한 3개의 쇼트를 r 세그먼트로서 선택한다.
그리고, 영상 음성 처리 장치(10)는 도 7 중 단계(S5)에 있어서, 제 1 그룹 내지 제 3 그룹의 각각에 대해서, 각 그룹에 포함되는 쇼트수의 비율에 따른 무게를 산출한다. 이 경우에는 도 8에 도시한 9개의 쇼트 중, 제 1 그룹이 1개의 쇼트를 요소로 하고, 제 2, 제 3 그룹이 각각 4개의 쇼트를 요소로 하는 것으로부터, 영상 음성 처리 장치(10)는 제 1 그룹 내지 제 3 그룹의 각각에 대해, l/9, 4/9, 4/9의 가중을 얻는다.
이렇게하여, 영상 음성 처리 장치(10)는 도 8에 도시한 신에 관한 시그너쳐로서, 도 9에 도시한 r 세그먼트와 무게를 얻는다.
다음에, 추출한 시그너쳐를 사용하여, 2개의 세그먼트의 유사성을 비교하는 방법에 관해서 설명한다. 구체적으로는 2개의 세그먼트의 유사성을, r 세그먼트에 의거한 시그너쳐의 유사성으로서 결정한다. 여기서, 실제로는 상술한 비유사성 측정 기준 혹은 유사성의 정도 측정 기준을 정의하는 것에 주의할 필요가 있다.
여기서는 P={(rp1, wp1),·· (rp1, wpm)}및 Q={(rq1, wq1),···,(rq1, wqn)}가, 각각의 시그너쳐인 것으로 한다. (r, w)의 표기는 상술한 바와 같이, r 세그먼트와, 그것에 부수하는 가중 함수를 나타낸 것이다. 또한, dR(r1, r2)를, 2개의 r 세그먼트에 대한 비유사성 측정 기준으로 한다.
우선, 여기서는 비유사성 측정 기준에 대해서 설명하기로 한다. 비유사성 측정 기준은 그의 값이 작은 경우는 2개의 세그먼트가 유사하고 있는 것을 나타내고, 값이 큰 경우는 비유사인 것을 나타낸다. 비유사성 측정 기준 dR(r1, r2)는 이하의 식(2)으로 주어지는 관계를 만족시킬 필요가 있다.
...(2)
그런데, 비유사성 측정 기준 중에는 어떤 특정한 특징량에만 적용 가능한 것도 있지만, "G. Ahanger and T. D. C. Litt1e, Asurvey of techno1ogies for parsing and indexing digita1 video, J. of Visua1 Communication and Image Representation 7:28­4,1996"이나 "L. Kaufman and P. J. Rousseeuw; Finding Groups in Data: An Introduction to C1uster Ana1ysis, John-Wi1ey and sons, 1990"에 기재되어 있는 바와 같이, 일반적으로는 많은 비유사성 측정 기준은 n 차원 공간에서의 점으로서 표시된다. 특징량에 대한 유사성을 측정하는 데 적용 가능하다. 그의 구체적인 예는 유클리드 거리, 내적(內積), L1 거리 등이다. 여기서, 특히 L1 거리가, 히스토그램이나 영상 상관 등의 특징량을 포함하는 여러가지의 특징량에 대하여 유효하게 작용하기 때문에, 영상 음성 처리 장치(10)는 Ll 거리를 도입한다. 여기서, 2개의 n 차원 벡터를 A, B로 한 경우, A, B 간의 Ll 거리 dL1(A, B)는 다음식(3)으로 주어진다.
…(3)
여기서, 하부 문자 i는 n 차원 벡터(A, B)의 각각의 i 번째의 요소를 나타내는 것이다.
비유사성 측정 기준으로서는 상술한 것 이 외에도, 몇개의 예가 공지되어 있지만, 여기서는 그들의 상세한 것은 생략한다. 영상 음성 처리 장치(10)는 상술한 CPU(11)에 의해서, 상술한 바와 같은 비유사성 측정 기준에 의해 나타내는 2개의 시그너쳐 간의 유사성을 측정하여, 이들의 2개의 시그너쳐의 대상 세그먼트의 유사성을, 그들의 r 세그먼트의 유사성에 근거하여, 이하 방법 중 어느 하나로 정의한다.
우선, 영상 음성 처리 장치(10)는 제 1 방법으로서, 다음식(4)으로 나타내는 가중 최소치를 사용하여, 2개의 시그너쳐 간의 거리를 산출한다.
…(4)
또한, 영상 음성 처리 장치(10)는 제 2 방법으로서, 다음식(5)으로 나타내는 가중 평균거리를 사용하여, 2개의 시그너쳐간의 거리를 산출한다.
...(5)
또한, 영상 음성 처리 장치(10)는 제 3 방법으로서, 다음식(6)으로 나타내는 가중 중앙치 거리를 사용하여, 2개의 시그너쳐 간의 거리를 산출한다.
...(6)
또한, 영상 음성 처리 장치(10)는 제 4 방법으로서, "Y. Rubner, C. Tomasi and L. J. Guibas, A Metric for Distributions with App1ications to Image Data bases, Proceedings of the 1998 IEEE Internationa1 Conference on Computer Vision, Bombay, India, January 1998"에 기재되어 있는 거리 계량법으로부터 응용하여, 정지 화상에 대한 컬러 쇼트 메세지의 경우에 사용한 다음식(7)으로 나타내는 어스·무버(Eartb Mover)의 거리를 사용하여, 2개의 시그너쳐간의 거리를 산출한다. 상기 방법에서는 m×n 코스트·매트릭스(C)를 정의한다. 여기서, Cij는 함수를 최소로 하는 값이다.
…(7)
또한, 상기 식(7)을 적용했을 때에는 다음식(8)으로 나타내는 제약 조건을 만족할 필요가 있다.
…(8)
영상 음성 처리 장치(10)는 "Y. Rubner, C. Tomasi and L. J. Gubas, A Metric for Distributions with App1ication to Image Databases, Proceedings of the 1998 IEEEI Iternationa1 Conference on Computer Vision, Bombay, India, January 1998"에 기재되어 있는 알고리즘을 사용함으로써, 식(8)으로 나타낸 바와 같은 제약 조건에 따라서, 식(7)으로 나타내는 함수를 최소로 하는 Cij의 값을 검출할 수 있다. 영상 음성 처리 장치(10)에 있어서는 2개의 시그너쳐 간의 거리의 값을 식(7)에 나타내는 함수의 최소치로 정의한다.
영상 음성 처리 장치(10)는 이러한 방법 중 어느 하나에 의해서, 2개의 세그먼트의 유사성을, r 세그먼트에 의거한 시그너쳐의 유사성으로서 구한다. 그리고, 영상 음성 처리 장치(10)는 근사적인 세그먼트간의 유사성에 근거하여, 세그먼트를 그룹화할 것인지의 여부를 결정한다.
이와 같이 함으로써, 영상 음성 처리 장치(10)는 프로그램과 프레임을 포함한 비디오 데이터에 있어서의 어떤 종합을 계층의 고저와는 무관하게 그룹화할 수 있다.
이상 설명한 바와 같이, 본 발명의 실시예로서 예시하는 영상 음성 처리 장치(10)는 비디오 데이터의 여러가지 계층에서의 시그너쳐를 자동적으로 추출함과 동시에, 2개의 시그너쳐의 유사성을 비교함으로써, 대응하는 세그먼트간의 유사성을 비교할 수 있는 것이다. 상기 영상 음성 처리 장치(10)는 비디오 데이터의 여러가지 계층에서의 세그먼트를 그룹화하는 것을 가능하게 하는 것으로서, 다른 형태의 비디오 데이터에도 적용할 수 있는 것이다. 이와 같이, 영상 음성 처리 장치(10)는 비디오 데이터의 임의의 구조를 자동적으로 탐색하여 추출하기 위한 범용의 툴이 될 수 있는 것이다.
또한, 본 발명은 상술한 실시예에 한정되는 것이 아니라, 예를 들면, 서로 유사한 서브세그먼트를 그룹화했을 때에 사용하는 특징량은 상술한 것 이외라도 가능함은 물론이다. 즉, 본 발명에 있어서는 어느 하나의 정보에 근거하여, 서로 관련하는 서브세그먼트를 그룹화할 수 있으면 된다.
또한, 기타, 본 발명의 취지를 일탈하지 않는 범위에서 적절히 변경이 가능함은 말할 필요도 없다.
이상 상세하게 설명한 바와 같이, 본 발명에 따른 신호 처리 방법은 공급된 신호를 구성하는 세그먼트에 포함되는 서브세그먼트 중, 세그먼트의 내용을 대표하는 서브세그먼트인 대표 세그먼트와, 상기 대표 세그먼트에 무게를 할당하는 가중 함수로 정의되는 시그너쳐를 추출하는 신호 처리 방법으로서, 서브세그먼트를 임의의 속성에 근거하여 분류하여 얻은 그룹 중, 시그너쳐의 대상으로 하는 그룹을 선택하는 그룹 선택 공정과, 상기 그룹 선택 공정에서 선택한 그룹에서, 1개의 대표 세그먼트를 선택하는 대표 세그먼트 선택 공정과, 상기 대표 세그먼트 선택 공정에서 얻은 대표 세그먼트에 대한 무게를 산출하는 무게 산출 공정을 구비한다.
따라서, 본 발명에 따른 신호 처리 방법은 세그먼트에 관한 시그너쳐를 추출할 수 있고, 상기 시그너쳐를 사용하여, 신호에 있어서의 세그먼트의 계층에 관계없이, 서로 다른 세그먼트간의 유사성을 비교할 수 있다. 따라서, 본 발명에 따른 신호 처리 방법은 여러가지의 신호에 있어서의 여러가지 계층의 세그먼트에 대하여, 유사성에 근거하여 소망의 내용을 가지는 세그먼트의 탐색을 행할 수 있다.
또한, 본 발명에 따른 영상 음성 처리 장치는 공급된 비디오 신호를 구성하는 영상 또는 음성 세그먼트에 포함되는 영상 또는 음성 서브세그먼트 중, 영상 또는 음성 세그먼트의 내용을 대표하는 영상 또는 음성 서브세그먼트인 대표 세그먼트와, 상기 대표 세그먼트에 무게를 할당하는 가중 함수로 정의되는 시그너쳐를 추출하는 영상 음성 처리 장치로서, 영상 또는 음성 서브세그먼트를 임의의 속성에 근거하여 분류하여 얻은 그룹 중, 시그너쳐의 대상으로 하는 그룹을 선택하고, 상기 선택한 그룹에서, 1개의 대표 세그먼트를 선택하여, 얻어진 대표 세그먼트에 대한 무게를 산출하는 실행 수단을 구비한다.
따라서, 본 발명에 따른 영상 음성 처리 장치는 영상 및/또는 음성 세그먼트에 관한 시그너쳐를 추출하는 것이 가능하고, 상기 시그너쳐를 사용하여, 비디오 신호에 있어서의 영상 및/또는 음성 세그먼트의 계층에 관계없이, 서로 다른 영상 또는 음성 세그먼트간의 유사성을 비교하는 것이 가능해진다. 따라서, 본 발명에 따른 영상 음성 처리 장치는 여러가지의 비디오 신호에 있어서의 여러가지 계층의 영상 및/또는 음성 세그먼트에 대하여, 유사성에 근거하여 소망의 내용을 가지는 영상 및/또는 음성 세그먼트의 탐색을 행할 수 있다.

Claims (17)

  1. 공급된 신호를 구성하는 세그먼트에 포함되는 서브세그먼트 중, 상기 세그먼트의 내용을 대표하는 서브세그먼트인 대표 세그먼트와, 상기 대표 세그먼트에 무게를 할당하는 가중 함수로 정의되는 시그너쳐를 추출하는 신호 처리 방법에 있어서,
    상기 서브세그먼트를 임의의 속성에 근거하여 분류하여 얻은 그룹 중, 상기 시그너쳐의 대상으로 하는 그룹을 선택하는 그룹 선택 공정과,
    상기 그룹 선택 공정에서 선택한 그룹에서, 1개의 대표 세그먼트를 선택하는 대표 세그먼트 선택 공정과,
    상기 대표 세그먼트 선택 공정에서 얻은 대표 세그먼트에 대한 무게를 산출하는 무게 산출 공정을 구비하는 것을 특징으로 하는 신호 처리 방법.
  2. 제 1 항에 있어서,
    서로 다른 세그먼트의 각 대표 세그먼트간의 유사성을 비교하여 얻은 비교 결과와, 상기 무게 산출 공정에 의해 산출한 각 대표 세그먼트에 부수하는 무게를 사용하여, 서로 다른 세그먼트간의 유사성을 비교하는 것을 특징으로 하는 신호 처리 방법.
  3. 제 1 항에 있어서,
    상기 세그먼트를 상기 대표 세그먼트의 후보가 되는 복수의 서브세그먼트로 분할하는 세그먼트 분할 공정과,
    상기 세그먼트 분할 공정에서 얻은 서브세그먼트 중, 상기 속성으로서 서로의 유사성에 근거하여, 상기 서브세그먼트를 분류하여 그룹화하는 그룹화 공정을 구비하며,
    상기 그룹 선택 공정에서는 상기 세그먼트 분할 공정 및 상기 그룹화 공정을 거쳐 얻은 그룹 중, 상기 시그너쳐의 대상으로 하기 위해서 임의의 그룹을 선택하는 것을 특징으로 하는 신호 처리 방법.
  4. 제 1 항에 있어서,
    상기 신호는 비디오 데이터의 영상 신호와 음성 신호 중 적어도 1개인 것을 특징으로 하는 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 무게 산출 공정에서는 대표 세그먼트가 대응하는 그룹에 포함되는 서브세그먼트의 총수에 근거하여, 상기 무게를 산출하는 것을 특징으로 하는 신호 처리 방법.
  6. 제 1 항에 있어서,
    상기 세그먼트는 상기 신호의 임의의 연속 부분인 것을 특징으로 하는 신호 처리 방법.
  7. 제 1 항에 있어서,
    상기 서브세그먼트는 상기 세그먼트에 포함되는 임의의 연속 부분인 것을 특징으로 하는 신호 처리 방법.
  8. 제 1 항에 있어서,
    상기 세그먼트는 상기 신호를 구성하는 연속한 프레임의 연속으로 형성되는 세그먼트 또는 시간적으로 연속하는 세그먼트로 이루어지는 신(scene)인 것을 특징으로 하는 신호 처리 방법.
  9. 제 1 항에 있어서,
    상기 세그먼트는 상기 신호를 구성하는 프레임 또는 상기 신호의 전체를 나타내는 프로그램인 것을 특징으로 하는 신호 처리 방법.
  10. 공급된 비디오 신호를 구성하는 영상 또는 음성 세그먼트에 포함되는 영상 또는 음성 서브세그먼트 중, 상기 영상 또는 음성 세그먼트의 내용을 대표하는 영상 또는 음성 서브세그먼트인 대표 세그먼트와, 상기 대표 세그먼트에 무게를 할당하는 가중 함수로 정의되는 시그너쳐를 추출하는 영상 음성 처리 장치에 있어서,
    상기 영상 또는 음성 서브세그먼트를 임의의 속성에 근거하여 분류하여 얻은 그룹 중, 상기 시그너쳐의 대상으로 하는 그룹을 선택하여, 상기 선택한 그룹에서, 1개의 대표 세그먼트를 선택하여, 얻어진 대표 세그먼트에 대한 무게를 산출하는 실행 수단을 구비하는 것을 특징으로 하는 영상 음성 처리 장치.
  11. 제 10 항에 있어서,
    상기 실행 수단은 서로 다른 영상 또는 음성 세그먼트의 각 대표 세그먼트간의 유사성을 비교하여 얻은 비교 결과와, 산출한 각 대표 세그먼트에 부수하는 무게를 사용하여, 서로 다른 영상 또는 음성 세그먼트간의 유사성을 비교하는 것을 특징으로 하는 영상 음성 처리 장치.
  12. 제 10 항에 있어서,
    상기 실행 수단은 상기 영상 또는 음성 세그먼트를, 상기 대표 세그먼트의 후보가 되는 복수의 영상 또는 음성 서브세그먼트로 분할하여, 상기 얻어진 영상 또는 음성 서브세그먼트 중, 상기 속성으로서 서로의 유사성에 근거하여, 상기 영상 또는 음성 서브세그먼트를 분류하여 그룹화하여, 얻어진 그룹 중, 상기 시그너쳐의 대상으로 하기 위해서 임의의 그룹을 선택하는 것을 특징으로 하는 영상 음성 처리 장치.
  13. 제 10 항에 있어서,
    상기 실행 수단은 대표 세그먼트가 대응하는 그룹에 포함되는 영상 및/또는 음성 서브세그먼트의 총수에 의거하여, 상기 무게를 산출하는 것을 특징으로 하는 영상 음성 처리 장치.
  14. 제 10 항에 있어서,
    상기 영상 또는 음성 세그먼트는 상기 비디오 신호의 임의의 연속부분인 것을 특징으로 하는 영상 음성 처리 장치.
  15. 제 10 항에 있어서,
    상기 영상 또는 음성 서브세그먼트는 상기 영상 또는 음성 세그먼트에 포함되는 임의의 연속 부분인 것을 특징으로 하는 영상 음성 처리 장치.
  16. 제 10 항에 있어서,
    상기 영상 또는 음성 세그먼트는 상기 비디오 신호를 구성하는 연속한 영상 또는 음성 프레임의 연속으로 형성되는 영상 또는 음성 세그먼트 또는, 시간적으로 연속하는 영상 또는 음성 세그먼트로 이루어진 신인 것을 특징으로 하는 영상 음성 처리 장치.
  17. 제 10 항에 있어서,
    상기 영상 또는 음성 세그먼트는, 상기 비디오 신호를 구성하는 영상 또는 음성 프레임 또는, 상기 비디오 신호의 전체를 나타내는 프로그램인 것을 특징으로 하는 영상 음성 처리 장치.
KR1020007011374A 1999-02-15 2000-02-10 신호 처리 방법 및 영상 음성 처리 장치 KR100737176B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP3633899 1999-02-15
JP99-36338 1999-02-15

Publications (2)

Publication Number Publication Date
KR20010042672A true KR20010042672A (ko) 2001-05-25
KR100737176B1 KR100737176B1 (ko) 2007-07-10

Family

ID=12467056

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007011374A KR100737176B1 (ko) 1999-02-15 2000-02-10 신호 처리 방법 및 영상 음성 처리 장치

Country Status (4)

Country Link
US (1) US6710822B1 (ko)
EP (1) EP1073272B1 (ko)
KR (1) KR100737176B1 (ko)
WO (1) WO2000048397A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101421984B1 (ko) * 2012-10-16 2014-07-28 목포해양대학교 산학협력단 깊이정보의 시간적 필터링 기반 디지털 홀로그램의 고속 생성 방법

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60045699D1 (de) * 1999-01-29 2011-04-21 Sony Corp Daten-beschreibungs-verfahren und daten-bearbeitung-vorrichtung
WO2002021529A1 (en) * 2000-09-08 2002-03-14 Koninklijke Philips Electronics N.V. An apparatus for reproducing an information signal stored on a storage medium
JP2002117407A (ja) * 2000-10-10 2002-04-19 Satake Corp 動画像検索方法及びその装置
US7031980B2 (en) * 2000-11-02 2006-04-18 Hewlett-Packard Development Company, L.P. Music similarity function based on signal analysis
US20020108112A1 (en) * 2001-02-02 2002-08-08 Ensequence, Inc. System and method for thematically analyzing and annotating an audio-visual sequence
KR100438269B1 (ko) * 2001-03-23 2004-07-02 엘지전자 주식회사 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
US8479238B2 (en) 2001-05-14 2013-07-02 At&T Intellectual Property Ii, L.P. Method for content-based non-linear control of multimedia playback
US20030033602A1 (en) * 2001-08-08 2003-02-13 Simon Gibbs Method and apparatus for automatic tagging and caching of highlights
US7091989B2 (en) * 2001-08-10 2006-08-15 Sony Corporation System and method for data assisted chroma-keying
US7319991B2 (en) * 2001-12-11 2008-01-15 International Business Machines Corporation Computerized cost estimate system and method
JP4047264B2 (ja) * 2003-09-30 2008-02-13 株式会社東芝 動画像処理装置、動画像処理方法および動画像処理プログラム
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
EP1531456B1 (en) * 2003-11-12 2008-03-12 Sony Deutschland GmbH Apparatus and method for automatic dissection of segmented audio signals
US7818444B2 (en) 2004-04-30 2010-10-19 Move Networks, Inc. Apparatus, system, and method for multi-bitrate content streaming
US20070258009A1 (en) * 2004-09-30 2007-11-08 Pioneer Corporation Image Processing Device, Image Processing Method, and Image Processing Program
US11216498B2 (en) * 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US7602976B2 (en) * 2006-02-17 2009-10-13 Sony Corporation Compressible earth mover's distance
US20070204238A1 (en) * 2006-02-27 2007-08-30 Microsoft Corporation Smart Video Presentation
US7577684B2 (en) * 2006-04-04 2009-08-18 Sony Corporation Fast generalized 2-Dimensional heap for Hausdorff and earth mover's distance
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
EP1959449A1 (en) 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
EP2136358A4 (en) * 2007-03-16 2011-01-19 Panasonic Corp LANGUAGE ANALYSIS DEVICE, LANGUAGE ANALYSIS PROCEDURE, LANGUAGE ANALYSIS PROGRAM AND SYSTEM INTEGRATION CIRCUIT
WO2008117232A2 (en) * 2007-03-27 2008-10-02 Koninklijke Philips Electronics N.V. Apparatus for creating a multimedia file list
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
US8195038B2 (en) * 2008-10-24 2012-06-05 At&T Intellectual Property I, L.P. Brief and high-interest video summary generation
JP5626221B2 (ja) * 2009-11-19 2014-11-19 日本電気株式会社 音響画像区間分類装置および方法
JP2012060238A (ja) * 2010-09-06 2012-03-22 Sony Corp 動画像処理装置、動画像処理方法およびプログラム
CN102591892A (zh) * 2011-01-13 2012-07-18 索尼公司 数据分段设备和方法
TW201236470A (en) * 2011-02-17 2012-09-01 Acer Inc Method for transmitting internet packets and system using the same
CN105355214A (zh) 2011-08-19 2016-02-24 杜比实验室特许公司 测量相似度的方法和设备
TWI462576B (zh) * 2011-11-25 2014-11-21 Novatek Microelectronics Corp 固定圖案的邊緣偵測方法與電路
US8737745B2 (en) * 2012-03-27 2014-05-27 The Nielsen Company (Us), Llc Scene-based people metering for audience measurement
US9185456B2 (en) 2012-03-27 2015-11-10 The Nielsen Company (Us), Llc Hybrid active and passive people metering for audience measurement
WO2013157190A1 (ja) * 2012-04-20 2013-10-24 パナソニック株式会社 音声処理装置、音声処理方法、プログラムおよび集積回路
FR3004054A1 (fr) * 2013-03-26 2014-10-03 France Telecom Generation et restitution d'un flux representatif d'un contenu audiovisuel
US9396256B2 (en) * 2013-12-13 2016-07-19 International Business Machines Corporation Pattern based audio searching method and system
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
WO2017087003A1 (en) * 2015-11-20 2017-05-26 Hewlett Packard Enterprise Development Lp Segments of data entries
CN107888843A (zh) * 2017-10-13 2018-04-06 深圳市迅雷网络技术有限公司 用户原创内容的混音方法、装置、存储介质及终端设备
US11315585B2 (en) * 2019-05-22 2022-04-26 Spotify Ab Determining musical style using a variational autoencoder
US11355137B2 (en) 2019-10-08 2022-06-07 Spotify Ab Systems and methods for jointly estimating sound sources and frequencies from audio
US11366851B2 (en) 2019-12-18 2022-06-21 Spotify Ab Karaoke query processing system

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3329408B2 (ja) 1993-12-27 2002-09-30 日本電信電話株式会社 動画像処理方法および装置
US5664227A (en) * 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
JPH08181995A (ja) 1994-12-21 1996-07-12 Matsushita Electric Ind Co Ltd 動画像符号化装置および動画像復号化装置
EP0711078B1 (en) * 1994-11-04 2002-05-15 Matsushita Electric Industrial Co., Ltd. Picture coding apparatus and method
US5805733A (en) * 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
US5870754A (en) * 1996-04-25 1999-02-09 Philips Electronics North America Corporation Video retrieval of MPEG compressed sequences using DC and motion signatures
US5872564A (en) * 1996-08-07 1999-02-16 Adobe Systems Incorporated Controlling time in digital compositions
JPH10257436A (ja) * 1997-03-10 1998-09-25 Atsushi Matsushita 動画像の自動階層構造化方法及びこれを用いたブラウジング方法
US6195458B1 (en) * 1997-07-29 2001-02-27 Eastman Kodak Company Method for content-based temporal segmentation of video
JPH11103441A (ja) * 1997-09-26 1999-04-13 Matsushita Electric Ind Co Ltd クリップ表示方法とその表示装置
US6373979B1 (en) * 1999-01-29 2002-04-16 Lg Electronics, Inc. System and method for determining a level of similarity among more than one image and a segmented data structure for enabling such determination
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101421984B1 (ko) * 2012-10-16 2014-07-28 목포해양대학교 산학협력단 깊이정보의 시간적 필터링 기반 디지털 홀로그램의 고속 생성 방법

Also Published As

Publication number Publication date
EP1073272A1 (en) 2001-01-31
EP1073272A4 (en) 2004-10-06
US6710822B1 (en) 2004-03-23
KR100737176B1 (ko) 2007-07-10
EP1073272B1 (en) 2011-09-07
WO2000048397A1 (fr) 2000-08-17

Similar Documents

Publication Publication Date Title
KR100737176B1 (ko) 신호 처리 방법 및 영상 음성 처리 장치
Hannane et al. An efficient method for video shot boundary detection and keyframe extraction using SIFT-point distribution histogram
US6741655B1 (en) Algorithms and system for object-oriented content-based video search
EP1081960B1 (en) Signal processing method and video/voice processing device
JP3568117B2 (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
US6751354B2 (en) Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
JP4201454B2 (ja) 動画要約生成方法及び動画要約生成装置
US20120148149A1 (en) Video key frame extraction using sparse representation
JP2009095013A (ja) ビデオ要約システムおよびビデオ要約のためのコンピュータプログラム
US20120148157A1 (en) Video key-frame extraction using bi-level sparsity
JP3948249B2 (ja) 類似性判定装置及び類似性判定方法並びにプログラム
JP2006172437A (ja) データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
US6996171B1 (en) Data describing method and data processor
Omidyeganeh et al. Video keyframe analysis using a segment-based statistical metric in a visually sensitive parametric space
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
Panchal et al. Scene detection and retrieval of video using motion vector and occurrence rate of shot boundaries
Zhu et al. Video scene segmentation and semantic representation using a novel scheme
EP1008064A1 (en) Algorithms and system for object-oriented content-based video search
JP2000285242A (ja) 信号処理方法及び映像音声処理装置
JP4995770B2 (ja) 画像辞書生成装置,画像辞書生成方法,および画像辞書生成プログラム
JP4224917B2 (ja) 信号処理方法及び映像音声処理装置
Mervitz et al. Comparison of early and late fusion techniques for movie trailer genre labelling
EP1237374A1 (en) A method for extracting video objects from a video clip
Zhu et al. A novel scheme for video scenes segmentation and semantic representation
Luo Concept-based large-scale video database browsing and retrieval via visualization

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120625

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee