KR101086810B1 - 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법 - Google Patents

자막이 입혀진 동영상을 검출하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR101086810B1
KR101086810B1 KR1020100009451A KR20100009451A KR101086810B1 KR 101086810 B1 KR101086810 B1 KR 101086810B1 KR 1020100009451 A KR1020100009451 A KR 1020100009451A KR 20100009451 A KR20100009451 A KR 20100009451A KR 101086810 B1 KR101086810 B1 KR 101086810B1
Authority
KR
South Korea
Prior art keywords
caption
video
image frame
frame
audio
Prior art date
Application number
KR1020100009451A
Other languages
English (en)
Other versions
KR20110089935A (ko
Inventor
정동석
조주희
진주경
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020100009451A priority Critical patent/KR101086810B1/ko
Publication of KR20110089935A publication Critical patent/KR20110089935A/ko
Application granted granted Critical
Publication of KR101086810B1 publication Critical patent/KR101086810B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/59Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 동영상을 오디오 신호와 영상 신호로 분리하는 신호 분리 모듈, 상기 분리된 오디오 신호를 오디오 프레임으로 분할하고, 각 오디오 프레임의 음성 에너지를 구하여 자막 검출을 위한 후보 구간을 결정하는 후보 구간 검출 모듈, 상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하여 에지 성분을 구하고, 라인 스캐닝을 통해 각 라인별 에지 성분 총량을 구하여 자막이 입혀진 영상 프레임을 판별하는 자막 프레임 검출 모듈, 상기 자막 프레임 검출 모듈에서의 판별 결과에 따라 영상 프레임별 자막 유무를 기록하여 자막 시퀀스 바이너리 맵을 생성하는 시퀀스 인덱싱 모듈로 구성되어, 대용량 데이터베이스로부터 자막이 입혀진 동영상을 자동적으로 선별하므로, 콘텐츠 공급자의 편의성과 사용자의 만족도를 높일 수 있다.

Description

자막이 입혀진 동영상을 검출하기 위한 장치 및 방법{System and Method for detecting caption overlaid video}
본 발명은 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법에 관한 것으로, 더욱 상세하게는 동영상을 오디오 신호와 영상 신호로 분리한 후, 상기 오디오 신호의 음성 에너지를 구하여 자막 검출을 위한 후보 구간을 결정하고, 상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하여 에지 성분을 구하고, 라인 스캐닝을 통해 자막이 입혀진 영상 프레임을 판별하고, 그 판별 결과에 따라 자막 시퀀스 바이너리 맵을 생성하여 자막이 입혀진 동영상을 판별하는 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법에 관한 것이다.
오늘날 전세계적으로 방대한 양의 동영상이 만들어지며 여러 사람들에게 공유되고 있다. 이에 발맞추어 동영상 콘텐츠 제공 서비스의 질 또한 하루가 다르게 발전하고 있으며, 개인 맞춤형 서비스에 대한 사용자의 욕구도 점차 커지고 있다.
또한, 멀티미디어 콘텐츠를 찾는 사람들은 자신이 원하는 콘텐츠를 좀더 쉽고 빠르게 찾고 싶어한다. 이러한 사용자 욕구를 반영하기 위한 동영상 검색 서비스는 다양하게 제공되고 있다.
동영상 콘텐츠를 공유하기 위한 공간적 제약성이 적어짐에 따라 웹 서비스를 통해 다른 나라에서 제작된 동영상들을 빠르게 접할 수 있게 되었다.
사용자는 외화 시리즈 물 제목과 같은 키워드를 입력하면, 서비스 제공자로부터 관련 동영상들의 리스트와 동영상으로의 링크를 제공받게 된다. 이와 동시에 사용자는 보고자 선택한 에피소드의 자막을 같이 검색하거나 동영상 자체에 관련 자막이 입혀진 에피소드를 검색 결과 리스트로부터 찾아낼 수 있다.
그러나 자막이 입혀진 동영상인지 아닌지를 판별하기 위해서는 해당 동영상을 일일이 재생해야 하는 불편함이 있었다.
따라서, 매일 새로운 동영상이 추가/삭제되는 대용량의 동영상 데이터베이스에서 자막이 입혀진 동영상을 자동으로 판별할 수 있는 기능이 요구되고 있는 실정이다.
본 발명의 목적은 자막이 입혀진 동영상을 대용량 데이터베이스 내에서 구분해 낼 수 있는 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 1차원 키워드 중심의 동영상 검색 방법을 통해 사용자 맞춤형 동영상 검색 서비스를 지원할 수 있도록 대용량 데이터베이스로부터 자막이 입혀진 동영상을 자동적으로 선별하는 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법을 제공하는데 있다.
또한, 사용자가 동영상을 검색하고자 키워드를 입력함과 동시에 동영상 리스트에 자막의 존재 여부가 표시되는 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명에 따르면, 동영상을 오디오 신호와 영상 신호로 분리하는 신호 분리 모듈, 상기 분리된 오디오 신호를 오디오 프레임으로 분할하고, 각 오디오 프레임의 음성 에너지를 구하여 자막 검출을 위한 후보 구간을 결정하는 후보 구간 검출 모듈, 상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하여 에지 성분을 구하고, 라인 스캐닝을 통해 각 라인별 에지 성분 총량을 구하여 자막이 입혀진 영상 프레임을 판별하는 자막 프레임 검출 모듈, 상기 자막 프레임 검출 모듈에서의 판별 결과에 따라 영상 프레임별 자막 유무를 기록하여 자막 시퀀스 바이너리 맵을 생성하는 시퀀스 인덱싱 모듈을 포함하는 자막이 입혀진 동영상을 검출하기 위한 장치가 제공된다.
또한, 상기 생성된 자막 시퀀스 바이너리 맵에서 자막 존재 표시의 밀도와 분포를 이용하여 자막이 입혀진 동영상을 판별하는 자막 동영상 판별 모듈을 더 포함하여 구성할 수 있다.
상기 후보 구간 검출 모듈은, 상기 오디오 신호를 일정 간격으로 분할하여 복수의 오디오 프레임을 생성하는 오디오 신호 분할부, 상기 생성된 각 오디오 프레임의 음성 에너지를 구하고, 일정한 윈도우 사이즈 내에 있는 오디오 프레임의 평균 에너지를 구하는 음성 에너지 계산부, 상기 구해진 평균 에너지를 평균과 분산을 이용하여 정규화하는 정규화부, 상기 정규화된 평균 에너지가 미리 정해진 제1 임계치 이상인 오디오 프레임의 개수를 확인하여, 그 개수가 일정 개수 이상인 경우 해당 구간을 후보 구간으로 결정하는 후보 구간 결정부를 포함한다.
상기 음성 에너지 계산부는
Figure 112010007099796-pat00001
를 이용하여 음성 에너지(Em)를 구하되, Na 윈도우 사이즈, x(n)은 n번째 오디오 샘플을 말한다.
상기 윈도우 사이즈는 오디오 프레임의 샘플 수보다 크게 두어 연속하는 두 개의 오디오 프레임이 중첩되도록 구성한다.
상기 정규화부는 상기 음성 에너지, 초당 오디오 프레임의 개수, 오디오 신호의 초단위 길이를 이용하여 평균과 분산을 구하고, 상기 구해진 평균과 분산을 이용하여 정규화한다.
상기 자막 프레임 검출 모듈은 상기 후보 구간 검출 모듈에서 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하는 디코딩부, 상기 디코딩된 영상 프레임을 흑백으로 변환하며 그 사이즈를 정규화하는 영상 프레임 정규화부, 상기 정규화된 영상 프레임에 대해 현재 픽셀과 인접 픽셀과의 차를 이용하여 에지 성분을 구하는 에지 성분 결정부, 상기 영상 프레임에 대해 가로축 방향으로 라인 스캐닝을 수행하여 각 라인별 에지 성분 총량을 구하는 라인 스캐닝부, 상기 영상 프레임을 세로축 방향으로 탐색하여 에지 성분 총량이 제2 임계치를 초과하는 라인의 개수가 일정 개수 이상이면, 자막이 입혀진 영상 프레임으로 판별하는 자막 프레임 판별부를 포함한다.
상기 라인 스캐닝부는 각 라인에 있는 에지 성분에 현재 픽셀과 인접 픽셀간의 거리에 따른 가중치를 적용하여 에지 성분 총량을 구한다.
또한, 본 발명에 따르면, (a)동영상을 오디오 신호와 영상 신호로 분리하는 단계, (b)상기 분리된 오디오 신호를 오디오 프레임으로 분할하고, 각 오디오 프레임의 음성 에너지를 구하여 자막 검출을 위한 후보 구간을 결정하는 단계, (c)상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하여 에지 성분을 구하고, 라인 스캐닝을 통해 자막이 입혀진 영상 프레임을 판별하는 단계, 상기 판별 결과에 따라 영상 프레임별 자막 유무를 기록하여 자막 시퀀스 바이너리 맵을 생성하는 단계를 포함하는 자막이 입혀진 동영상을 검출하기 위한 방법이 제공된다.
상기 방법은 상기 생성된 자막 시퀀스 바이너리 맵에서 자막 존재 표시의 밀도와 분포를 이용하여 자막이 입혀진 동영상을 판별하는 단계를 더 포함할 수도 있다.
상기 (b)단계는, 상기 오디오 신호를 일정 간격으로 분할하여 복수의 오디오 프레임을 생성하는 단계, 상기 생성된 각 오디오 프레임의 음성 에너지를 구하고, 일정한 윈도우 사이즈 내에 있는 오디오 프레임의 평균 에너지를 구하는 단계, 상기 구해진 평균 에너지를 평균과 분산을 이용하여 정규화하는 단계, 상기 정규화된 평균 에너지가 제1 임계치 이상인 오디오 프레임의 개수를 확인하여, 그 개수가 일정 개수 이상인 경우 해당 구간을 후보 구간으로 결정하는 단계를 포함한다.
상기 (c)단계는, 상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하는 단계, 상기 디코딩된 영상 프레임을 흑백으로 변환하며 그 사이즈를 정규화하는 단계, 상기 정규화된 영상 프레임에 대해 현재 픽셀과 인접 픽셀과의 차를 이용하여 에지 성분을 구하는 단계, 상기 영상 프레임에 대해 가로축 방향으로 라인 스캐닝을 수행하여 각 라인별 에지 성분 총량을 구하는 단계, 상기 영상 프레임을 세로축 방향으로 탐색하여 에지 성분 총량이 제2 임계치를 초과하는 라인의 개수가 일정 개수 이상이면, 자막이 입혀진 영상 프레임으로 판별하는 단계를 포함한다.
상술한 바와 같이 본 발명에 따르면, 대용량 데이터베이스로부터 자막이 입혀진 동영상을 분류해 냄으로써 콘텐츠를 보유하고 있는 서비스 공급자가 좀더 편하게 사용자 맞춤형 서비스를 제공해 줄 수 있다.
또한, 1차원 키워드 중심의 동영상 검색 방법을 통해 사용자 맞춤형 동영상 검색 서비스를 지원할 수 있도록 대용량 데이터베이스로부터 자막이 입혀진 동영상을 자동적으로 선별하므로, 콘텐츠 공급자의 편의성과 사용자의 만족도를 높일 수 있다.
또한, 사용자가 동영상을 검색하고자 키워드를 입력함과 동시에 동영상 리스트에 자막의 존재 여부가 표시되므로, 사용자는 좀 더 편하게 보고 싶은 동영상을 찾아볼 수 있다.
도 1은 본 발명에 따른 자막이 입혀진 동영상을 검출하기 위한 장치의 구성을 개략적으로 나타낸 블럭도.
도 2는 도 1에 도시된 후보 구간 검출 모듈의 구성을 구체적으로 나타낸 블럭도.
도 3은 도 1에 도시된 자막 프레임 검출 모듈의 구성을 구체적으로 나타낸 블럭도.
도 4는 본 발명에 따른 자막이 입혀진 동영상을 검출하기 위한 방법을 나타낸 흐름도.
도 5는 본 발명에 따른 자막 동영상 검출 장치가 자막 검출을 위한 후보 구간을 검출하는 방법을 나타낸 흐름도.
도 6은 본 발명에 따른 자막 동영상 검출 장치가 자막이 입혀진 영상 프레임을 검출하는 방법을 나타낸 흐름도.
도 7은 본 발명에 따른 라인 스캐닝 방법을 설명하기 위한 예시도.
도 8은 본 발명에 따른 시퀀스 인덱싱 방법을 설명하기 위한 예시도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1은 본 발명에 따른 자막이 입혀진 동영상을 검출하기 위한 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 1을 참조하면, 자막이 입혀진 동영상을 검출하기 위한 장치는 동영상을 오디오 신호와 영상 신호로 분리하는 신호 분리 모듈(100), 상기 오디오 신호에서 음성이 존재하는 구간을 자막 검출을 위한 후보 구간으로 결정하는 후보 구간 검출 모듈(110), 상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하여 자막이 입혀진 영상 프레임을 검출하는 자막 프레임 검출 모듈(120), 상기 판별 결과에 따라 영상 프레임별 자막 유무를 기록하여 자막 시퀀스 바이너리 맵을 생성하는 시퀀스 인덱싱 모듈(130)을 포함한다.
상기 후보 구간 검출 모듈(110)은 상기 오디오 신호를 일정 간격으로 분할하여 복수의 오디오 프레임을 생성하고, 각 오디오 프레임의 음성 에너지를 구하여 정규화한다. 그런 다음 상기 후보 구간 검출 모듈(110)은 상기 정규화된 평균 음성 에너지가 임계치 이상인 오디오 프레임의 개수를 확인하고, 그 개수가 일정 개수 이상인 경우 해당 구간을 후보 구간으로 결정한다. 상기 후보 구간 검출 모듈(110)에 대한 상세한 설명은 도 2를 참조하기로 한다.
상기 자막 프레임 검출 모듈(120)은 상기 후보 구간 검출 모듈(110)에서 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하여 에지 성분을 구하고, 라인 스캐닝(line scanning)을 통해 각 라인별 에지 성분 총량을 구하여 자막이 입혀진 영상 프레임을 판별한다. 상기 자막 프레임 검출 모듈(120)에 대한 상세한 설명은 도 3을 참조하기로 한다.
상기 시퀀스 인덱싱 모듈(130)은 상기 자막 프레임 검출 모듈의 판정 결과를 입력받아 영상 프레임의 자막 존재 여부를 순차적으로 기록한 자막 시퀀스 바이너리 맵(SC)을 생성한다. 즉, 상기 시퀀스 인덱싱 모듈(130)은 자막이 존재하는 영상 프레임인 경우 1(참)로 표시하고, 자막이 존재하지 않은 경우 0(거짓)으로 표시하여, 도 8과 같이 자막 존재 여부에 따라 1과 0이 순차적으로 기록된 자막 시퀀스 바이너리 맵을 생성한다.
상기 자막이 입혀진 동영상을 검출하기 위한 장치는 상기 시퀀스 인덱싱 모듈(130)에서 생성된 자막 시퀀스 바이너리 맵을 통해 최종적으로 자막이 입혀진 동영상을 판별하는 자막 동영상 판별 모듈(140)을 더 포함하여 구성할 수 있다.
상기 자막 동영상 판별 모듈(140)은 상기 자막 시퀀스 바이너리 맵에서 자막 존재 표시가 임계치 이상인 경우 해당 동영상을 자막이 입혀진 동영상으로 판별한다. 즉, 상기 자막 동영상 판별 모듈(140)은 참(1)과 거짓(0)로 표시된 자막 시퀀스 바이너리 맵에서 참(1)의 분포와 밀도를 비교하여 최종적으로 동영상 내 자막의 유무를 판별하게 된다.
예를 들어, 상기 자막 시퀀스 바이너리 맵을 분석한 결과 참이 거짓보다 일정 비율 더 많고 참의 분포가 몰려 있으면, 해당 동영상을 자막이 입혀진 동영상으로 판별할 수 있다.
도 2는 도 1에 도시된 후보 구간 검출 모듈의 구성을 구체적으로 나타낸 블럭도이다.
도 2를 참조하면, 후보 구간 검출 모듈(110)은 오디오 신호 분할부(112), 음성 에너지 계산부(114), 정규화부(116), 후보 구간 결정부(118)를 포함한다.
상기 오디오 신호 분할부(112)는 상기 오디오 신호를 일정 간격으로 분할하여 복수의 오디오 프레임을 생성한다. 즉, 상기 오디오 신호 분할부(112)는 상기 오디오 신호를 초당 M frame per second(fps)로 분할하여 오디오 프레임을 생성한다. 예를 들어 동영상의 오디오 신호가 16KHz로 샘플링된 경우 100fps라 하면 160개의 샘플이 하나의 오디오 프레임이 된다.
상기 음성 에너지 계산부(114)는 상기 오디오 신호 분할부(112)에서 생성된 각 오디오 프레임의 음성 에너지를 구하고, 일정한 윈도우 사이즈 내에 있는 오디오 프레임에 대한 평균 에너지를 구한다. 이때, 윈도우 사이즈는 오디오 프레임의 샘플 수보다 크게 두어 연속하는 두 개의 프레임이 중첩이 되도록 구성한다.
예를 들어, 16KHz 오디오를 100fps로 분할한 경우 윈도우 사이즈를 256으로 두는 것과 같다. 윈도우 내 평균 에너지(Em)를 구하는 수식은 수학식 1과 같다.
Figure 112010007099796-pat00002
여기서, 상기 Na는 윈도우 사이즈, x(n)은 n번째 오디오 샘플을 나타낸다.
상기 정규화부(116)는 상기 음성 에너지 계산부(114)에서 구해진 평균 에너지, 초당 오디오 프레임의 개수, 오디오 신호의 초단위 길이를 이용하여 평균과 분산을 구하고, 상기 구해진 평균과 분산을 이용하여 상기 평균 에너지를 정규화한다. 즉, 상기 정규화부(116)는 상기 구해진 각 프레임의 평균 에너지들을 Ta초 만큼의 구간에 대해 정규화해주는 작업을 수행한다.
상기 후보 구간 결정부(118)는 상기 정규화된 평균 음성 에너지가 임계치 이상인 오디오 프레임의 개수를 확인하고, 그 개수가 일정 개수 이상인 경우 해당 구간을 후보 구간으로 결정한다. 즉, 상기 후보 구간 결정부(118)는 상기 정규화된 평균 오디오 프레임 에너지를 입력으로 영상 프레임 디코딩을 위한 후보 구간을 결정하게 된다. 이는 음성신호가 활성화된 구간의 영상 프레임을 디코딩하여 자막을 검출함으로써 자막이 존재할 가능성이 높은 구간에 대해서만 자막 판별을 수행하기 위함이다.
도 3은 도 1에 도시된 자막 프레임 검출 모듈의 구성을 구체적으로 나타낸 블럭도이다.
도 3을 참조하면, 상기 자막 프레임 검출 모듈(120)은 디코딩부(121), 영상 프레임 정규화부(122), 에지 성분 결정부(123), 라인 스캐닝부(124), 자막 프레임 판별부(125)를 포함한다.
상기 디코딩부(121)는 후보 구간 검출 모듈에서 검출된 후보 구간에 해당하는 영상 프레임을 디코딩한다. 즉, 상기 디코딩부(121)는 상기 후보 구간 검출 모듈에서 결정된 후보 구간에 대해 자막을 검출하기 위해 영상 프레임 시퀀스를 Ds초 단위로 샘플링하여 디코딩을 수행한다.
예를들어 30fps(frame per second) 영상의 경우 Ds를 1초로 한다면, 영상 프레임 시퀀스 30장당 1장씩 디코딩을 수행하는 것과 같다.
상기 영상 프레임 정규화부(122)는 상기 디코딩부(121)에서 디코딩된 영상 프레임을 흑백으로 변환하며 그 사이즈를 정규화한다. 즉, 상기 영상 프레임 정규화부(122)는 컬러 영상 프레임을 흑백 영상 프레임으로 변환함과 동시에 가로 길이 Wt, 세로 길이 Ht를 갖는 영상으로 크기를 정규화한다.
상기 에지 성분 결정부(123)는 상기 정규화된 영상 프레임에 대해 현재 픽셀과 인접 픽셀과의 차를 구하고, 상기 구해진 차가 일정값 이상인 픽셀을 에지 성분이라고 결정한다.
상기 라인 스캐닝부(124)는 상기 영상 프레임에 대해 가로축 방향으로 라인 스캐닝을 수행하여 각 라인별 에지 성분 총량을 구한다. 즉, 상기 라인 스캐닝부(124)는 각 라인에 있는 에지 성분에 현재 픽셀과 인접 픽셀간의 거리에 따른 가중치를 적용하여 에지 성분 총량을 구한다. 상기 에지 성분 총량(
Figure 112010007099796-pat00003
)을 구하는 식은 다음과 같다.
Figure 112010007099796-pat00004
여기서, 상기 w(d)는 현재 픽셀과 인접 픽셀간의 거리에 따른 가중치를 말하고,
Figure 112010007099796-pat00005
는 픽셀을 나타낸 것으로 에지 성분인 경우 1, 에지 성분이 아닌 경우 0의 값을 가진다. 상기 가중치는 거리가 가까울수록 큰 값을 부여하는 형태일 수 있다.
상기 라인 스캐닝부(124)는 상기 영상 프레임의 에지로부터 영상 프레임 상의 자막 영역을 검출하기 위해 영상 프레임 내에서 높이 j를 갖는 가로축의 한 라인에서의 에지 성분 총량(sj )을 계산한다. 이는 가로축 방향의 라인 탐색을 수행함으로써 구하게 된다.
상기 자막 프레임 판별부(125)는 상기 영상 프레임을 세로축 방향으로 탐색하여, 에지 성분 총량이 임계치를 초과하는 라인의 개수가 일정 개수 이상이면, 자막이 입혀진 영상 프레임으로 판별한다.
도 4는 본 발명에 따른 자막이 입혀진 동영상을 검출하기 위한 방법을 나타낸 흐름도이다.
도 4를 참조하면, 자막이 입혀진 동영상을 검출하기 위한 장치(이하에서는, 자막 동영상 검출 장치라고 칭하기로 함)는 동영상을 오디오 신호와 영상 신호로 분리한다(S400).
그런 다음 상기 자막 동영상 검출 장치는 상기 분리된 오디오 신호를 오디오 프레임으로 분할하고, 각 오디오 프레임의 음성 에너지를 구하여 자막 검출을 위한 후보 구간을 결정한다(S402). 즉, 상기 자막 동영상 검출 장치는 상기 분리된 오디오 신호로부터 음성 존재 여부를 판단하여 음성이 존재하는 구간을 자막 검출을 위한 후보 구간으로 결정한다. 상기 자막 검출을 위한 후보 구간을 결정하는 방법에 대한 상세한 설명은 도 5를 참조하기로 한다.
상기 S402의 수행 후, 상기 자막 동영상 검출 장치는 상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하여 에지 성분을 구하고, 라인 스캐닝을 통해 자막이 입혀진 영상 프레임을 판별한다(S404).
상기 자막이 입혀진 영상 프레임을 판별하는 방법에 대한 상세한 설명은 도 6을 참조하기로 한다.
상기 S404의 수행 후, 상기 자막 동영상 검출 장치는 상기 판별 결과에 따라 영상 프레임별 자막 유무를 순차적으로 기록하여 자막 시퀀스 바이너리 맵(SC)을 생성한다(S406).
그런 다음 상기 자막 동영상 검출 장치는 해당 동영상에 자막이 입혀져 있는지의 여부를 판단하기 위하여 상기 자막 시퀀스 바이너리 맵에서 자막 존재 표시가 임계치 이상인지의 여부를 판단한다(S408). 즉, 상기 자막 동영상 검출 장치는 참의 분포가 거짓의 분포보다 일정 비율 이상인지의 여부를 판단한다.
상기 S408의 판단결과 임계치 이상이면, 상기 자막 동영상 검출 장치는 해당 동영상에는 자막이 입혀져 있다고 판단하고(S410), 임계치 이상이 아니면 상기 동영상은 자막이 입혀져 있지 않다고 판단한다(S412).
상기와 같은 과정을 통해 대용량 동영상 데이터베이스로부터 자막이 입혀진 동영상을 자동으로 분류해낼 수 있다.
상기 방법을 통해 사용자가 동영상을 검색하고자 키워드를 입력하면, 상기 자막 동영상 검출 장치는 구비된 동영상 데이터베이스에서 상기 키워드에 상응하는 동영상 리스트를 출력하는데, 상기 동영상 리스트에는 자막이 입혀진 동영상인지의 여부가 표시되어 있다.
따라서, 검색한 동영상이 자막이 입혀진 동영상인지 아닌지를 판별하기 위해서 해당 동영상을 일일이 재생해야 하는 불편함을 해소하였다.
도 5는 본 발명에 따른 자막 동영상 검출 장치가 자막 검출을 위한 후보 구간을 결정하는 방법을 나타낸 흐름도이다.
도 5를 참조하면, 자막 동영상 검출 장치는 입력된 오디오 신호를 일정 간격으로 분할하여 복수의 오디오 프레임을 생성하고(S500), 상기 생성된 각 오디오 프레임의 음성 에너지를 계산한다(S502). 이때, 상기 자막 동영상 검출 장치는 전체 오디오 신호에 대해 일정 크기로 윈도우 사이즈를 정하고, 그 윈도우 사이즈 내에 있는 오디오 프레임에 대한 평균 에너지를 구한다.
그런 다음 상기 자막 동영상 검출 장치는 상기 구해진 평균 에너지를 평균과 분산을 이용하여 정규화하고(S504), 상기 정규화된 평균 에너지가 임계치 이상인 오디오 프레임의 개수를 확인하고, 그 개수가 일정 개수 이상인지의 여부를 판단한다(S506).
상기 S506의 판단결과 일정 개수 이상이면, 상기 자막 동영상 검출 장치는 해당 구간을 자막 검출을 위한 후보 구간으로 결정한다(S508).
도 6은 본 발명에 따른 자막 동영상 검출 장치가 자막이 입혀진 영상 프레임을 검출하는 방법을 나타낸 흐름도, 도 7은 본 발명에 따른 라인 스캐닝 방법을 설명하기 위한 예시도이다.
도 6을 참조하면, 자막 동영상 검출 장치는 자막 검출을 위한 후보 구간에 해당하는 영상 프레임을 디코딩하고(S600), 상기 디코딩된 영상 프레임을 흑백으로 변환하며 그 사이즈를 정규화한다(S602).
그런 다음 상기 자막 동영상 검출 장치는 상기 정규화된 영상 프레임의 각 픽셀에 대해 인접 픽셀과의 차를 이용하여 에지 성분을 구하고(S604), 상기 영상 프레임에 대해 가로축 방향으로 라인 스캐닝을 수행하여 각 라인별 에지 성분 총량을 구한다(S606). 즉, 상기 자막 동영상 검출 장치가 라인 스캐닝하는 방법에 대하여 도 7을 참조하기로 한다.
상기 자막 동영상 검출 장치는 최종적으로 자막 영역을 검출하기 위해 영상 프레임의 세로축 방향으로 모든 높이 값 j에 대해 sj를 탐색하는 과정을 수행한다. 여기서, 영상 프레임은 Ht 개의 라인을 갖고 있으므로, 상기 자막 동영상 검출 장치는 각 라인별로 스캐닝하여 Ht 개의 에지 성분 총량(sj)를 구한다.
상기 S606의 수행 후, 상기 자막 동영상 검출 장치는 상기 영상 프레임에 대해 세로축 방향으로 각 라인별 에지 성분 총량을 탐색하여(S608), 에지 성분 총량이 임계치를 초과하는 라인의 개수를 구한다(S610).
그런 다음 상기 자막 동영상 검출 장치는 상기 구해진 개수가 일정 개수 이상인지를 판단하여(S612), 일정 개수 이상이면 해당 영상 프레임을 자막이 입혀진 영상 프레임으로 판별한다(S614).
만약, 상기 S612의 판단결과 일정 개수 이상이 아니면, 해당 영상 프레임을 자막이 없는 영상 프레임으로 판별한다(S616).
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 신호 분리 모듈 110 : 후보 구간 검출 모듈
112 : 오디오 신호 분할부 114 : 음성 에너지 계산부
116 : 정규화부 118 : 후보 구간 결정부
120 : 자막 프레임 검출 모듈 121 : 디코딩부
122 : 영상 프레임 정규화부 123 : 에지 성분 계산부
124 : 라인 스캐닝부 125 : 자막 프레임 판별부
130 : 시퀀스 인덱싱 모듈 140 : 자막 동영상 판별 모듈

Claims (12)

  1. 동영상을 오디오 신호와 영상 신호로 분리하는 신호 분리 모듈;
    상기 분리된 오디오 신호를 오디오 프레임으로 분할하고, 각 오디오 프레임의 음성 에너지를 구하여 자막 검출을 위한 후보 구간을 결정하는 후보 구간 검출 모듈;
    상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하여 에지 성분을 구하고, 라인 스캐닝을 수행하여 자막이 입혀진 영상 프레임을 판별하는 자막 프레임 검출 모듈;및
    상기 자막 프레임 검출 모듈에서의 판별 결과에 따라 영상 프레임별 자막 유무를 기록하여 자막 시퀀스 바이너리 맵을 생성하는 시퀀스 인덱싱 모듈;
    을 포함하는 자막이 입혀진 동영상을 검출하기 위한 장치.
  2. 제1항에 있어서,
    상기 생성된 자막 시퀀스 바이너리 맵에서 자막 존재 표시의 밀도와 분포를 이용하여 자막이 입혀진 동영상을 판별하는 자막 동영상 판별 모듈;을 더 포함하는 자막이 입혀진 동영상을 검출하기 위한 장치.
  3. 제1항에 있어서,
    상기 후보 구간 검출 모듈은,
    상기 오디오 신호를 분할하여 복수의 오디오 프레임을 생성하는 오디오 신호 분할부;
    상기 생성된 각 오디오 프레임의 음성 에너지를 구하고, 윈도우 사이즈내에 있는 오디오 프레임의 평균 에너지를 구하는 음성 에너지 계산부;
    상기 구해진 평균 에너지를 평균과 분산을 이용하여 정규화하는 정규화부;및
    상기 정규화된 평균 에너지가 미리 정해진 제1 임계치 이상인 오디오 프레임의 개수를 확인하여, 그 개수에 따라 해당 구간을 후보 구간으로 결정하는 후보 구간 결정부;를 포함하는 자막이 입혀진 동영상을 검출하기 위한 장치.
  4. 제3항에 있어서,
    상기 음성 에너지 계산부는
    Figure 112010007099796-pat00006
    를 이용하여 음성 에너지(Em)를 구하되, Na 윈도우 사이즈, x(n)은 n번째 오디오 샘플인 것을 특징으로 하는 자막이 입혀진 동영상을 검출하기 위한 장치.
  5. 제3항에 있어서,
    상기 윈도우 사이즈는 오디오 프레임의 샘플 수보다 크게 두어 연속하는 두 개의 오디오 프레임이 중첩되도록 구성하는 것을 특징으로 하는 자막이 입혀진 동영상을 검출하기 위한 장치.
  6. 제3항에 있어서,
    상기 정규화부는 상기 음성 에너지, 초당 오디오 프레임의 개수 및 오디오 신호의 초단위 길이를 이용하여 평균과 분산을 구하고, 상기 구해진 평균과 분산을 이용하여 정규화하는 것을 특징으로 하는 자막이 입혀진 동영상을 검출하기 위한 장치.
  7. 제1항에 있어서,
    상기 자막 프레임 검출 모듈은,
    상기 후보 구간 검출 모듈에서 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하는 디코딩부;
    상기 디코딩된 영상 프레임을 흑백으로 변환하며 그 사이즈를 정규화하는 영상 프레임 정규화부;
    상기 정규화된 영상 프레임에 대해 현재 픽셀과 인접 픽셀과의 차를 이용하여 에지 성분을 구하는 에지 성분 결정부;
    상기 영상 프레임에 대해 가로축 방향으로 라인 스캐닝을 수행하여 각 라인별 에지 성분 총량을 구하는 라인 스캐닝부;및
    상기 영상 프레임을 세로축 방향으로 탐색하여 에지 성분 총량이 제2 임계치를 초과하는 라인의 개수에 따라 자막이 입혀진 영상 프레임으로 판별하는 자막 프레임 판별부;를 포함하는 자막이 입혀진 동영상을 검출하기 위한 장치.
  8. 제7항에 있어서,
    상기 라인 스캐닝부는 각 라인에 있는 에지 성분에 현재 픽셀과 인접 픽셀간 거리에 따른 가중치를 적용하여 에지 성분 총량을 구하는 것을 특징으로 하는 자막이 입혀진 동영상을 검출하기 위한 장치.
  9. (a)동영상을 오디오 신호와 영상 신호로 분리하는 단계;
    (b)상기 분리된 오디오 신호를 오디오 프레임으로 분할하고, 각 오디오 프레임의 음성 에너지를 구하여 자막 검출을 위한 후보 구간을 결정하는 단계;및
    (c)상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하여 에지 성분을 구하고, 라인 스캐닝을 통해 자막이 입혀진 영상 프레임을 판별하는 단계;
    (d)상기 판별 결과에 따라 영상 프레임별 자막 유무를 기록하여 자막 시퀀스 바이너리 맵을 생성하는 단계;
    를 포함하는 자막이 입혀진 동영상을 검출하기 위한 방법.
  10. 제9항에 있어서,
    상기 생성된 자막 시퀀스 바이너리 맵에서 자막 존재 표시의 밀도와 분포를 이용하여 자막이 입혀진 동영상을 판별하는 단계;를 더 포함하는 자막이 입혀진 동영상을 검출하기 위한 방법.
  11. 제9항에 있어서,
    상기 (b)단계는, 상기 오디오 신호를 분할하여 복수의 오디오 프레임을 생성하는 단계;
    상기 생성된 각 오디오 프레임의 음성 에너지를 구하고, 윈도우 사이즈 내에 있는 오디오 프레임의 평균 에너지를 구하는 단계;
    상기 구해진 평균 에너지를 평균과 분산을 이용하여 정규화하는 단계;및
    상기 정규화된 평균 에너지가 제1 임계치 이상인 오디오 프레임의 개수를 확인하여, 그 개수에 따라 해당 구간을 후보 구간으로 결정하는 단계;를 포함하는 자막이 입혀진 동영상을 검출하기 위한 방법.
  12. 제9항에 있어서,
    상기 (c)단계는, 상기 결정된 후보 구간에 해당하는 영상 프레임을 디코딩하는 단계;
    상기 디코딩된 영상 프레임을 흑백으로 변환하며 그 사이즈를 정규화하는 단계;
    상기 정규화된 영상 프레임에 대해 현재 픽셀과 인접 픽셀과의 차를 이용하여 에지 성분을 구하는 단계;
    상기 영상 프레임에 대해 가로축 방향으로 라인 스캐닝을 수행하여 각 라인별 에지 성분 총량을 구하는 단계;및
    상기 영상 프레임을 세로축 방향으로 탐색하여 에지 성분 총량이 제2 임계치를 초과하는 라인의 개수에 따라, 자막이 입혀진 영상 프레임으로 판별하는 단계;를 포함하는 자막이 입혀진 동영상을 검출하기 위한 방법.
KR1020100009451A 2010-02-02 2010-02-02 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법 KR101086810B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100009451A KR101086810B1 (ko) 2010-02-02 2010-02-02 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100009451A KR101086810B1 (ko) 2010-02-02 2010-02-02 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110089935A KR20110089935A (ko) 2011-08-10
KR101086810B1 true KR101086810B1 (ko) 2011-11-25

Family

ID=44927807

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100009451A KR101086810B1 (ko) 2010-02-02 2010-02-02 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101086810B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170052364A (ko) 2015-11-04 2017-05-12 삼성전자주식회사 디스플레이장치 및 그 제어방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6973256B1 (en) 2000-10-30 2005-12-06 Koninklijke Philips Electronics N.V. System and method for detecting highlights in a video program using audio properties
KR100828166B1 (ko) 2007-06-12 2008-05-08 고려대학교 산학협력단 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6973256B1 (en) 2000-10-30 2005-12-06 Koninklijke Philips Electronics N.V. System and method for detecting highlights in a video program using audio properties
KR100828166B1 (ko) 2007-06-12 2008-05-08 고려대학교 산학협력단 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체

Also Published As

Publication number Publication date
KR20110089935A (ko) 2011-08-10

Similar Documents

Publication Publication Date Title
US7336890B2 (en) Automatic detection and segmentation of music videos in an audio/video stream
EP2417767B1 (en) Apparatus and method for providing information related to broadcasting programs
KR100707189B1 (ko) 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
US6101274A (en) Method and apparatus for detecting and interpreting textual captions in digital video signals
US7305128B2 (en) Anchor person detection for television news segmentation based on audiovisual features
US7769761B2 (en) Information processing apparatus, method, and program product
US20080260255A1 (en) Image processing apparatus, imaging apparatus, image processing method, and computer program
US20030218696A1 (en) Combined-media scene tracking for audio-video summarization
JP2005243035A (ja) アンカーショット決定方法及び決定装置
KR20100105596A (ko) 오디오비주얼 신호에서 시맨틱 단위의 시작 포인트를 결정하는 방법
CN107066488B (zh) 基于影视内容语义分析的影视桥段自动分割方法
JP2011205599A (ja) 信号処理装置
CN108446603B (zh) 一种新闻标题检测方法及装置
CN111914649A (zh) 人脸识别的方法及装置、电子设备、存储介质
KR101086810B1 (ko) 자막이 입혀진 동영상을 검출하기 위한 장치 및 방법
KR101822443B1 (ko) 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치
KR101193549B1 (ko) 티브이 프로그램의 에피소드 자동분할 시스템 및 그 방법
JP4270118B2 (ja) 映像シーンに対する意味ラベル付与方法及び装置及びプログラム
KR101628289B1 (ko) 동영상 강좌의 슬라이드 화질 개선을 위한 시스템 및 방법
KR101055168B1 (ko) 유사 동영상 검색 시스템 및 그 방법
US20150179228A1 (en) Synchronized movie summary
KR100502429B1 (ko) 드라마 장르의 비디오 컨텐츠에서 특정인물 등장구간검출을 위한 오디오 및 비주얼 정보를 이용한 검색 장치및 방법
KR20130036765A (ko) 비디오에 대한 대표 이미지들의 결정
JP4301078B2 (ja) 映像のインデクシング方法及びプログラム
JP4507351B2 (ja) 信号処理装置及び方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140818

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151001

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160912

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee