KR20210040323A

KR20210040323A - 동영상의 키 식별자 식별 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램

Info

Publication number: KR20210040323A
Application number: KR1020210038213A
Authority: KR
Inventors: 루이펭 리; 레이 유안; 싱 다이; 칭린 친; 주오 순; 지치앙 리우
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-06-28
Filing date: 2021-03-24
Publication date: 2021-04-13
Also published as: EP3819820A3; JP2021166066A; CN111753762B; US11748986B2; CN111753762A; US20210209375A1; EP3819820B1; JP7209044B2; EP3819820A2; KR102596989B1

Abstract

본 발명은 동영상의 키 식별자 식별 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램을 개시하며, 인공 지능 분야에 관한 것이며, 특히 이미지 식별 기술, 특히 딥러닝 신경망을 이용한 이미지 식별 기술에 관한 것이다. 구체적인 구현 방식은, 동영상에서 복수의 키 프레임을 추출하며; 복수의 해당 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하며; 해당 동영상의 동영상 프레임에서, 해당 마스크를 이용하여 키 식별자 구역 이미지를 확정하며; 해당 키 식별자 구역 이미지에 대해 식별을 진행하여, 해당 동영상에 포함된 키 식별자 카테고리를 얻는다. 본 발명의 실시예에서는 동영상의 일부 키 프레임을 이용하여 키 식별자의 마스크를 생성하여, 식별 결과의 정확도를 향상시키고, 내결함성이 강하며, 키 식별자의 식별에 필요한 데이터 처리량을 줄이고, 식별 속도를 향상시킬 수 있다.

Description

동영상의 키 식별자 식별 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램{METHOD AND APPARATUS FOR RECOGNIZING KEY IDENTIFIER IN VIDEO, DEVICE AND STORAGE MEDIUM}

본 발명은 인공 지능 분야에 관한 것이며, 특히 이미지 식별 기술, 특히 딥러닝 신경망을 이용한 이미지 인식 기술에 관한 것이다.

일부 정경에서, 일부 미디어에 관련되는 동영상 또는 사진들에 대해 신속하고 효과적으로 식별하고 정리해야 한다. 이러한 미디어들은 텔레비전이나 웹페이지에 게시된 동영상에서 종종 특정된 식별자를 갖고 있기 때문에, 이러한 특정된 식별자를 효과적으로 식별해야 한다. 현재 이러한 식별자를 식별하는 방식은 내결함성이 약하며, 특히 해상도와 선명도가 낮은 정경에서의 식별 효과가 바람직하지 못하다.

본 발명은 동영상의 키 식별자 식별 방법, 장치, 기기 및 저장 매체를 제공한다.

본 발명의 한 측면에 따르면, 동영상의 키 식별자 식별 방법을 제공하며, 상기 방법은,

동영상에서 복수의 키 프레임을 추출하는 것;

복수의 해당 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하는 것;

해당 동영상의 동영상 프레임에서, 해당 마스크를 이용하여 키 식별자 구역 이미지를 확정하는 것; 및

해당 키 식별자 구역 이미지에 대해 식별을 수행하여, 해당 동영상에 포함된 키 식별자 카테고리를 얻는 것; 을 포함한다.

본 발명의 다른 측면에 따르면, 동영상의 키 식별자 식별 장치를 제공하며, 상기 장치는,

동영상에서 복수의 키 프레임을 추출하기 위한 추출 모듈;

복수의 상기 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하기 위한 생성 모듈;기

상기 동영상의 동영상 프레임에서, 상기 마스크를 이용하여 키 식별자 구역 이미지를 확정하기 위한 확정 모듈;

상기 키 식별자 구역 이미지에 대해 식별을 진행하여, 해당 동영상에 포함된 키 식별자 카테고리를 얻기 위한 식별 유닛; 을 포함한다.

본 발명의 다른 측면에 따르면, 전자 기기를 제공하며, 해당 전자 기기는,

적어도 하나의 프로세서; 및,

해당 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하며, 여기서,

해당 메모리에는 해당 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되며, 해당 명령은 해당 적어도 하나의 프로세서에 의해 실행되어, 해당 적어도 하나의 프로세서로 하여금 동영상의 키 식별자 식별 방법을 수행할 수 있도록 한다.

본 발명의 다른 측면에 따르면, 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독가능 저장 매체를 제공하며, 여기서, 해당 컴퓨터 명령은 해당 컴퓨터로 하여금 동영상의 키 식별자 식별 방법을 수행하도록 한다.

본 발명의 실시예에 따르면, 동영상의 일부 키 프레임을 이용하여 키 식별자의 마스크를 생성하여, 식별 결과의 정확성을 향상시키고, 내결함성이 강하며, 키 식별자의 식별에 필요한 데이터 처리량을 줄이고, 식별 속도를 향상시킬 수 있다.

여기에 설명된 내용은 본 발명의 실시예의 핵심적이거나 중요한 특징을 나타내기 위한 것이 아니며, 또한 본 발명의 범위를 제한하기 위한 것이 아님을 이해해야 한다. 본 발명의 다른 특징은 다음의 명세서에 의해 쉽게 이해될 수 있을 것이다.

첨부도면은 기술방안을 더 잘 이해하기 위한 것이며, 본 발명에 대한 한정이 아니다. 여기서,
도 1은 본 발명의 일 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이다.
도 2는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이다.
도 3는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이다.
도 5는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이다.
도 6은 본 발명의 실시예의 동영상의 키 식별자 식별 방법의 구역 분할의 예시도이다.
도 7는 본 발명의 실시예의 동영상의 키 식별자 식별 방법의 적용 실예의 흐름도이다.
도 8은 본 발명의 실시예의 동영상의 키 식별자 식별 방법의 동영상의 정경 변경 프레임의 개략도이다.
도 9는 본 발명의 실시예의 동영상의 키 식별자 식별 방법에서 프레임 간의 차이를 이용하여 생성한 마스크의 개략도이다.
도 10은 본 발명의 실시예의 동영상의 키 식별자 식별 방법에서 마스크에 대해 부식, 팽창 및 연결을 진행한 후의 개략도이다.
도 11은 본 발명의 실시예의 동영상의 키 식별자 식별 방법에서 키 식별자 구역을 식별하는 개략도이다.
도 12는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 장치의 블록도이다.
도 13은 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 장치의 블록도이다.
도 14는 본 발명의 실시예에 따른 동영상의 키 식별자 식별 방법의 전자 기기의 블록도이다.

이하, 첨부 도면을 결부하여 본 발명의 예시적인 실시예에 대해 설명하며, 이해를 돕기 위해, 본 설명에는 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이를 단순히 예시적인 것으로 간주해야 한다. 따라서, 해당 분야 기술자들은 여기에 설명된 실시예에 대해 다양한 변경 및 수정을 진행할수 있으며, 이들은 본 발명의 범위 및 사상을 벗어나지 않는다는 것을 인식해야 한다. 마찬가지로, 이하의 설명에서 명확성과 간결성을 위해, 공지적인 기능 및 구조에 대한 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이며, 해당 방법은,

S101, 동영상에서 복수의 키 프레임을 추출하는 것;

S102, 복수의 해당 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하는 것;

S103, 해당 동영상의 동영상 프레임에서, 해당 마스크를 이용하여 키 식별자 구역 이미지를 확정하는 것; 및

S104, 해당 키 식별자 구역 이미지에 대해 식별을 진행하여, 해당 동영상에 포함된 키 식별자 카테고리를 얻는 것; 을 포함한다.

본 발명의 실시예에서, 동영상에는 여러개의 동영상 프레임이 포함될 수 있고, 동영상 프레임은 프레임 이미지라고도 한다. 동영상은 라이브 동영상일 수도 있고, 녹화된 동영상일 수도 있다. 동영상 중의 키 식별자는 예를 들어 TV동영상 중의 TV 방송국 로고, 온라인 동영상의 웹 사이트 로고 등 다양한 종류가 있을 수 있다. 일부 키 식별자는 동영상의 출처를 나타낼 수 있고, 일부 키 식별자는 동영상의 귀속을 나타낼 수 있으며, 일부 키 식별자는 동영상의 제작자 또는 다른 종류의 키 식별자를 나타낼 수 있다. 동영상의 동영상 프레임에서 키 식별자가 나타나는 위치가 일반적으로 특정된 반복성을 갖는 다고 가정하면, 해당 특징을 이용하여 키 식별자를 식별할 수 있다.

본 발명의 실시예에서, 동영상에서 복수의 키 프레임을 추출한 후, 추출된 키 프레임의 차이를 이용하여 마스크를 획득하고, 더 나아가서 마스크를 이용하여 키 식별자 구역 이미지를 확정하고, 다시 키 식별자 식별 모델을 이용하여 키 식별자 구역 이미지를 식별할 수 있다.

서로 다른 동영상에서 키 식별자가 서로 다를 수 있으며, 예를 들어, 서로 다른 미디어에서의 TV 방송국 로고는 서로 다를 수 있다. 다양한 특색 있는 키 식별자 이미지를 샘플 이미지로 수집하여, 훈련을 통해 키 식별자 식별 모델을 얻을 수 있다. 키 식별자 식별 모델의 알고리즘은 딥러닝, 신경망 등을 포함할 수 있지만 이에 국한되지 않는다. 키 식별자 식별 모델을 이용하여 키 식별자 구역 이미지에 대해 식별을 진행하여, 해당 이미지에 포함된 키 식별자 카테고리를 얻을 수 있다. 예를 들어, 중앙 방송국, 지역 방송국 등 다양한 TV방송국의 로고 패턴을 샘플 이미지로 수집하여, 훈련을 통해 방송국 로고 식별 모델을 획득할 수 있다. 방송국 로고 식별 모델을 이용하여 추출된 방송국 로고 구역 이미지를 식별하여, 예를 들어 XX TV의 로고 등과 같은 해당 동영상의 방송국 로고 카테고리를 획득할 수 있다.

본 실시예에서, 동영상의 일부 키 프레임을 이용하여 키 식별자의 마스크를 생성하여, 식별 결과의 정확성을 향상시키고, 내결함성이 강하며, 키 식별자의 식별에 필요한 데이터 처리량을 줄이고, 식별 속도를 향상시킬 수 있다.

도 2는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이다. 해당 실시예의 동영상의 키 식별자 식별 방법은 상기 실시예의 각 단계를 포함할 수 있다. 본 실시예에서, S101에서, 동영상에서 복수의 키 프레임을 추출하는 것은, 해당 동영상 중의 인접한 프레임 간의 차이에 근거하여, 상기 동영상 중의 정경이 변경된 키 프레임을 추출하는 것을 포함한다. 정경이 변경된 경우, 서로 다른 정경의 동영상 프레임 간의 픽셀 차이가 일반적으로 크기 때문에, 정경의 변경에 근거하여 추출된 키 프레임을 정경 변경 프레임이라고도 한다. 본 실시예에서, 정경의 키 프레임에는 동영상에서 변화가 큰 프레임이 포함되는데, 정경의 키 프레임 중의 키 식별자 위치 변화가 작은 특징을 이용하여, 키 식별자의 마스크의 위치를 더 정확하게 획득할 수 있고, 따라서 정확한 키 식별자 식별 결과를 얻을 수 있으며, 강한 내결함성을 가지고, 키 식별자의 식별에 필요한 데이터 처리량도 줄일수 있고, 식별 속도를 향상시킬 수 있다.

본 발명의 가능한 구현 방식에서, 해당 동영상 중의 인접한 프레임 간의 차이에 근거하여, 해당 동영상 중의 정경이 변경된 키 프레임을 추출하는 것은 다음 단계를 포함한다. 즉:

S1011, 해당 동영상에서 현재 프레임을 포함하는 3개의 연속 프레임을 획득한다;

S1012, 해당 3개의 연속 프레임 중의 인접한 두 프레임마다의 픽셀 간의 평균 절대차(Mean Absolute Difference, MAD 또는 MAFD라고 약칭)를 계산하여, 제1 평균 절대차 및 제2 평균 절대차를 얻는다;

S1013, 해당 제1 평균 절대차와 제2 평균 절대차 사이의 제1 차이값을 계산한다; 및

S1014, 해당 제1 평균 절대차, 제2 평균 절대차 및 해당 제1 차이값 중의 최소값이 제1 임계값보다 큰 경우, 해당 3개의 연속 프레임 중의 현재 프레임을 키 프레임으로 추출한다.

예시적으로, 동영상의 3개의 연속 프레임은 T1, T2, T3을 포함하며, 여기서, T3은 현재 프레임이고, T2는 현재 프레임의 이전 프레임이고, T1은 T2의 이전 프레임이다. T3과 T2의 제1 평균 절대차는 mafd1이고, T2와 T1의 제2 평균 절대차는 mafd2이며, mafd1과 mafd2의 차이 값의 절대치는 제1 차이값diff이다. 만일 mafd1, mafd2, diff의 최소값이 mafd2이고, 또한 mafd2가 제1 임계값보다 크면, T3을 키 프레임으로 추출한다. 마찬가지로, 동영상 프레임에서 T10, T16, T36 등과 같은 정경이 변경된 다른 키 프레임을 추출할 수 있다. 구체적으로 추출할 키 프레임의 수량은 유연하게 설정할 수 있다. 예를 들어, 추출된 키 프레임의 총 수량을 N개로 설정할 수 있다. 또 예를 들어, 해당 동영상의 일부 동영상 프레임, 예컨대 M개의 동영상 프레임에서 정경이 변경된 모든 키 프레임을 추출한다. 또 예를 들어, 해당 동영상의 모든 동영상 프레임에서 정경이 변경된 모든 키 프레임을 추출한다.

본 실시예에서, 동영상의 3개의 연속 프레임 중의 인접한 두 프레임마다의 픽셀 간의 평균 절대차 및 설정된 임계값을 비교하여, 동영상에서 정경이 변경될 때의 키 프레임을 정확하고 편리하게 추출할 수 있다.

도 3는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이다. 해당 실시예의 동영상의 키 식별자 식별 방법은 상기 실시예의 각 단계를 포함할 수 있다. 본 실시예에서, 해당 방법은 S301, 즉: 해당 키 프레임에 대해 검은 색 테두리 감지를 진행하여, 해당 키 프레임의 검은 색 테두리 구역을 제거하는 것을 더 포함한다.

본 실시예에서, S101에서 동영상에서 복수의 키 프레임을 추출한 후, 각 키 프레임에 대해 검은 색 테두리 감지를 진행하여, 각 키 프레임의 검은 색 테두리 구역을 제거할 수 있다. 그 다음에 S102를 수행하여, 검은 색 테두리를 제거한 복수의 해당 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성한다. 일부 동영상 프레임에는 검은 색 테두리 구역이 존재하는데, 검은 색 테두리 구역을 미리 제거하면, 생성된 키 식별자의 마스크에 대한 검은 색 테두리 구역의 간섭을 줄이며, 더욱 정확한 마스크를 획득할 수 있다.

도 4는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이다. 해당 실시예의 동영상의 키 식별자 식별 방법은 상기 실시예의 각 단계를 포함할 수 있다. 본 실시예에서, 서로 다른 키 프레임 간의 차이를 이용하여, 키 프레임 중의 동적 구역을 제거하여, 마스크를 얻을 수 있다. 해당 마스크는 해당 키 프레임 중의 비 동적 구역을 포함할 수 있으며, S102에서, 복수의 해당 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하는 것은 다음 단계를 포함한다. 즉:

S1021, 복수의 해당 키 프레임을 각각 그레이스케일 이미지로 변환한다;

S1022, 처리할 키 프레임과 그 이전의 키 프레임의 그레이스케일 이미지의 차이값을 계산하여, 해당 처리할 키 프레임의 각 픽셀 위치에 대응하는 제2 차이값을 획득한다;

S1023, 해당 처리할 키 프레임을 순회하여, 해당 처리할 키 프레임의 그레이스케일 이미지 중의 픽셀값이 픽셀 최소값보다 크거나, 및/또는 해당 제2 차이값이 변화 최대값보다 작은 픽셀 위치를, 마스크에 속하는 픽셀 위치로 확정한다.

본 발명의 실시예에서, 키 프레임을 그레이스케일 이미지로 변환할 때, 픽셀의 광도만 보류할 수 있으며, 픽셀의 광도는 주로 0 ~ 255의 범위에 있다. 예를 들어, 처리할 키 프레임 T10의 그레이스케일 이미지는 G2이고, 처리할 키 프레임의 이전 키 프레임 T3의 그레이스케일 이미지는 G1이다. G2와 G1의 위치가 같은 각 픽셀의 그레이스케일 이미지에서의 차이의 절대치(0 ~ 255)를 계산하여, 제2 차이값 ad으로 기록한다.

픽셀 최소값 pixel_min 및 변화 최대값 diff_max 등 두개의 임계값을 설정한다. 여기서, 최소 픽셀값을 설정하면 투명한 키 식별자의 문제를 해결할 수 있으며, 투명한 키 식별자 구역은 최소값을 가지는데, 픽셀 최소값을 설정하면 투명한 키 식별자를 식별하는데 유리하다. 변화 최대값을 설정하면 변경이 큰 프레임을 추출하는데 유리하다.

처리할 키 프레임T10의 각 픽셀 위치를 순회하여, 만약처리할 키 프레임 T10의 현재 픽셀 위치가 그레이스케일 이미지에서의 광도가 픽셀 최소값 pixel_min보다 크고, 또한 해당 픽셀 위치의 제2 차이값ad가 변화 최대값diff_max보다 작으면, 해당 픽셀 위치의 변화가 비교적 작은 것을 표시하고, 해당 픽셀 위치를 마스크에 속하는 픽셀 위치로 확정하며, 예를 들어, 해당 픽셀 위치의 값을 255로 설정한다. 더 나아가, 처리할 키 프레임 중의 기타 마스크에 속하지 않는 픽셀 위치는 0으로 설정할 수 있으며, 즉 마스크 이외의 구역을 검은 색으로 설정할 수 있다. 처리된 키 프레임을 차이 값 프레임이라고 할 수 있다. 본 예시에서의 0과 255는 한정이 아니라 예시일 뿐이며, 마스크 내부와 외부 구역을 명확하게 구분할 수만 있다면, 기타 값으로 채울 수도 있다.

하나의 가능한 구현 방식에서, 해당 방법의 S102에서, 복수의 해당 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하는 것은 다음 단계를 더 포함한다. 즉:

S1024, 해당 처리할 키 프레임 중의 마스크에 속하는 픽셀 위치와 그 이전의 키 프레임 중의 마스크에 속하는 픽셀 위치의 교집합을 획득한다. 이러면 보다 정확한 키 식별자의 마스크를 얻을 수 있다.

본 실시예에서, 만일 추출된 키 프레임의 수량이 N이면, 추출된 키 프레임의 순서에 따라, 상기의 키 식별자의 마스크를 생성하는 단계를 하나씩 수행할 수 있다. 매번 실행 후에는, 현재 처리할 키 프레임과 처리된 후의 차이 값 프레임을 캐시하여, 다음의 처리할 키 프레임을 처리하는데 사용되도록 할 수 있다.

본 실시예에서, 키 프레임과 처리된 후의 차이 값 프레임이 함께 캐시될 수 있으며, 캐시 프레임이라고 칭할 수 있다. 매번 처리할 키 프레임을 그 이전의 캐시 프레임과 종합할 수 있으며, 나아가 복수의 키 프레임의 차이 값 프레임의 교집합을 이용하여 마스크를 얻을 수 있다. 예를 들어, 키 프레임 T10의 차이 값 프레임에서, 마스크에 속하는 픽셀 위치에는 S1, S2, S3, S4가 포함되며, 키 프레임 T10 이후의 키 프레임 T16의 차이 값 프레임에서, 마스크에 속하는 픽셀 위치에는 S2, S3, S4, S5가 포함된다. 두 픽셀의 교집합을 선택하면, 마스크에 속하는 픽셀 위치에는 S2, S3, S4가 포함된다. 이 경우, 키 프레임 T16의 차이 값 프레임에서, 마스크에 속하는 픽셀 위치 S2, S3, S4 만 보류하고, S5는 보류하지 않도록 업데이트할 수 있다. 따라서, 키 프레임 T16의 캐시 프레임에도, 키 프레임 T16 및 업데이트된 차이 값 프레임이 보류된다.

또한, 키 프레임을 순회하는 과정에서, 이전 캐시 프레임에 포함된 차이 값 프레임에서 마스크에 속하는 픽셀 위치를 후속의 비교 기준으로 사용할 수 있다. 예를 들어, 차이 값 프레임에서 마스크에 속하는 픽셀 위치에는 S1, S2, S3, S4가 포함되지만, 이번 키 프레임의 마스크 계산 과정중에서, S1의 계산 결과가 픽셀 최소값인 pixel_min과 변화 최대값인 diff_max의 두 임계값에 부합되지 않는데, 이런 경우, S1을 0으로 설정하고, S2, S3, S4를 마스크에 속하는 픽셀 위치로 보류한다.

상기 픽셀 위치는 단지 예시일 뿐이고, 한정적이 아니며, 실제 응용에서, 하나의 동영상 프레임에 여러개의 픽셀 위치가 포함되며, 동영상 프레임을 순회하여 각 픽셀 위치가 마스크에 속하는지 여부를 판단할 수 있다.

본 발명의 가능한 구현 방식에서, S102에서 키 식별자의 마스크를 생성한 후, 해당 방법은 S401, 즉: 해당 마스크에 대해 부식, 팽창 및 연결 처리를 진행하는 것을 더 포함한다. 동영상에서 키 식별자의 패턴이 서로 부동하며, 일부 로고는 알파벳, 숫자, 문자 등을 포함할 수 있다. 따라서, 마스크에 속하는 픽셀의 위치가 일차적으로 확정된 후, 일부 마스크 내의 픽셀 위치가 0으로 설정되어, 마스크내에서 연결되지 않을 수 있다. 마스크를 부식하면, 마스크 내의 단일 픽셀 구역 및 가는 선을 제거할 수 있다. 마스크를 팽창하는 것은 마스크의 윤곽을 확대하는 것일 수 있으며, 여러번 반복하여 윤곽을 더 커지게 한다. 이렇게 하여 마스크로 하여금 변화되지 않은 완전한 도형을 포함하도록 할 수 있다.

또한, 마스크에 대해 연결 처리를 진행하여, 빈 자리를 채우도록 할 수도 있다. 예를 들어, 마스크에서 255가 아닌 픽셀 위치를 255로 변환한다. 이런 방식으로, 마스크에 포함된 키 식별자 이미지로 하여금 더 완전하게 할 수 있다.

하나의 가능한 구현 방식에서, S103에서, 해당 동영상의 동영상 프레임에서, 해당 마스크를 이용하여 키 식별자 구역 이미지를 확정하는 것은, 해당 마스크와 해당 동영상의 동영상 프레임을 사용하여 알파(alpha) 계산을 진행하여, 적어도 하나의 키 식별자 구역 이미지를 추출하고, 해당 동영상 프레임의 다른 부분을 제1 픽셀값으로 채우는 것을 포함한다. 여기서, 알파(alpha)계산은 알파 블렌딩(alpha blending)이라고 할 수 있다. 예를 들어, 하기식 1에 의해 알파 계산을 할 수 있다.

p=(p0*alpha+p1*(255-alpha))/255 식 1,

여기서, p는 알파 블렌딩 결과(0-255)를 나타내며, p0은 동영상 프레임의 원본 이미지(0-255)를 나타내며, p1은 순수한 검정색 이미지(0)를 나타내며, 알파는 마스크(mask)의 값(0 또는 255)을 나타낸다.

또한, 동영상 프레임에서 키 식별자 구역 이미지를 제외한 나머지 부분을 제1 픽셀값으로 채우고, 예를 들어, 0을 채워 검은 색을 나타낸다. 물론, 다른 값을 채워 대응되는 색상을 나타낼 수도 있다.

키 프레임의 차이를 이용하여 마스크를 확정한 후, 마스크에 대해 여러번 부식 및 팽창 처리를 진행하고, 연결 처리를 진행한 다음, 최종의 마스크와 해당 동영상의 하나 또는 복수의 동영상 프레임을 이용하여 알파 계산을 진행하여, 각 동영상 프레임의 키 식별자 구역 이미지를 얻을 수 있다. 하나의 동영상 프레임에 복수의 키 식별자가 포함되어 있는 경우, 마스크를 사용하여 동영상 프레임에서 복수의 키 식별자 구역 이미지를 추출할 수 있다. 따라서, 한차례의 식별 과정에서는 단일 키 식별자를 식별할 수 있을 뿐만 아니라, 하나의 동영상 프레임의 화면에 복수의 키 식별자가 포함되는 상황도 함께 고려할 수 있다.

도 5는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 방법의 흐름도이다. 해당 실시예의 동영상의 키 식별자 식별 방법은 상기 실시예의 각 단계를 포함할 수 있다. 본 실시예에서, 해당 방법은 다음 단계를 더 포함한다. 즉:

S501, 채워진 동영상 프레임을 복수의 구역으로 분할한다;

S502, 분할된 동영상 프레임의 네 모서리가 있는 구역 이미지를 추출한다; 및

S503, 해당 네 모서리가 있는 구역 이미지와 추출된 키 식별자 구역 이미지에 근거하여, 식별하려는 키 식별자 구역 이미지를 확정한다.

본 실시예에서, 분할한 다음에 추출한 네 모서리가 있는 구역 이미지와 마스크를 사용하여 추출한 키 식별자 구역 이미지를 종합적으로 비교하여, 어느 키 식별자 구역 이미지에 대해 최종적으로 식별할 지를 확정할 수 있다. 예를 들어, 도 6에 도시된 바와 같이, 동영상 프레임의 화면을 2개의 가로선과 2개의 세로선을 이용하여 9개의 구역으로 분할하면, 네 모서리가 있는 구역의 이미지는 L1, L2, R1, R2이고, 키 식별자 구역 이미지는 3개로서, L1, L2, R1의 구역 이미지 내에 포함되므로, L1, L2, R1 구역 이미지 내에 있는 3개의 키 식별자 구역 이미지에 대해서만 식별을 진행할 수 있다. 상기와 같이 9개 구역으로 분할하는 것은 단지 예시일 뿐 한정적이 아니며, 다른 수량의 구역으로도 분할할 수 있으며, 예를 들어, 12개, 16개 등, 구체적으로 동영상 프레임의 화면 크기와 키 식별자 패턴의 크기에 근거하여 선택할 수 있다. 이런 방식으로, 하나의 동영상 프레임 화면에 복수의 키 식별자가 포함된 경우에 적용할 수 있으며, 잘못 식별된 키 식별자 구역 이미지를 줄일 수 있어, 식별 알고리즘의 계산량을 줄이고, 식별 정확도 및 속도를 향상시킬 수 있다.

하나의 적용 예시에서, 동영상에서 추출한 키 식별자가 방송국 로고인 경우를 예를 들어 설명하면, 방송국 로고(반투명 로고를 포함)가 동영상에서의 위치와 도형이 기본적으로 고정되어 변하지 않고, 기타 위치의 내용은 끊임 없이 변화되기 때문에, 여러 동영상 프레임에서 변화가 적은 구역을 이용하여 마스크를 생성하여, 완전한 로고 구역을 추출할 수 있다. 도 7에 도시된 바와 같이, 해당 방송국 로고 식별 방법은 다음 단계를 포함할 수 있다. 즉:

S1, 정경 변경 프레임을 추출한다.

예를 들어, 도 8에 도시된 바와 같이, 멀티미디어 처리 도구인 ffmpeg를 이용하여 동영상에서 정경 변경 시의 키 프레임을 추출할 수 있으며, 처리에 소요되는 시간 및 계산량을 줄이고 식별 효과를 향상시킬 수 있다.

현재 프레임과 이전의 동영상 프레임 간의 평균 절대차(mafd)를 계산하고, 두 mafd 사이의 차이(diff)를 계산하며, 예를 들어, 연속되는 3개의 동영상 프레임 T1, T2, T3(현재 프레임)을 이용하여 두 mafd를 계산하며, T3-T2는 mafd1이고, T2-T1은 mafd2이고, mafd1-mafd2의 절대치는 diff이다. 두 mafd와 diff 사이에서 최소값을 구한다. 해당 최소값이 설정된 임계값보다 크면, 현재 프레임에 정경 변경이 발생한 것으로 간주하고, 현재 프레임을 출력한다.

S2, 정경의 키 프레임 주변의 검은 색 테두리를 감지하여, 검은 색 테두리 구역을 제거한다.

S3, 정경 변경 프레임을 그레이스케일 이미지로 변환하며, 예를 들어, 단지 광도만 보류한다. 도 9에 도시된 바와 같이, 그레이스케일 이미지를 사용하여 이전의 복수의 그레이스케일 이미지와 비교하며, 픽셀 차이에 근거하여 마스크(mask)를 생성한다.

예시적 알고리즘: 픽셀 최소값(pixel_min) 및 변화 최대값(diff_max) 등 두개의 임계값을 설정한다. 투명한 방송국 로고 구역이 최소값을 가지기 때문에, pixel_min은 투명한 방송국 로고 문제를 해결할 수 있다.

현재 그레이스케일 이미지와 이전의 그레이스케일 이미지의 차이에 의해 구한 절대치(0 ~ 255)을 ad라고 한다.

이미지의 각 픽셀 위치를 순회하여, 현재 위치의 픽셀값이 pixel_min보다 크고 현재 위치의 픽셀에 대응하는 ad가 diff_max 보다 작으며, 이전 N프레임의 그레이스케일 이미지와 ad의 대응 위치가 상기 두가지 조건을 모두 만족하면, 해당 위치의 mask를 255로 설정한다. 조건을 만족하지 않는 픽셀 위치의 mask를 0으로 설정한다.

하나의 예시에서, mask의 각 픽셀 위치의 값은 현재 키 프레임과 이전의 캐시된 프레임에 의해 함께 계산할 수 있다. 캐시된 프레임은 원본 프레임과 차이 값 프레임을 포함할 수 있으며, 각 캐시된 프레임에 대해 상기 규칙에 따라 필터링하여 템플릿에 속하는 픽셀 위치를 얻는다. 각 픽셀 위치에 대해, 모든 캐시된 프레임이 모두 부합되는 현재 위치 마스크 값은 255이고, 하나라도 부합되지 않으면, 현재 마스크 값은 0이다.

복수의 키 프레임 간의 차이 값을 이용하여, 동적 구역을 제거하여 마스크를 생성하고, 마스크에 대해 부식 및 팽창 연산을 진행하여, 변경되지 않은 도형을 더 완전하게 만들 수 있다.

S4, 픽셀 위치의 마스크mask를 0으로 설정하면 검은 색으로 대표하고, 255로 설정하면 원본 이미지 데이터를 보류하는 것을 대표한다.

S5, 마스크(mask)에 대해 부식(corrode) 및 팽창(expand)연산을 수행하며, 여러번 반복한다.

부식은 마스크의 단일 픽셀 구역과 가는 선을 제거 할 수 있다. 팽창은 마스크의 윤곽을 확대할 수 있으며, 여러번 반복하여 윤곽이 더욱 커지게 한다.

S6, 빈자리 채우기(floodfill)를 수행하며, 연결 처리라고도 한다.

마스크(mask)에서 255값으로 둘러싸인 구역 내의 255값이 아닌 픽셀을 255로 변환하여, 마스크 내에서의 연결을 구현한다. 도 10은 부식, 팽창 및 연결 처리를 거친 마스크의 예시이다.

S7, 최종 마스크(mask)와 현재 프레임을 사용하여 알파alpha 계산을 진행하여, 방송국 로고 구역 이미지를 추출하고, 다른 부분은 검은 색으로 채운다. 마스크를 사용하여 동영상 프레임에서의 고정된 구역을 추출하고, 다른 구역은 검은 색으로 채운다. 예를 들어, 방송국 로고 구역 이미지 이외의 부분을 검은 색으로 채워, 식별 오류를 줄인다.

여기서, alpha계산은 알파 블렌딩이라고도 하며, 공식의 예시는 p=(p0*alpha+p1*(255-alpha))/255 이다. 여기서, p는 알파 블렌딩 후의 결과(0-255)을 나타내며, p0은 동영상 프레임의 원본 이미지(0-255)를 나타내며, p1은 순수한 검정색 이미지(0)를 나타내며, 알파는 마스크(mask)의 값(0 또는 255)을 나타낸다. 여기서, 원본 이미지는 컬러 이미지일 수 있으며, 컬러 공간에는 YUV가 포함될 수 있다.

S8, 추출된 방송국 로고 구역 이미지에 대해 방송국 로고의 식별을 수행한다. 예를 들어, 도 11에 도시된 바와 같이, 사전 훈련된 방송국 로고 식별 모델을 사용하여 추출된 방송국 로고 구역 이미지에 대해 방송국 로고의 식별을 진행하여, 동영상에 포함된 방송국 로고 카테고리를 얻는다.

또한, 동영상 프레임에 대해 구역 분할을 진행하여, 네 모서리 구역의 이미지와 방송국 로고 구역 이미지를 비교하여, 최종적으로 어느 방송국 로고 구역 이미지에 대해 식별할 지를 종합적으로 확정할 수 있다.

상기 방법을 사용하면, 동영상에 복수의 방송국 로고가 포함하고, 또한 동시에 나타나거나 또는 서로 다른 시각에 나타나는 방송국 로고를 포함되어도, 모두 방송국 로고를 추출하는 구역 이미지에 포함될 수 있으며, 마지막에 방송국 로고의 식별을 통해 복수의 방송국 로고의 카테고리를 얻을 수 있다. 따라서, 하나의 동영상 중의 복수의 방송국 로고를 동시에 식별할 수 있다.

상기 방법에서, 정경 변경 프레임을 추출하여 픽셀 변화가 큰 프레임을 찾아내며, 방송국 로고의 위치 변화가 작기 때문에, 변화가 큰 프레임에 근거하여 방송국 로고 위치를 더 정확하게 찾아낼 수 있다. 강한 내결함성을 가지며, 동영상의 배경이 복잡한 상황에서도 방송국 로고를 식별할 수 있다.

상기 방법에서, 다중 프레임 이미지의 비교 및 최소 픽셀값의 필터링을 통해, 투명한 방송국 로고와 동영상 중의 장시간 움직이지 않는 물체에 의한 문제를 해결할 수 있고, 식별 오류를 줄일 수 있다.

도 12는 본 발명의 다른 실시예에 따른 동영상의 키 식별자 식별 장치의 블록도이다. 상기 장치는,

동영상에서 복수의 키 프레임을 추출하기 위한 추출 모듈(41);

복수의 상기 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하기 위한 생성 모듈(42);

해당 동영상의 동영상 프레임에서, 해당 마스크를 이용하여 키 식별자 구역 이미지를 확정하기 위한 확정 모듈(43); 및

해당 키 식별자 구역 이미지에 대해 식별을 진행하여, 해당 동영상에 포함된 키 식별자 카테고리를 얻기 위한 식별 유닛(44);을 포함한다.

하나의 가능한 구현 방식에서, 해당 추출 모듈은 구체적으로 해당 동영상 중의 인접한 프레임 간의 차이에 근거하여, 해당 동영상 중의 정경 변경 키 프레임을 추출하는데 사용된다.

하나의 가능한 구현 방식에서, 도 13에 도시된 바와 같이, 해당 추출 모듈(41)은,

해당 동영상에서 현재 프레임을 포함하는 3개의 연속 프레임을 획득하기 위한 획득 서브 모듈(411);

해당 3개의 연속 프레임 중의 인접한 두 프레임마다의 픽셀 간의 평균 절대차를 계산하여, 제1 평균 절대차 및 제2 평균 절대차를 얻기 위한 제1 계산 서브 모듈(412);

해당 제1 평균 절대차와 제2 평균 절대차 사이의 제1 차이값을 계산하기 위한 제2 계산 서브 모듈(413); 및

해당 제1 평균 절대차, 제2 평균 절대차 및 해당 제1 차이값 중의 최소값이 제1 임계값보다 큰 경우, 해당 3개의 연속 프레임 중의 현재 프레임을 키 프레임으로 추출하기 위한 추출 서브 모듈(414); 을 포함한다.

하나의 가능한 구현 방식에서, 해당 장치는,

해당 키 프레임에 대해 검은 색 테두리 감지를 진행하여, 해당 키 프레임의 검은 색 테두리 구역을 제거하기 위한 검은 색 테두리 감지 모듈(51)을 더 포함한다.

하나의 가능한 구현 방식에서, 해당 마스크는 해당 키 프레임 중의 비 동적 구역을 포함하며, 해당 생성 모듈(42)은,

복수의 해당 키 프레임을 각각 그레이스케일 이미지로 변환하기 위한 그레이스케일 서브 모듈(421);

처리할 키 프레임과 그 이전의 키 프레임의 그레이스케일 이미지의 차이값을 계산하여, 해당 처리할 키 프레임의 각 픽셀 위치에 대응하는 제2 차이값을 획득하기 위한 제3 계산 서브 모듈(422); 및

해당 처리할 키 프레임을 순회하여, 해당 처리할 키 프레임의 그레이스케일 이미지 중의 픽셀값이 픽셀 최소값보다 크거나, 및/또는, 해당 제2 차이값이 변화 최대값보다 작은 픽셀 위치를 마스크에 속하는 픽셀 위치로 확정하기 위한 순회 서브 모듈(423); 을 포함한다.

하나의 가능한 구현 방식에서, 상기 생성 모듈(42)은,

해당 처리할 키 프레임 중의 마스크에 속하는 픽셀 위치와 그 이전의 키 프레임 중의 마스크에 속하는 픽셀 위치의 교집합을 획득하기 위한 교집합 서브 모듈(424)을 더 포함한다.

하나의 가능한 구현 방식에서, 해당 장치는,

해당 마스크에 대해 부식, 팽창 및 연결 처리를 진행하기 위한 마스크 처리 모듈(52)을 더 포함한다.

하나의 가능한 구현 방식에서, 해당 확정 모듈(43)은 구체적으로 해당 마스크와 해당 동영상의 동영상 프레임을 사용하여 알파alpha 계산을 진행하여, 적어도 하나의 키 식별자 구역 이미지를 추출하고, 해당 동영상 프레임의 기타른 부분을 제1 픽셀값으로 채우는데 사용된다.

하나의 가능한 구현 방식에서, 해당 장치는,

채워진 동영상 프레임을 복수의 구역으로 분할하며; 분할된 동영상 프레임의 네 모서리가 있는 구역의 이미지를 추출하며; 네 모서리가 있는 구역 이미지와 추출된 키 식별자 구역 이미지에 근거하여, 식별하려는 키 식별자 구역 이미지를 확정하기 위한 분할 모듈(53)을 더 포함한다.

본 발명의 실시예에서 각 장치의 모듈의 기능에 대해서는 전술한 방법의 해당 설명을 참조할 수 있으며, 여기서는 더 이상 설명하지 않는다.

본 발명의 실시예에 따르면, 본 발명은 또한 전자 기기 및 판독 가능한 저장 매체를 제공한다.

도 14에 도시된 바와 같이, 본 발명의 실시예에 따른 동영상의 키 식별자 식별 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 비서, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자 기기는 개인용 디지털 처리, 휴대폰, 스마트 폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 가리킬 수도 있다. 본 명세서에 표시된 구성 요소, 이들의 연결 및 관계, 및 그 기능은 단지 예시일 뿐이며, 본 명세서에서 설명된 및/또는 요구되는 발명의 구현을 제한하려는 것이 아니다.

도 14에 도시된 바와 같이, 해당 전자 기기는 하나 또는 복수의 프로세서(901), 메모리(902) 및 고속 인터페이스와 저속 인터페이스를 포함하는 각 구성 요소를 연결하기 위한 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스에 의해 서로 연결되고, 공용 메인 보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 전자 기기에 의해 실행되는 명령어를 처리할 수 있으며, 이는 메모리에 저장되거나 또는 메모리에 저장되어 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장치)에 GUI를 표시하는 그래프 정보의 명령을 포함한다. 다른 실시예에서, 필요한 경우, 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각 기기는 필요한 작업의 일부분(예를 들어, 서버 어레이, 블레이드 서버 그룹 또는 멀티 프로세서 시스템으로 함)을 제공할 수 있다. 도 14은 프로세서(901)가 하나인 경우를 예를 한다.

메모리(902)는 본 발명에서 제공하는 비 일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 해당 메모리는 적어도 하나의 프로세서에 의해 실행 가능한 명령을 저장하며, 해당 적어도 하나의 프로세서로 하여금 본 발명에서 제공하는 동영상의 키 식별자 식별 방법을 수행할 수 있도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터로 하여금 본 발명에서 제공하는 동영상의 키 식별자 식별 방법을 수행하도록 한다.

메모리(902)는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예를 들어 본 발명의 실시예의 동영상의 키 식별자 식별 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도 12에 도시된 바와 같은 추출 모듈(41), 생성 모듈(42), 확정 모듈(43) 및 식별 유닛(43))을 저장하기 위해 사용된다. 프로세서(901)는 메모리(902)에 저장된 비 일시적 소프트웨어 프로그램, 명령어 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 실행하며, 즉 상기 방법 실시예에서의 동영상의 키 식별자 식별 방법을 구현한다.

메모리(902)는 프로그램 저장 구역 및 데이터 저장 구역을 포함할 수 있으며, 프로그램 저장 구역에는 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램이 저장될 수 있고, 데이터 저장 구역에는 동영상의 키 식별자 식별 방법을 구현하기 위한 전자 기기의 사용에 따라 생성된 데이터가 저장될 수 있다. 또한, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있으며, 적어도 하나의 디스크 저장 장치, 플래시 메모리 장치 또는 기타 비 일시적 솔리드 스테이트 저장 장치와 같은 비 일시적 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(902)는 프로세서(901)에 대해 원격으로 제공되는 메모리를 선택적으로 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 동영상의 키 식별자 식별 방법을 구현하기 위한 전자 기기에 연결될 수 있다. 상기 네트워크의 예는 인터넷, 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 제한되지 않는다.

동영상의 키 식별자 식별 방법을 구현하기 위한 전자 기기는 입력 장치(903) 및 출력 장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력 장치(903) 및 출력 장치(904)는 버스에 의해 연결되거나 또는 다른 방식으로 연결될 수 있으며, 도 14에서는 버스에 의한 연결을 예를 들어 나타낸 것이다.

입력 장치(903)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 동영상의 키 식별자 식별 방법을 구현하기 위한 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수있으며, 예를 들어, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 표시기 스틱, 하나 이상의 마우스 버튼, 트랙볼, 조이스틱 및 기타 입력 장치일 수 있다. 출력 장치(904)는 디스플레이 장치, 보조 조명 장치 (예를 들어, LED), 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 해당 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 제한되지 않는다. 일부 실시예에서, 디스플레이 장치는 터치 스크린일 수 있다.

본 명세서에 설명된 시스템 및 기술의 다양한 구현은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합을 통해 구현될 수 있다. 이러한 다양한 구현 방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템에서 실행 및/또는 해석될 수 있으며, 해당 프로그래머블 프로세서는 전용 또는 일반 프로그래머블 프로세서일 수 있으며, 저장 시스템, 하나 이상의 입력 장치 및 하나 이상의 출력 장치에서 데이터 및 명령어를 수신할 수 있고, 데이터 및 명령을 해당 저장 시스템, 해당 적어도 하나의 입력 장치 및 해당 적어도 하나의 출력 장치로 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램 또는 코드라고도 함)에는 프로그래머블 프로세서의 기계 명령이 포함되며, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨터 프로그램을 구현할 수 있다. 본 명세서에서 사용된 바와 같이, "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 기계 명령 및/또는 데이터를 프로그래머블 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 시디롬, 메모리, 프로그래머블 논리 장치 (PLD))를 지칭하며, 기계가 판독할 수 있는 신호인 기계 명령을 수신할 수 있는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령어 및/또는 데이터를 프로그래머블 프로세서에 제공하는 모든 신호를 지칭한다.

사용자와의 상호 작용을 제공하기 위해, 여기에 설명된 시스템 및 기술을 컴퓨터에서 구현할 수 있으며, 상기 컴퓨터는 사용자에게 정보를 표시하는 디스플레이 장치(예를 들어, CRT모니터 또는 LCD모니터)와, 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 해당 키보드 및 해당 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 다른 유형의 장치도 사용자와의 상호 작용을 제공하는데 사용될 수도 있으며, 예를 들어, 사용자에게 제공되는 피드백은 모든 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백) 일 수 있고, 모든 방식(소리 입력, 음성 입력 또는 촉각 입력 포함)을 통해 사용자에 의한 입력을 수신할 수 있다.

여기에 설명된 시스템 및 기술은 백그라운드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프런트엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저가 있는 사용자 컴퓨터일 수 있으며, 사용자는 해당 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술의 실시형태와 상호 작용할 수 있음), 또는 이러한 백그라운드 구성 요소, 미들웨어 구성 요소 또는 프런트엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 모든 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 구성 요소를 서로 연결할 수 있다. 통신 네트워크의 예시로는 근거리 통신망(LAN, Local Area Network), 광역 통신망(WAN, Wide Area Network) 및 인터넷을 포함할 수 있다.

컴퓨터 시스템에는 클라이언트와 서버가 포함될 수 있다. 클라이언트와 서버는 일반적으로 서로 원격으로 설치되여 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통하여 생성된다. 서버는 클라우드 서버일 수 있으며, 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 바, 이는 클라우드 컴퓨팅 서비스 시스템에서의 하나의 호스트 제품으로서, 전통적인 물리적 호스트와 가상 사설 서버(VPS) 서비스에서 관리가 어렵고, 비즈니스 확장성이 약한 결함을 해결할 수 있다.

본 발명의 실시예에서, 동영상의 일부 키 프레임을 이용하여 키 식별자의 마스크를 생성하여, 식별 결과의 정확성을 향상시키고, 내결함성이 강하며, 또한 키 식별자의 식별에 필요한 데이터 처리량을 줄이고, 식별 속도를 향상시킬 수 있다.

위에 표시된 다양한 형태의 프로세스를 사용하여, 단계를 재정렬, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에서 설명된 다양한 단계들은 병렬로 수행되거나, 순차적으로 또는 서로 다른 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결책의 원하는 결과를 달성할 수만 있다면, 본 명세서에서는 이를 제한하지 않는다.

상기 구체적인 구현 방식은 본 발명의 보호 범위에 대한 제한을 구성하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 하위 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개량은 모두 본 발명의 보호 범위에 속한다.

Claims

동영상의 키 식별자 식별 방법에 있어서,
동영상에서 복수의 키 프레임을 추출하는 것;
복수의 상기 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하는 것;
상기 동영상의 동영상 프레임에서, 상기 마스크를 이용하여 키 식별자 구역 이미지를 확정하는 것; 및
상기 키 식별자 구역 이미지를 식별하여, 상기 동영상에 포함된 키 식별자 카테고리를 획득하는 것; 을 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
동영상에서 복수의 키 프레임을 추출하는 것은,
상기 동영상 중의 인접한 프레임 간의 차이에 근거하여, 상기 동영상 중의 정경이 변경된 키 프레임을 추출하는 것을 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 동영상 중의 인접한 프레임 간의 차이에 근거하여, 상기 동영상 중의 정경이 변경된 키 프레임을 추출하는 것은,
상기 동영상에서 현재 프레임을 포함하는 3개의 연속 프레임을 획득하는 것;
상기 3개의 연속 프레임 중의 인접한 두 프레임마다의 픽셀 간의 평균 절대차를 계산하여, 제1 평균 절대차 및 제2 평균 절대차를 얻는 것;
상기 제1 평균 절대차와 제2 평균 절대차 사이의 제1 차이값을 계산하는 것; 및
상기 제1 평균 절대차, 제2 평균 절대차 및 상기 제1 차이값 중의 최소값이 제1 임계값보다 큰 경우, 상기 3개의 연속 프레임 중의 현재 프레임을 키 프레임으로 추출하는 것; 을 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 방법은,
상기 키 프레임에 대해 검은 색 테두리 감지를 수행하여, 상기 키 프레임의 검은 색 테두리 구역을 제거하는 것을 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 마스크는 상기 키 프레임 중의 비 동적 구역을 포함하며, 상기의 복수의 상기 키 프레임 간의 차이를 이용하여 키 식별자의 마스크를 생성하는 것은,
복수의 상기 키 프레임을 각각 그레이스케일 이미지로 변환하는 것;
처리할 키 프레임과 그 이전의 키 프레임의 그레이스케일 이미지의 차이값을 계산하여, 상기 처리할 키 프레임의 각 픽셀 위치에 대응하는 제2 차이값을 획득하는 것; 및
상기 처리할 키 프레임을 순회하여, 상기 처리할 키 프레임의 그레이스케일 이미지의 픽셀값이 픽셀 최소값보다 크거나, 및/또는, 상기 제2 차이값이 변화 최대값보다 작은 픽셀 위치를, 마스크에 속하는 픽셀 위치로 확정하는 것; 을 포함하는 것을 특징으로 하는 방법.
제5항에 있어서,
상기의 복수의 상기 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하는 것은,
상기 처리할 키 프레임 중의 마스크에 속하는 픽셀 위치와 그 이전의 키 프레임 중의 마스크에 속하는 픽셀 위치의 교집합을 획득하는 것을 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 방법은,
상기 마스크에 대해 부식, 팽창 및 연결 처리를 진행하는 것을 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 동영상의 동영상 프레임에서, 상기 마스크를 이용하여 키 식별자 구역 이미지를 확정하는 것은,
상기 마스크와 상기 동영상의 동영상 프레임을 사용하여 알파alpha 계산을 진행하여, 적어도 하나의 키 식별자 구역 이미지를 추출하고, 상기 동영상 프레임의 기타 부분을 제1 픽셀값으로 채우는 것을 포함하는 것을 특징으로 하는 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 방법은,
채워진 동영상 프레임을 복수의 구역으로 분할하는 것;
분할된 동영상 프레임의 네 모서리가 있는 구역 이미지를 추출하는 것; 및
상기 네 모서리가 있는 구역 이미지와 추출된 키 식별자 구역 이미지에 근거하여, 식별하려는 키 식별자 구역 이미지를 확정하는 것; 을 더 포함하는 것을 특징으로 하는 방법.
동영상의 키 식별자 식별 장치에 있어서,
동영상에서 복수의 키 프레임을 추출하기 위한 추출 모듈;
복수의 상기 키 프레임 간의 차이를 이용하여, 키 식별자의 마스크를 생성하기 위한 생성 모듈;
상기 동영상의 동영상 프레임에서, 상기 마스크를 이용하여 키 식별자 구역 이미지를 확정하기 위한 확정 모듈; 및
상기 키 식별자 구역 이미지에 대해 식별을 진행하여, 상기 동영상에 포함된 키 식별자 카테고리를 획득하기 위한 식별 유닛;을 포함는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 추출 모듈은 구체적으로 상기 동영상 중의 인접한 프레임 간의 차이에 근거하여, 상기 동영상 중의 정경이 변경된 키 프레임을 추출하는데 사용되는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 추출 모듈은,
상기 동영상에서 현재 프레임을 포함하는 3개의 연속 프레임을 획득하기 위한 획득 서브 모듈;
상기 3개의 연속 프레임 중의 인접한 두 프레임마다의 픽셀 간의 평균 절대차를 계산하여, 제1 평균 절대차 및 제2 평균 절대차를 얻기 위한 제1 계산 서브 모듈;
상기 제1 평균 절대차와 제2 평균 절대차 사이의 제1 차이값을 계산하기 위한 제2 계산 서브 모듈; 및
상기 제1 평균 절대차, 제2 평균 절대차 및 상기 제1 차이값 중의 최소값이 제1 임계값보다 큰 경우, 상기 3개의 연속 프레임 중의 현재 프레임을 키 프레임으로 추출하기 위한 추출 서브 모듈;을 포함하는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 장치는,
상기 키 프레임에 대해 검은 색 테두리 감지를 진행하여, 상기 키 프레임의 검은 색 테두리 구역을 제거하기 위한 검은 색 테두리 감지 모듈을 더 포함하는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 마스크는 상기 키 프레임 중의 비 동적 구역을 포함하며, 상기 생성 모듈은,
복수의 상기 키 프레임을 각각 그레이스케일 이미지로 변환하기 위한 그레이스케일 서브 모듈;
처리할 키 프레임과 그 이전의 키 프레임의 그레이스케일 이미지의 차이값을 계산하여, 상기 처리할 키 프레임의 각 픽셀 위치에 대응하는 제2 차이값을 획득하기 위한 제3 계산 서브 모듈; 및
상기 처리할 키 프레임을 순회하여, 상기 처리할 키 프레임의 그레이스케일 이미지 중의 픽셀값이 픽셀 최소값보다 크거나, 및/또는, 상기 제2 차이값이 변화 최대값보다 작은 픽셀 위치를, 마스크에 속하는 픽셀 위치로 확정하기 위한 순회 서브 모듈;을 포함하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 생성 모듈은,
상기 처리할 키 프레임 중의 마스크에 속하는 픽셀 위치와 그 이전의 키 프레임 중의 마스크에 속하는 픽셀 위치의 교집합을 획득하기 위한 교집합 서브 모듈;을 더 포함하는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 장치는,
상기 마스크에 대해 부식, 팽창 및 연결 처리를 진행하기 위한 마스크 처리 모듈을 더 포함하는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 확정 모듈은 구체적으로 상기 마스크와 상기 동영상의 동영상 프레임을 사용하여 알파alpha 계산을 진행하여, 적어도 하나의 키 식별자 구역 이미지를 추출하고, 상기 동영상 프레임의 기타 부분을 제1 픽셀값으로 채우는데 사용되는 것을 특징으로 하는 장치.
제10항 내지 제17항 중 어느 한 항에 있어서,
상기 장치는,
채워진 동영상 프레임을 복수의 구역으로 분할하며; 분할된 동영상 프레임의 네 모서리가 있는 구역 이미지를 추출하며; 상기 네 모서리가 있는 구역 이미지와 추출된 키 식별자 구역 이미지에 근거하여, 식별하려는 키 식별자 구역 이미지를 확정하기 위한 분할 모듈을 더 포함하는 것을 특징으로 하는 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하는 전자 기기에 있어서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항의 방법을 수행하도록 하는 것을 특징으로 하는 전자 기기.
상기 컴퓨터에 의해 제1항 내지 제8항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터 명령이 저장된 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제8항 중 어느 한 항의 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.