KR20230129616A

KR20230129616A - 비디오 타임 앵커

Info

Publication number: KR20230129616A
Application number: KR1020237029506A
Authority: KR
Inventors: 프라샨트 바헤티; 쇼지 오구라; 매튜 링커우스; 게이브 컬버트슨; 웨이 펭; 셰리아나 크리스탈 그레첸 그릭스; 캐서린 말리아 티체; 피어스 앤서니 볼루치; 샘 베커; 릭 마리아 프레더리쿠스 벤 무크; 츠토무 오쿠라; 의 양; 디미트라 파파크리스투; 에디 산토스; 니콜라스 크로웰; 스테파니 맥브레인; 니샤 수브라마니암
Original assignee: 구글 엘엘씨
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2023-09-08
Also published as: WO2020201780A1; JP2023165769A; US20220165309A1; JP2022529225A; KR20210136122A; US11823716B2; JP7350883B2; US20240046964A1; KR102574278B1

Abstract

방법, 시스템 및 장치는 비디오에 대한 비디오 앵커들을 생성하기 위한 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함한다. 일 양태에서, 방법은 비디오에 대한 핵심 순간 식별자들을 획득하는 단계를 포함하고, 여기서 각 핵심 순간 식별자는 비디오에서 재생 시간을 지정하는 시간 인덱스 값을 포함하고 비디오 내에서 핵심 토픽들을 정의하는 하나 이상의 관심 기준을 충족하는 것으로 결정된 비디오의 주제를 나타낸다. 각 핵심 순간 식별자에 대해 비디오 앵커가 생성되며, 여기서 각 비디오 앵커는 비디오의 재생 시간을 나타내며 재생 시간 근처에서 발생하는 프레임의 이미지를 포함할 수 있다. 사용자에 의한 비디오 앵커 선택시, 비디오 앵커에 있는 명령은 비디오 플레이어로 하여금 비디오 앵커에 의해 지정된 재생 시간에 비디오 재생을 시작하게 한다.

Description

비디오 타임 앵커{VIDEO TIMED ANCHORS}

본 명세서는 비디오 처리에 관한 것이다.

비디오는 웹 문서와 같은 방식으로 스키밍될 수 없으며, 사용자가 비디오에서 특정한 것을 찾을 때 비디오를 보거나 비디오를 수동으로 스크러빙해도 사용자가 비디오에서 핵심 순간(key moments)을 찾지 못하는 경우가 많다.

본 개시는 비디오에 대한 비디오 앵커의 생성 및 배포를 용이하게 하는 컴퓨터 구현 방법 및 시스템에 관한 것이다.

일반적으로, 본 명세서에 기술된 주제의 하나의 혁신적인 양태는 동작들을 포함하는 방법으로 구현될 수 있으며, 상기 동작들은 비디오에 대해, 복수의 핵심 순간 식별자를 획득하는 단계와, 각 핵심 순간 식별자는: 비디오에서 재생 시간을 지정하는 시간 인덱스 값을 포함하고, 비디오 내에서 핵심 토픽들을 정의하는 하나 이상의 관심 기준을 충족하도록 결정된 비디오의 주제를 나타내고; 각 핵심 순간 식별자에 대해, 시간 인덱스 값에 의해 지정된 재생 시간에서 시작하는 비디오의 적절한 서브세트를 선택하는 단계와, 상기 비디오의 적절한 서브세트는 시간 인덱스 값에 의해 지정된 재생 시간에서 시작하여 다른 핵심 순간 식별자의 다른 시간 인덱스 값에 의해 지정된 다음의 가장 최근 재생 시간에서 끝나는 비디오 세그먼트의 길이보다 짧으며; 비디오의 적절한 서브세트에 대해, 핵심 순간 식별자에 대한 텍스트 라벨을 결정하는 단계와; 비디오의 적절한 서브세트로부터 비디오 프레임을 선택할지 여부를 결정하기 위해 비디오의 적절한 서브세트의 각 비디오 프레임을 처리하는 단계와; 각 핵심 순간 식별자에 대해, 다음을 포함하는 비디오 앵커를 생성하는 단계와, 상기 다음은: 핵심 순간 식별자에 대한 텍스트 라벨; 비디오의 적절한 서브세트의 비디오 프레임을 선택하기 위한 결정에 응답하여, 비디오 프레임을 묘사하는 이미지; 및 사용자 디바이스의 비디오 플레이어가 핵심 순간 식별자의 시간 인덱스 값에 의해 지정된 재생 시간에 비디오의 재생을 시작하게 하는 명령을 포함하고; 그리고 사용자 디바이스에, 사용자 디바이스가 사용자 디바이스의 비디오 플레이어 환경에서 렌더링되도록 하는 데이터를 제공하는 단계로서: 각각의 비디오 앵커; 각 비디오 앵커에 대해, 비디오 플레이어의 진행 바에 있는 시간 인디케이터를 포함하고, 상기 시간 인디케이터는 시간 인덱스 값에 의해 지정된 재생 시간에 대응하고; 그리고 상기 각 비디오 앵커는 사용자에 의해 선택 가능하고 비디오 앵커의 선택시 비디오 앵커의 명령은 사용자 디바이스의 비디오 플레이어로 하여금 시간 인덱스 값에 의해 지정된 재생 시간에 비디오의 재생을 시작하게 한다. 이 양태의 다른 실시예는 컴퓨터 저장 디바이스들에 인코딩된 방법의 동작들을 수행하도록 구성된 대응하는 시스템, 장치 및 컴퓨터 프로그램을 포함한다.

본 명세서에 기술된 주제의 특정 실시예는 다음 이점들 중 하나 이상을 실현하도록 구현될 수 있다. "비디오 앵커"라고 지칭되는 비디오 타임(timed) 앵커들은 재생 환경이 작동하는 방식을 변경한다. 특히, 비디오 앵커를 사용하면 사용자들이 비디오내의 핵심 순간을 빠르게 확인할 수 있어 비디오 자체에 대한 더 나은 감각을 얻을 수 있다. 또한 비디오 타임 앵커를 사용하면 사용자가 비디오내의 한 지점으로 직접 스킵할 수 있어 시간을 절약할 수 있다.

처리 시스템은 비디오 내에서 정의된 핵심 토픽를 충족하도록 결정된 비디오의 주제를 나타내는 관심 기준을 사용한다. 다른 관심 기준은 다른 비디오 유형에 맞게 조정될 수 있다. 예를 들어, 스포츠 비디오는 시스템이 득점, 차단 및 파울에 대한 묘사된 이벤트를 인식할 수 있도록 하는 특정 관심 기준에 따라 처리될 수 있고, 강의 비디오는 시스템이 주제 또는 토픽 변경을 결정할 수 있도록 하는 언어 기준에 따라 처리될 수 있으며, "목록"을 포함하고 목록에 포함된 엘리먼트를 설명하는 비디오는 시스템이 묘사된 목록의 엘리먼트를 인식할 수 있도록 하는 목록 기준에 따라 처리될 수 있으며, 그런 다음 비디오에서 주제가 상기 나열된 엘리먼트들 중 하나로부터 다른 나열된 엘리먼트로 변경되는 순간을 식별할 수 있다. 다시 말해, 시스템은 상이한 유형의 관심 기준을 통합함으로써 다양한 유형의 비디오를 유연하게 처리하고 비디오 내의 다수의 핵심 토픽에 대한 비디오 앵커를 생성할 수 있다.

시스템은 하나 이상의 비디오 프레임 포함 기준에 기초하여 비디오 프레임을 비디오 앵커에 포함할지 여부를 결정할 수 있다. 각 비디오 앵커에는 제한된 양의 화면 공간이 있기 때문에 비디오 앵커에 비디오 프레임을 포함할지 여부를 결정하면 각 비디오 앵커에 대해 디스플레이된 데이터가 비디오 앵커와 구별된다. 즉, 앵커가 대응하는 핵심 토픽에 대한 정보가 아닌 비디오 프레임은 비디오 앵커에 포함되지 않는다. 예를 들어, 비디오가 강의인 경우, 각 비디오 앵커의 발표자 이미지는 정보가 되지 않는다. 따라서, 비디오 앵커에서 비디오 프레임을 사용하지 않음으로써 보다 설명적인 텍스트 라벨이 사용될 수 있으며, 여기서 각 텍스트 라벨은 발표자가 논의하는 주제를 기술한다.

비디오 앵커는 비디오의 핵심 토픽들을 나타내기 때문에, 사용자들은 전체 비디오를 스트리밍하는 대신 비디오내의 특정 지점에서 재생을 개시하기 위해 비디오 앵커를 선택할 가능성이 더 높다. 이렇게 하면 네트워크 대역폭 스트리밍 사용량이 줄어들어 네트워크 리소스가 절약된다. 추가적으로, 클라이언트 측에서, 디코딩 및 렌더링과 같은 비디오 처리 계산 리소스 사용도 마찬가지로 감소한다.

본 명세서에서 설명된 주제의 하나 이상의 실시예의 세부 사항은 첨부된 도면 및 아래의 설명에서 설명된다. 주제의 다른 특징, 측면 및 이점은 설명, 도면 및 청구범위로부터 명백해질 것이다.

도 1은 비디오 앵커들이 디스플레이되는 제1 비디오 디스플레이 환경의 예시이다.
도 2는 비디오 앵커들이 디스플레이되는 다른 비디오 디스플레이 환경의 예시이다.
도 3은 비디오를 위한 비디오 앵커들을 생성하는 시스템의 블록도이다.
도 4는 비디오 앵커들을 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 5는 사용자 디바이스에서 비디오 앵커들을 처리하기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.

본 출원의 주제는 비디오(동영상) 타임(timed) 앵커들을 사용하여 비디오의 서로 다른 부분을 노출시킨다. 비디오 앵커에 해당하는 비디오의 각 부분은 "핵심 순간(key moment)"에서 시작된다. 비디오 앵커를 사용하면 사용자는 비디오의 중요한 지점을 빠르게 확인할 수 있어 비디오 자체에 대해 더 잘 이해할 수 있으며 또한 사용자가 비디오내의 지점으로 직접 스킵할 수 있어 시간을 절약할 수 있다.

비디오 타임 앵커 처리 시스템은 비디오 각각에 대한 비디오 앵커를 생성하도록 비디오를 처리한다. 동작시 시스템은 비디오에 대해 복수의 핵심 순간 식별자를 획득한다. 핵심 순간 식별자는 트레이닝된 신경망에 의해서와 같이 알고리즘적으로 결정되거나 인간 큐레이터에 의해 제공될 수 있다. 각 핵심 순간 식별자는 비디오의 재생 시간을 지정하는 시간 인덱스 값을 포함하고 비디오 내의 핵심 토픽들을 정의하는 하나 이상의 관심 기준을 충족하도록 결정된 비디오의 주제를 나타낸다.

각각의 핵심 순간 식별자에 대해, 시스템은 시간 인덱스 값에 의해 지정된 재생 시간에서 시작하는 비디오의 적절한 서브세트를 선택한다. 비디오의 적절한 서브세트는 시간 인덱스 값에 의해 지정된 재생 시간에서 시작하여 다른 핵심 순간 식별자의 다른 시간 인덱스 값에 의해 지정된 다음 가장 최근 재생 시간에서 끝나는 비디오 세그먼트의 길이보다 짧은 비디오 부분이다. 예를 들어, 제1 핵심 순간 식별자가 1:00의 재생 시간을 나타내고 다음 핵심 순간 식별자가 2:30의 재생 시간을 나타내는 경우, 비디오의 적절한 서브세트는 1:00에 시작하여 2:30 이전에 끝난다.

시스템은 비디오의 적절한 서브세트에 대해, 핵심 순간 식별자에 대한 텍스트 라벨을 결정한다. 텍스트 라벨은 텍스트 신호, 시각적 신호 및 수동 큐레이션 중 하나 이상에 의해 결정될 수 있다. 텍스트 신호에는 광학 문자 인식, 캡션 데이터 및 비디오 메타 데이터가 포함된다. 시각적 신호에는 임베딩, 오디오 및 이미지 라벨 생성이 포함된다. 수동 큐레이션에는 수동으로 생성된 주석이 포함된다.

시스템은 또한 비디오의 적절한 서브세트로부터 비디오 프레임을 선택할지 여부를 결정하기 위해 비디오의 적절한 서브세트의 각 비디오 프레임을 처리한 다음, 각각의 핵심 순간 식별자에 대해 비디오 앵커를 생성한다. 각 비디오 앵커에는 핵심 순간 식별자에 대한 텍스트 라벨이 포함되며 비디오 프레임이 선택된 경우 비디오 프레임이 포함된다. 각 비디오 앵커에는 사용자 디바이스의 비디오 플레이어가 핵심 순간 식별자의 시간 인덱스 값에 의해 지정된 재생 시간에 비디오 재생을 시작하도록 하는 명령도 포함된다.

그런 다음 비디오 앵커들을 정의하는 데이터는 인덱스에 저장되어 그 데이터가 대응하는 비디오와 연관된다. 데이터는 사용자 디바이스가, 사용자 디바이스의 비디오 플레이어 환경에서, 각각의 비디오 앵커를 렌더링하게 한다. 그런 다음 데이터는 비디오 자체와 함께 그 비디오를 요청하는 사용자 디바이스들로 제공될 수 있다. 시스템은 비디오 요청에 대한 응답으로 데이터를 사용자 디바이스에 제공할 수 있다. 각 비디오 앵커에 대해, 사용자 디바이스는 비디오 플레이어의 진행 바에 대응하는 시간 인디케이터 및 그 대응하는 시간 인디케이터로부터 시각적 앵커로의 시각적 링크를 디스플레이한다. 디스플레이된 각 비디오 앵커는 사용자에 의해 선택될 수 있으며 비디오 앵커의 선택 시 그 비디오 앵커의 명령은 사용자 디바이스의 비디오 플레이어가 시간 인덱스 값에 의해 지정된 재생 시간에 비디오 재생을 시작하도록 한다.

이러한 특징 및 추가 특징은 아래에서 보다 상세하게 설명된다.

도 1은 비디오 앵커(120, 130, 140)가 디스플레이되는 제1 비디오 디스플레이 환경(100)의 예시이다. 예시적인 환경(100)은 스마트 폰, 태블릿 또는 개인용 컴퓨터 상에서 구현될 수 있다. 스마트 텔레비전과 같은 다른 컴퓨터 구현 디바이스도 디스플레이 환경(100)을 구현하는데 사용될 수 있다.

도 1의 예시적인 환경(100)에서, 검색 입력 필드(102)를 사용하여 검색 쿼리 [스마트폰 구매]가 검색 엔진에 제공되었다. 결과 비디오가 결과 환경(104)에 디스플레이된다. 비디오 재생 윈도우(110)에는 최고 순위의 결과 비디오가 디스플레이된다. 비디오의 제1 프레임이 디스플레이되고 프로그레스 바(112)는 비디오의 시간 길이를 나타낸다.

비디오 플레이어 윈도우(110) 아래에는 3개의 비디오 앵커(120, 130, 140)가 있다. 각 비디오 앵커(120, 130, 140)는 비디오 플레이어의 진행 바(112)에 대응하는 시간 인디케이터(122, 132, 142)를 갖는다. 각 시간 인디케이터는 비디오 앵커에 대한 시간 인덱스 값에 의해 지정된 재생 시간에 해당한다. 추가적으로, 각 비디오 앵커(120, 130, 140)는 대응하는 시간 인디케이터(122, 132, 142)로부터 비디오 앵커로의 시각적 링크를 포함한다.

각 비디오 앵커(120, 130 및 140)는 각각 비디오 프레임(124, 134 및 144)을 포함한다. 각 비디오 프레임은 비디오의 대응하는 재생 시간에 또는 그 이후에 발생하는 비디오 부분으로부터 선택된다. 이미지 프레임을 식별하고 선택하는 방법은 아래에 자세히 설명되어 있다.

각 비디오 앵커(120, 130 및 140)는 또한 각각이 비디오에서 핵심(salient) 토픽를 기술하는 텍스트 라벨(126, 136 및 146)을 각각 포함한다. 일부 구현에서, 각 핵심 토픽은 그것이 새로운 토픽이거나 비디오 토픽에 중대한 변화가 있을 때 식별된다. 핵심 토픽를 식별하는 방법은 아래에 자세히 설명되어 있다.

각 비디오 앵커(120, 130, 140)에는 사용자 디바이스의 비디오 플레이어가 시간 인덱스 값에 의해 지정된 재생 시간에 비디오의 재생을 시작하게 하는 개별 명령이 임베딩되어 있다. 그 명령은 비디오 앵커 선택시에 실행된다. 예를 들어, 사용자가 비디오 앵커(130)를 선택하면, 비디오 플레이어 윈도우(110)에서의 비디오 재생은 비디오 앵커(130) 및 진행 바(212)에 표시된 바와 같이 2:13의 재생 시간에 시작될 것이다.

비디오 앵커(120, 130 및 140) 아래에는 추가 비디오 검색 결과(150, 152, 154 및 156)가 있다. 일부 구현에서, 다른 비디오 검색 결과를 선택하면 비디오 검색 결과에 의해 참조되는 비디오를 비디오 플레이어 윈도우(110)에 배치함으로써 비디오 검색 결과에 포커싱된다. 부가적으로, 새로 포커싱된 비디오에 대응 비디오 앵커가 있는 경우, 비디오 앵커(120, 130, 140)는 새로 포커싱된 비디오에 대응하는 비디오 앵커들로 대체된다. 일부 구현에서, 비디오 앵커들은 각 비디오 검색 결과와 함께 제공되고 검색 시스템에 대한 후속 요청을 줄이기 위해 사용자 디바이스에 캐시된다.

3개의 비디오 앵커만이 도시되지만, 다른 구현에서는 더 많은 비디오 앵커가 도시될 수 있다. 추가적으로, 더 많은 비디오 앵커가 진행 바(112)의 대응하는 추가 시간 인디케이터에 의해 표시될 수 있고, 비디오 앵커에 대한 액세스는 추가 비디오 앵커들을 통해 "스크롤"하기 위한 제스처 입력(예를 들어, 오른쪽에서 왼쪽으로 스와이프)에 의해 실현되어, 비디오 앵커(140)의 위치에 다음 비디오 앵커를 도입하고, 비디오 앵커(140)를 비디오 앵커(130)의 위치로 시프트시키고, 마찬가지로 비디오 앵커(130)를 비디오 앵커(120)의 위치로 시프트시킬 수 있다. 제1 비디오 앵커(120)도 디스플레이에서 제거된다. 추가 비디오 앵커에 액세스하는데 다른 적절한 상호 작용 모델이 사용될 수도 있다.

일부 구현에서, 시스템은 하나 이상의 비디오 프레임 포함(inclusion) 기준에 기초하여 비디오 프레임의 이미지를 비디오 앵커에 포함할지 여부를 결정할 수 있다. 각 비디오 앵커에는 제한된 화면 공간이 있기 때문에, 비디오 프레임에서 생성된 이미지를 비디오 앵커에 포함할지 여부의 결정은 각 비디오 앵커에 대해 디스플레이된 데이터가 서로 비디오 앵커와 구별되도록 한다. 다시 말해서, 비디오 앵커가 대응하는 핵심 토픽에 대한 정보가 아닌 비디오 프레임은 일부 구현에서 비디오 앵커에서 생략될 수 있다. 예를 들어, 비디오가 강의 비디오이고 발표자의 비디오만 있는 경우, 각 비디오 앵커에 대한 발표자 이미지는 정보가 아니다. 따라서, 비디오 앵커에서 비디오 프레임을 사용하지 않음으로써, 보다 설명적인 텍스트 라벨이 사용될 수 있으며, 여기서 각 텍스트 라벨은 발표자가 논의하는 주제를 설명한다.

일부 구현에서, 선택된 비디오 프레임으로부터 생성된 이미지는 비디오 프레임의 썸네일이다. 이 설명에서 사용된 바와같이, 비디오 프레임의 "썸네일"은 그 썸네일이 묘사하는 실제 비디오 프레임보다 차원이 더 작은 비디오 프레임의 임의의 이미지이다. 다른 구현에서, 이미지는 비디오 프레임의 잘린 부분, 예를 들어 핵심 순간 식별자에 대해 결정된 핵심 토픽과 가장 관련이 있는 객체를 포함하는 비디오 프레임의 부분일 수 있다. 비디오 프레임에서 결정된 객체를 감지하고 식별하는데 임의의 적절한 객체 감지 프로세스가 사용될 수 있다.

"텍스트 전용(only)" 비디오 앵커의 예가 도 2에 도시되어 있는데, 이는 비디오 앵커가 디스플레이되는 다른 비디오 디스플레이 환경(200)의 예시이다. 디스플레이 환경(200)은, 예를 들어, 비디오 강의를 위한 비디오 플레이어일 수 있다. 비디오 플레이어 윈도우(202) 아래에는 3개의 비디오 앵커(210, 220, 230)가 있다. 각 비디오 앵커(210, 220, 230)는 비디오 플레이어의 진행 바(204)에 대응하는 시간 인디케이터(212, 222, 232)를 갖는다. 각 시간 인디케이터는 비디오 앵커에 대한 시간 인덱스 값에 의해 지정된 재생 시간에 해당한다. 추가적으로, 각 비디오 앵커(210, 220, 230)는 대응하는 시간 인디케이터(212, 222, 232)로부터 비디오 앵커로의 시각적 링크를 포함한다.

각 비디오 앵커(210, 220, 230)는 또한 각각이 비디오에서 핵심 토픽를 기술하는 텍스트 라벨(214, 224, 234)을 각각 포함한다. 일부 구현에서, 비디오 프레임이 포함되지 않은 경우, 텍스트 라벨은 비디오 프레임이 포함된 경우보다 더 설명적이다. 예를 들어, 비디오 프레임이 포함된 경우, 텍스트 라벨은 6단어로 제한될 수 있다. 그러나, 텍스트 라벨이 포함되지 않은 경우, 텍스트 라벨은 더 큰 단어 제한(예를 들어, 15단어)을 가질 수 있다. 물론 다른 단어 제한도 사용될 수 있다.

도 2는 또한 비디오 검색 결과가 제공되는 환경 이외의 환경에서 비디오 앵커가 사용될 수 있음을 도시한다. 특히, 비디오 앵커는 모든 비디오 재생 환경에서 제공될 수 있다.

도 3은 비디오용 비디오 앵커를 생성하는 시스템(300)의 블록도이다. 도 3의 아키텍처는 하나의 예시적인 아키텍처일 뿐이며, 다른 아키텍처도 사용될 수 있다. 시스템(300)의 동작은 비디오 앵커를 생성하기 위한 예시적인 프로세스(400)의 흐름도인 도 4를 참조하여 설명된다.

프로세스(400)는 비디오(302)에 대해, 핵심 순간 식별자들(303)을 획득한다(402). 각 핵심 순간 식별자(303)는 비디오에서 재생 시간을 지정하는 시간 인덱스 값을 포함하고, 비디오(302) 내의 핵심 토픽들을 정의하는 관심 기준(312)을 충족하도록 결정된 비디오(320)의 주제를 나타낸다. 비디오 내의 핵심 토픽들을 정의하는 관심 기준(312)은 비디오 유형에 기초하여 변할 수 있다. 예를 들어, 스포츠 비디오에 대한 관심 기준은 골 득점, 소유권 변경, 파울, 및 사용자들에게 특히 관심이 있는 것으로 결정될 수 있는 임의의 다른 이벤트를 포함하도록 핵심 토픽를 정의할 수 있다. 다른 예로서, 일련의 방식으로 다수의 상이한 아이템을 기술하는 비디오에 대한 관심 기준은 핵심 토픽을 도 1에 도시된 것처럼 하나의 주제 아이템에서 다른 주제 아이템으로의 포커스 변경으로 정의할 수 있으며, 핵심 순간은 개별 스마트 폰에 대한 각 리뷰의 시작 세그먼트(부분)에서 발생한다. 또 다른 예는 강의와 같이 주로 말하는 비디오를 위한 것이다. 이 비디오에서, 핵심 순간은 강사가 한 토픽에서 다음 토픽으로 변경하는 때일 수 있다. 또 다른 예는 교육용 비디오이다. 이 비디오에서, 관심 기준은 각 단계 또는 지침의 시작이 핵심 순간이라고 지정할 수 있다.

핵심 순간 식별자들은 관심 기준에 대해 트레이닝된 트레이닝된 신경망, 또는 관심 기준을 참조하는 결정론적 프로세스에 의해서와 같이 알고리즘 방식으로 결정될 수 있거나 인간 큐레이터에 의해 비디오와 함께 제공될 수 있다. 예를 들어, 핵심 순간을 획득하기 위해 텍스트 신호(306), 시각적 신호(308) 및 수동 큐레이션(310)이 사용될 수 있다. 텍스트 신호(306)와 관련하여, 시간 경과에 따른 비디오의 주제를 결정하기 위해 비디오 프레임에 광학 문자 인식이 사용될 수 있고, 또한 메타 데이터 뿐만 아니라 시간 경과에 따른 비디오의 주제를 결정하는데 폐쇄 캡션 데이터가 사용될 수 있다. 기계 학습 시스템은 시간 경과에 따른 비디오의 지배적인 의도를 결정하도록 트레이닝될 수 있으며, 지배적인 의도가 변경되는 경우 그 변경이 핵심 순간으로서 식별될 수 있다.

시각적 신호(308)는 또한 텍스트 신호 대신에 또는 그에 추가하여 사용될 수 있다. 예를 들어, 신경망에 의한 시각적 임베딩은 오디오 처리뿐만 아니라 시간 경과에 따른 비디오의 주제를 결정하는데 사용될 수 있다. 오디오 처리와 관련하여, 오디오는 시간이 지남에 따라 비디오의 주제를 식별하기 위해 텍스트로 변환될 수 있다. 다시 말하지만, 기계 학습 시스템은 시간 경과에 따른 비디오의 지배적인 의도를 결정하도록 트레이닝될 수 있으며, 지배적인 의도가 변경되는 경우 그 변경이 핵심 순간으로서 식별될 수 있다.

일부 텍스트 및 시각적 신호는 그 자체로 핵심 순간을 나타낼 수 있다. 이러한 신호는 의미론적으로 핵심 순간을 나타내거나 시각적으로 핵심 순간을 나타낸다. 예를 들어, "다음 단계(The next step)"라는 텍스트 또는 오디오는 주제로서 새로운 명령을 도입함을 나타낸다. 다른 이러한 신호에는 "넘어가는 중(Moving on)...", "다음 챕터..." 등이 포함될 수 있다. 이러한 텍스트 또는 오디오는 큐레이터에 의해 지정되거나 기계 학습 기술에 의해 비디오 코퍼스를 통해 학습될 수 있다. 비디오 신호와 관련하여, 장면 변경 또는 한 제품에서 다른 제품으로의 변경은 핵심 순간을 나타낼 수 있다. 마찬가지로, 공이 골문을 통과하거나 선수가 특정 행위(예를 들어, 공을 치는 것, 골라인을 통과하는 것 등)를 수행하는 이미지는 핵심 순간을 나타낼 수 있다. 이러한 비디오 프레임은 큐레이터에 의해 지정되거나 기계 학습 기술에 의해 비디오 코퍼스를 통해 학습될 수 있다. 일단 핵심 순간이 식별되면, 그 핵심 순간에 비디오에서 재생 시간을 지정하는 시간 인덱스 값이 결정된다.

프로세스(400)는 각 핵심 순간 식별자에 대해, 시간 인덱스 값에 의해 지정된 재생 시간에서 시작하는 비디오의 적절한 서브세트를 선택한다(404). 비디오의 적절한 서브세트는 대응하는 비디오 앵커에 포함할 이미지를 생성하기 위한 라벨 생성 및 비디오 프레임 선택을 위해 선택된다. 종종 핵심 순간들은 몇 분 간격으로 떨어져 있을 수 있으며, 인디케이터들 사이의 전체 비디오 처리는 식별된 핵심 주제에서 약간의 토픽 드리프트(편차)를 야기할 수 있다. 따라서, 비디오의 적절한 서브세트만 선택된다. 비디오의 적절한 서브세트는 시간 인덱스 값에 의해 지정된 재생 시간에 시작하고, 시간 인덱스 값에 의해 지정된 재생 시간에서 시작하여 다른 핵심 순간의 다른 시간 인덱스 값에 의해 지정된 다음의 가장 최근 재생 시간에서 끝나는 비디오 세그먼트의 길이보다 작다. 일부 구현에서, 비디오의 적절한 서브세트는 6초 길이일 수 있다. 예를 들어, 도 1을 참조하면, 제1 핵심 순간에 대한 비디오의 적절한 서브세크는 1:12-1:18이다. 다른 시간 길이도 사용될 수 있다.

각 핵심 순간 식별자에 대해, 프로세스(400)는 비디오의 적절한 서브세트에 대해 핵심 순간 식별자의 텍스트 라벨을 결정한다(406). 전술한 바와 같이, 텍스트 신호, 시각적 신호, 큐레이션된 데이터가 사용될 수 있다. 일부 구현에서, 텍스트 라벨은 비디오의 적절한 서브세트에 대한 가장 관련성이 높은 토픽을 결정하는 것에 응답하여 생성된다. 예를 들어, 비디오가 레시피 비디오이고 그 비디오의 적절한 서브세트에 다음 오디오인 "다음으로, 우리는 믹싱 볼(mixing bowl)에 있는 건조 재료를 털거나 숟가락으로 섞을 것입니다. ..."기계 학습 시스템 또는 언어 처리 시스템이 텍스트를 입력으로 받아 "건조 재료 혼합"이라는 레이블을 생성할 수 있도록 재료를 충분히 잘 섞어주세요"가 포함되어 있다고 가정한다.

라벨은 시각적 분석으로부터 생성될 수도 있다. 예를 들어, 비디오의 각 프레임은 그 프레임에 묘사된 컨텐츠를 설명하는 라벨을 결정하는 이미지 처리 시스템일 수 있다. 예를 들어, 레시피 비디오에서, 프레임이 먼저 요리사의 프레임이고 그 다음이 믹싱 볼 및 기구의 프레임이라고 가정한다. 이러한 라벨에는 "요리사, 믹싱 볼, 거품기, 밀가루"가 포함될 수 있다.

라벨들은 핵심 순간을 가장 잘 설명하는 라벨(들)을 결정하기 위해 점수가 매겨질 수 있다. 임의의 적절한 관련성 채점 프로세스가 사용될 수 있다. 추가적으로, 자연어 처리를 사용하여 레이블에서 사용자가 더 쉽게 이해할 수 있는 구를 생성할 수 있다.

프로세스(400)는 각 핵심 순간 식별자에 대해, 비디오의 적절한 서브세트로부터 비디오 프레임을 선택할지 여부를 결정하기 위해 비디오의 적절한 서브세트의 각 비디오 프레임을 처리한다(408). 각 비디오 앵커에는 제한된 양의 화면 공간이 있기 때문에, 비디오 앵커에 비디오 프레임을 포함할지 여부의 결정은 각 비디오 앵커에 대해 디스플레이된 데이터가 서로 비디오 앵커와 구별되도록 한다. 즉, 앵커가 대응하는 핵심 토픽에 대한 정보가 아닌 비디오 프레임은 비디오 앵커에 포함되지 않는다. 예를 들어, 비디오가 강의인 경우, 각 비디오 앵커의 발표자 이미지는 정보가 아니다. 따라서 비디오 앵커에서 비디오 프레임을 사용하지 않음으로써, 보다 설명적인 텍스트 라벨이 사용될 수 있으며, 여기서 각 텍스트 라벨은 화자가 논의하는 주제를 설명한다.

일부 구현에서, 비디오의 적절한 서브세트에서 비디오 프레임을 처리하는 동안, 비디오 프레임 선택 엔진(320)은 각 비디오 프레임에 대해, 비디오 프레임에 설명된 컨텐츠를 기술하는 프레임에 대한 라벨 세트를 결정한다. 라벨들은 위에서 설명한 대로 결정된 동일한 라벨일 수 있다. 그 후, 각 비디오 프레임에 대해, 시스템은 핵심 순간 식별자의 텍스트 라벨에 대한 비디오 프레임의 라벨 세트의 유사성을 측정하는 유사성 척도를 결정하고 그런 다음 비디오 앵커에 포함하기 위한 이미지를 생성하기 위한 가장 높은 유사성 척도를 갖는 비디오 프레임을 선택한다. 임의의 적절한 유사 측정 프로세스가 사용될 수 있다.

예를 들어, 레시피 비디오로 돌아가서, 비디오의 적절한 서브세트의 처음 3초는 요리사가 말하는 것을 묘사하고 나머지 3초는 건조 재료 및 기구가 있는 믹싱 볼을 묘사한다고 가정한다. 또한 세그먼트에 대한 라벨이 텍스트 및 시각적 신호로부터 결정되고 그 결정된 라벨은 "건조 재료 혼합"이라고 가정한다. 요리사의 비디오 프레임에는 건조 재료 및 혼합에 관한 일부 라벨들이 있을 수 있지만, 묘사된 사람을 설명하는 라벨도 있다. 믹싱 볼, 재료 및 기구를 묘사하는 프레임의 라벨들에는 믹싱 볼, 건조 재료 및 기구를 설명하는 라벨이 있다. 따라서, 비디오 앵커에 대해 결정된 라벨과 가장 유사한 라벨들이 있는 프레임들은 믹싱 볼, 재료 및 기구를 묘사하는 후자의 프레임이 된다.

일부 구현에서, 가장 높은 유사성 척도(유사도)를 갖는 프레임은 그것이 선택을 위한 최소 유사성 척도를 지정하는 선택 임계값을 충족하는 경우에만 선택된다. 선택 임계값은 선택된 프레임이 상기 식별된 핵심 순간에 대한 라벨들에 의해 설명되는 객체 또는 이벤트를 묘사할 가능성이 매우 높도록 선택될 수 있다.

처리 요건을 더 줄이기 위해, 일부 구현에서, 적절한 서브세트의 비디오 프레임은 다이버시티 척도를 결정하기 위해 서로 비교된다. 다이버시티 척도는 비디오 프레임과 비디오의 적절한 서브세트에 있는 하나 이상의 다른 비디오 프레임 간의 차이를 측정한다. 그 다음, 비디오 프레임의 선택은 다이버시티 척도에 부분적으로 기초할 수 있다.

다시 레시피 비디오로 돌아가서, 비디오의 적절한 서브세트의 처음 3초는 요리사가 말하는 것을 묘사하고 나머지 3초는 건조 재료 및 기구가 있는 믹싱 볼을 묘사한다고 가정한다. 다이버시티 척도는 비디오 프레임의 처음 3초는 매우 유사한 것으로 그룹화하고 비디오 프레임의 마지막 3초는 매우 유사한 것으로 그룹화한다. 따라서, 비디오 프레임을 선택하기 위해서는, 각 그룹으로부터 하나의 비디오 프레임만 처리하면 되며, 라벨에 대한 유사성 척도가 가장 높은 비디오 프레임이 선택될 것이다.

비디오가 비디오의 전체 적절한 서브세트에 대해 말하는 요리사에게 포커스되는 경우와 같이, 모든 프레임이 너무 유사하여 다이버시티 척도가 그들이 단일 그룹으로 그룹화되었음을 나타내는 경우, 단지 하나의 프레임이 선택될 수 있고 그의 유사성 척도가 결정된다. 비디오 프레임이 유사성 임계값을 충족하지 않으면, 그것은 비디오 앵커에 포함할 이미지를 생성하기 위해 선택되지 않는다.

다른 구현에서, 모든 프레임이 너무 유사하여 그들이 다이버시티 척도가 단일 그룹으로 그룹화되었음을 나타내는 경우, 비디오 프레임이 선택되지 않고 대신 비디오 앵커에 텍스트 라벨만 사용된다.

프로세스(400)는 각각의 핵심 순간 식별자에 대해, 비디오 앵커를 생성한다(410). 각 비디오 앵커에는 핵심 순간 식별자에 대한 텍스트 라벨, 비디오 프레임으로부터 생성된 이미지(하나를 선택하기로 결정된 경우), 및 사용자 디바이스의 비디오 플레이어가 핵심 순간 식별자의 시간 인덱스 값에 의해 지정된 재생 시간에 비디오 재생을 시작하게 하는 명령이 포함된다. 그 다음, 비디오 앵커들은 비디오 앵커 인덱스(330)에 저장되고, 그들이 대응하는 비디오들과 연관된다.

나중에, 사용자 디바이스(370)는 비디오를 요청하기 위해 비디오 요청(340)을 발행할 수 있다. 요청은 비디오 검색 환경에서 비디오 검색에 대한 응답이거나 일부 다른 비디오 재생 환경을 통해 비디오에 직접 액세스하는 것에 대한 응답일 수 있다.

이에 응답하여, 프로세스(400)는 사용자 디바이스가 비디오 플레이어 환경에서 각각의 비디오 앵커를 렌더링하게 하는 데이터를 사용자 디바이스로 제공한다(412).

비디오 앵커의 사용자 디바이스 측 처리는 사용자 디바이스에서 비디오 앵커를 처리하기 위한 예시적인 프로세스(400)의 흐름도인 도 5를 참조하여 설명된다.

프로세스(500)는 사용자 디바이스가 비디오 플레이어에서 비디오 앵커 세트를 렌더링하게 하는 데이터를 수신하고(502), 그런 다음(500) 비디오 앵커 세트에 있는 각각의 비디오 앵커를 렌더링한다(504). 예를 들어, 데이터는 각 비디오 앵커에 대해, 비디오 플레이어의 진행 바에서 시간 인디케이터를 정의하는 데이터를 포함하는데, 여기서 시간 인디케이터는 시간 인덱스 값에 의해 지정된 재생 시간에 해당하며, 해당 시간 인디케이터로부터 디비오 앵커까지의 시각적 링크이다. 비디오 앵커는 또한 핵심 토픽를 설명하는 라벨, 및 비디오 프레임을 묘사하는 이미지, 예를 들어 비디오 프레임의 썸네일 또는 비디오 프레임이 비디오 앵커에 대해 선택된 경우 비디오 프레임의 잘린 부분을 포함한다.

프로세스(500)는 비디오 플레이어의 비디오 재생 윈도우에서 비디오의 제1 프레임을 렌더링한다(506). 예를 들어, 비디오 재생 전에, 비디오 플레이어는 초기 상태이고 비디오 재생 윈도우에는 비디오의 제1 프레임이 디스플레이된다.

프로세스(500)는 비디오 앵커들 중 하나의 선택에 응답하여, 사용자 디바이스가 비디오 앵커의 시간 인덱스 값에 의해 지정된 재생 시간으로부터 비디오의 재생을 시작하게 한다(508). 예를 들어, 사용자가 도 1의 비디오 앵커(130)를 선택하는 경우, 비디오 앵커에 임베딩된 명령은 사용자 디바이스로 하여금 2:13의 재생 시간에 비디오 플레이어 윈도우(110)에서 비디오의 재생을 시작하게 할 것이다.

일부 구현에서, 비디오 플레이어의 진행 바에 있는 각각의 대응하는 시간 인디케이터는 대응하는 시간 인디케이터의 재생 시간에서 시작하는 비디오 부분의 시간 길이를 표시한다. 그렇게 표시된 비디오의 일부는 라벨과 관련이 있는 것으로 결정된 비디오의 일부일 수 있다. 예를 들어, 도 2에 도시된 바와 같이, 점선 인디케이터(213, 223, 233)는 비디오 앵커의 라벨과 가장 관련이 있다고 결정된 비디오의 개별 부분에 대응한다. 관련성은 전술한 프로세스에 의해 결정될 수 있다.

본 명세서에 논의된 시스템이 사용자에 대한 개인 정보를 수집하거나 개인 정보를 사용할 수 있는 상황에서, 사용자들은 애플리케이션 또는 기능이 사용자 정보(예를 들어, 사용자의 소셜 정보 네트워크, 소셜 액션 또는 활동, 직업, 사용자의 선호도 또는 사용자의 현재 위치)를 수집하는지 여부를 제어하거나, 또는 사용자와 더 관련이 있을 수 있는 컨텐츠를 수신할지 여부 및/또는 수신 방법을 제어할 기회를 제공받을 수 있다. 또한 특정 데이터는 개인 식별 정보가 제거될 수 있도록 저장 또는 사용되기 전에 하나 이상의 방식으로 처리될 수 있다. 예를 들어, 사용자의 신원은 사용자에 대한 개인 식별 정보가 결정될 수 없도록 처리될 수 있으며, 사용자의 지리적 위치는 사용자의 특정 위치가 결정될 수 없도록 위치 정보가 획득된 곳(예를 들어, 도시, 우편 번호 또는 주 수준)으로 일반화될 수 있다. 따라서, 사용자는 사용자에 대한 정보를 수집하고 컨텐츠 서버에서 사용하는 방법을 제어할 수 있다.

본 명세서에 기술된 주제 및 동작의 실시예는 본 명세서에 개시된 구조 및 그 구조적 등가물을 포함하는 디지털 전자 회로, 또는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에 기술된 주제의 실시예는 하나 이상의 컴퓨터 프로그램, 즉, 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위해 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램 명령의 하나 이상의 모듈로서 구현될 수 있다.

컴퓨터 저장 매체는 컴퓨터 판독가능 저장 디바이스, 컴퓨터 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 어레이 또는 디바이스, 또는 이들 중 하나 이상의 조합일 수 있거나 이에 포함될 수 있다. 더욱이, 컴퓨터 저장 매체는 전파 신호가 아니지만, 컴퓨터 저장 매체는 인위적으로 생성된 전파 신호로 인코딩된 컴퓨터 프로그램 명령의 소스 또는 목적지가 될 수 있다. 컴퓨터 저장 매체는 또한 하나 이상의 개별 물리적 컴포넌트 또는 매체(예를 들어, 다중 CD, 디스크 또는 기타 저장 디바이스)일 수 있거나 이에 포함될 수 있다.

본 명세서에서 설명되는 동작들은 하나 이상의 컴퓨터 판독 가능 저장 디바이스에 저장되거나 다른 소스로부터 수신된 데이터에 대해 데이터 처리 장치에 의해 수행되는 동작으로 구현될 수 있다.

"데이터 처리 장치"라는 용어는 예를 들어, 프로그램 가능한 프로세서, 컴퓨터, 시스템 온 칩(system on a chip), 또는 전술한 것들 중 다수 또는 이들의 조합을 포함하여 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 장치는 예를 들어 FPGA 또는 ASIC과 같은 특수 목적 논리 회로를 포함할 수 있다. 장치는 또한 하드웨어에 추가하여, 해당 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 플랫폼 간 런타임 환경, 가상 머신 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 장치 및 실행 환경은 웹 서비스, 분산 컴퓨팅 및 그리드 컴퓨팅 인프라와 같은 다양한 컴퓨팅 모델 인프라를 실현할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드로도 알려짐)은 컴파일된 또는 해석된 언어, 선언적 또는 절차적 언어를 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴, 객체 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 단위를 포함하여 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 대응할 수 있지만 반드시 그런 것은 아니다. 프로그램은 다른 프로그램이나 데이터(예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하는 파일의 일부, 해당 프로그램 전용 단일 파일 또는 다수의 조정 파일(예를 들어, , 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있고 통신 네트워크로 상호 연결된 다수의 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에 설명된 프로세스 및 논리 흐름은 입력 데이터에 대해 동작하고 출력을 생성함으로써 동작을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 프로세서에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 또한 FPGA 또는 ASIC과 같은 특수 목적 논리 회로에 의해 수행될 수 있고 장치도 이들로 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 프로세서는 예를 들어 범용 및 특수 목적 마이크로프로세서, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로 프로세서는 판독 전용 메모리나 랜덤 액세스 메모리 또는 둘 다로부터 명령과 데이터를 수신한다. 컴퓨터의 필수 요소는 명령들에 따라 동작을 수행하기 위한 프로세서와 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어 자기, 광자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 이들로 데이터를 전송하거나 둘 모두를 포함하거나 작동 가능하게 연결된다. 그러나, 컴퓨터에는 그러한 디바이스가 필요하지 않다. 또한, 컴퓨터는 다른 디바이스, 예를 들어 이동 전화, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기, 또는 휴대용 저장 디바이스(예를 들어, USB 플래시 드라이브)에 내장될 수 있다, 컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 디바이스는 예를 들어 반도체 메모리 디바이스(예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스); 자기 디스크(예를 들어, 내부 하드 디스크 또는 이동식 디스크); 자기 광 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.

사용자와의 상호작용을 제공하기 위해, 본 명세서에 설명된 주제의 실시예는 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인티 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 디바이스를 사용하여 사용자와의 상호 작용도 제공할 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각적 피드백 또는 촉각적 피드백과 같은 임의의 형태의 감각적 피드백일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하여 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스로 문서를 보내고 그로부터 문서를 수신함으로써 예를 들어, 웹 브라우저에서 수신된 요청에 응답하여 사용자의 사용자 디바이스에서 웹 브라우저로 웹 페이지를 전송함으로써 사용자와 상호 작용할 수 있다.

본 명세서에 설명된 주제의 실시예는 백엔드 컴포넌트(예를 들어, 데이터 서버)를 포함하거나, 미들웨어 컴포넌트(예를 들어, 애플리케이션 서버)를 포함하거나, 프론트 엔드 컴포넌트(예를 들어, 사용자가 본 명세서에 설명된 주제의 구현과 상호 작용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 사용자 컴퓨터)를 포함하는 컴퓨팅 시스템, 또는 하나 이상의 이러한 백엔드, 미들웨어 또는 프론트 엔드 컴포넌트의 조합으로 구현될 수 있다. 시스템의 컴포넌트는 통신 네트워크와 같은 디지털 데이터 통신의 임의의 형태 또는 매체에 의해 상호 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 네트워크 간(예를 들어, 인터넷) 및 피어 투 피어 네트워크(예를 들어, 애드 혹 피어 투 피어 네트워크)를 포함한다. ).

컴퓨팅 시스템은 사용자 및 서버를 포함할 수 있다. 사용자와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 사용자와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로에 대한 사용자-서버 관계를 갖는 컴퓨터 프로그램 덕분에 발생한다. 일부 실시예에서, 서버는 (예를 들어, 사용자 디바이스에 데이터를 디스플레이하고 사용자 디바이스와 상호작용하는 사용자로부터 사용자 입력을 수신하기 위해) 사용자 디바이스로 데이터를 전송한다. 사용자 디바이스에서 생성된 데이터(예를 들어, 사용자 상호작용의 결과)는 서버에서 사용자 디바이스로부터 수신될 수 있다.

본 명세서는 많은 특정 구현 세부사항을 포함하지만, 이들은 임의의 특징 또는 청구될 수 있는 것의 범위에 대한 제한으로 해석되어서는 안되며, 오히려 특정 실시예에 특정한 특징의 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에 설명된 특정 특징은 단일 실시예에서 조합하여 구현될 수도 있다. 역으로, 단일 실시예의 맥락에서 설명된 다양한 특징은 또한 개별적으로 또는 임의의 적절한 하위 조합으로 다수의 실시예에서 구현될 수 있다. 더욱이, 특징들이 특정 조합으로 작용하는 것으로 위에서 설명될 수 있고 심지어 초기에 그렇게 청구될 수도 있지만, 청구된 조합의 하나 이상의 특징은 일부 경우에 조합에서 제거될 수 있고 청구된 조합은 하위 조합 또는 하위 조합의 변형에 관한 것일 수 있다.

유사하게, 동작들이 도면에 특정 순서로 도시되어 있지만, 이는 바람직한 결과를 달성하기 위해 이러한 동작들이 도시된 특정 순서 또는 순차적인 순서로 수행되거나 모든 예시된 동작이 수행되어야 함을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서는 멀티태스킹과 병렬 처리가 유리할 수 있다. 더욱이, 위에서 설명된 실시예에서 다양한 시스템 컴포넌트의 분리는 모든 실시예에서 그러한 분리를 요구하는 것으로 이해되어서는 안되며, 설명된 프로그램 컴포넌소트 및 시스템은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품에 패키지될 수 있음을 이해해야 한다.

따라서, 주제의 특정 실시예가 설명되었다. 다른 실시예는 다음 청구항의 범위 내에 있다. 어떤 경우에는 청구범위에 인용된 동작들이 다른 순서로 수행될 수 있으며 여전히 바람직한 결과를 얻을 수 있다. 또한, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차적인 순서를 반드시 필요로 하는 것은 아니다. 특정 구현에서 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

컴퓨터 구현 방법으로서, 상기 방법은,
하나 이상의 프로세서를 포함하는 사용자 컴퓨팅 디바이스에서, 사용자 컴퓨팅 디바이스가 비디오 앵커 세트를 비디오 플레이어에 렌더링하게 하는 데이터를 수신하는 단계와, 상기 비디오 앵커 세트의 각 비디오 앵커는,
핵심 순간(key moment) 식별자에 대한 텍스트 라벨과, 상기 핵심 순간 식별자는 비디오의 재생 시간을 지정하는 시간 인덱스 값을 포함하고, 그리고 상기 핵심 순간 식별자는 비디오 내의 중요 토픽(salient topics)을 정의하는 하나 이상의 관심 기준을 충족하는 것으로 결정된 비디오의 주제를 나태내고; 그리고
사용자 컴퓨팅 디바이스의 비디오 플레이어가 핵심 순간 식별자의 시간 인덱스 값에 의해 지정된 재생 시간에서 비디오의 재생을 시작하게 하는 명령을 포함하고;
사용자 컴퓨팅 디바이스에 의해, 비디오 플레이어의 진행 바에 비디오 앵커 세트의 각 비디오 앵커를 렌더링하는 단계와;
사용자 컴퓨팅 디바이스에 의해, 비디오 플레이어에 비디오의 제1 프레임을 렌더링하는 단계와;
사용자 컴퓨팅 디바이스에 의해, 비디오 앵커 세트 중 특정 비디오 앵커의 선택을 수신하는 단계와; 그리고
비디오 앵커 세트 중 특정 비디오 앵커의 선택을 수신하는 것에 응답하여, 사용자 컴퓨팅 디바이스가 특정 비디오 앵커의 시간 인덱스 값에 의해 지정된 재생 시간부터 비디오의 재생을 시작하게 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 비디오 앵커 세트의 각각의 비디오 앵커는,
각각의 비디오 앵커와 관련된 비디오의 서브세트의 비디오 프레임을 선택하기로 한 결정에 응답하여, 비디오 프레임을 묘사하는 이미지를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
사용자 컴퓨팅 디바이스에 의해, 디스플레이할 비디오 플레이어 환경을 제공하는 단계를 더 포함하고, 상기 비디오 플레이어 환경은,
각 비디오 앵커; 및
각 비디오 앵커에 대해, 비디오 플레이어의 진행 바에 있는 시간 표시자 (indicator)를 포함하고, 상기 시간 표시자는 시간 인덱스 값에 의해 지정된 재생 시간에 대응하는 것을 특징으로 하는 컴퓨터 구현 방법.
제3항에 있어서,
비디오 플레이어의 진행 바에 있는 각각의 대응하는 시간 표시자는,
대응하는 시간 표시자의 재생 시간에서 시작하는 비디오 부분의 시간 길이를 나타내는 것을 특징으로 하는 컴퓨터 구현 방법.
제4항에 있어서,
상기 재생 시간에 시작하는 비디오 부분의 시간 길이는,
비디오 앵커의 라벨에 대한 적어도 최소 관련성을 나타내는 최소 관련성 임계값을 충족하는 것으로 결정된 비디오 부분인 것을 특징으로 하는 컴퓨터 구현 방법.
제3항에 있어서,
상기 각 비디오 앵커는 사용자에 의해 선택 가능하며, 상기 비디오 앵커의 선택 시 비디오 앵커의 명령은 사용자 디바이스의 비디오 플레이어가 시간 인덱스 값에 의해 지정된 재생 시간에서 비디오의 재생을 시작하게 하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
각 비디오 앵커는 핵심 순간 식별자와 관련된 데이터를 처리함으로써 생성되는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 핵심 순간 식별자와 관련된 데이터를 처리하는 단계는,
시간 인덱스 값에 의해 지정된 재생 시간에서 시작하는 비디오의 서브세트를 선택하는 단계와;
비디오의 서브세트에 대해, 핵심 순간 식별자에 대한 텍스트 라벨을 결정하는 단계와;
비디오의 서브세트로부터 비디오 프레임을 선택할지 여부를 결정하기 위해 비디오의 서브세트의 각각의 비디오 프레임을 처리하는 단계와; 그리고
핵심 순간 식별자에 대해, 비디오 앵커를 생성하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제8항에 있어서,
상기 비디오의 서브세트는,
시간 인덱스 값에 의해 지정된 재생 시간에서 시작하고 다른 핵심 순간 식별자의 다른 시간 인덱스 값에 의해 지정된 다음 가장 최근 재생 시간에서 끝나는 비디오 세그먼트의 길이보다 작은 것을 특징으로 하는 컴퓨터 구현 방법.
제8항에 있어서,
상기 비디오의 서브세트로부터 비디오 프레임을 선택할지 여부를 결정하기 위해 비디오의 적절한 서브세트의 각 비디오 프레임을 처리하는 단계는,
각 비디오 프레임에 대해, 비디오 프레임에 기술된 컨텐츠를 설명하는 프레임에 대한 라벨 세트를 결정하는 단계와;
각 비디오 프레임에 대해, 핵심 순간 식별자를 위한 텍스트 라벨에 대한 비디오 프레임에 대한 라벨 세트의 유사성을 측정하는 유사성 척도를 결정하는 단계와; 그리고
비디오 앵커에 포함시키기 위해 가장 높은 유사성 척도를 갖는 비디오 프레임을 선택하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
컴퓨팅 시스템으로서, 상기 시스템은,
하나 이상의 프로세서; 및
하나 이상의 프로세서에 의해 실행될 때 컴퓨팅 시스템으로 하여금 동작들을 수행하게 하는 명령들을 집합적으로 저장하는 하나 이상의 비-일시적 컴퓨터 판독 가능 매체를 포함하고, 상기 동작들은:
사용자 컴퓨팅 디바이스가 비디오 앵커 세트를 비디오 플레이어에 렌더링하게 하는 데이터를 수신하는 동작과, 상기 비디오 앵커 세트의 각 비디오 앵커는,
핵심 순간 식별자에 대한 텍스트 라벨과, 상기 핵심 순간 식별자는 비디오의 재생 시간을 지정하는 시간 인덱스 값을 포함하고, 그리고 상기 핵심 순간 식별자는 비디오 내의 중요 토픽을 정의하는 하나 이상의 관심 기준을 충족하는 것으로 결정된 비디오의 주제를 나태내고; 그리고
사용자 컴퓨팅 디바이스의 비디오 플레이어가 핵심 순간 식별자의 시간 인덱스 값에 의해 지정된 재생 시간에서 비디오의 재생을 시작하게 하는 명령을 포함하고;
비디오 플레이어의 진행 바에 비디오 앵커 세트의 각 비디오 앵커를 렌더링하는 동작과;
비디오 플레이어에 비디오의 제1 프레임을 렌더링하는 동작과;
비디오 앵커 세트 중 특정 비디오 앵커의 선택을 수신하는 동작과; 그리고
비디오 앵커 세트 중 특정 비디오 앵커의 선택을 수신하는 것에 응답하여, 사용자 컴퓨팅 디바이스가 특정 비디오 앵커의 시간 인덱스 값에 의해 지정된 재생 시간부터 비디오의 재생을 시작하게 하는 동작을 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
제11항에 있어서,
각 비디오 앵커에 대해, 비디오 플레이어의 진행 바에 있는 시간 표시자가 렌더링되고, 상기 시간 표시자는 시간 인덱스 값에 의해 지정된 재생 시간에 대응하는 것을 특징으로 하는 컴퓨팅 시스템.
제12항에 있어서,
상기 사용자 컴퓨팅 디바이스가 비디오 앵커 세트를 비디오 플레이어에 렌더링하게 하는 데이터는,
사용자 디바이스가 각 비디오 앵커에 대해, 대응하는 시간 표시자로부터 비디오 앵커까지의 시각적 링크를 추가로 렌더링하게 하는 것을 특징으로 하는 컴퓨팅 시스템.
제12항에 있어서,
상기 비디오 플레이어의 진행 바에 있는 각각의 대응하는 시간 표시자는,
대응하는 시간 표시자의 재생 시간에서 시작하는 비디오 부분의 시간 길이를 나타내는 것을 특징으로 하는 컴퓨팅 시스템.
제14항에 있어서,
상기 재생 시간에서 시작하는 비디오 부분의 시간 길이는,
비디오 앵커의 라벨에 대한 적어도 최소 관련성을 나타내는 최소 관련성 임계값을 충족하는 것으로 결정된 비디오 부분인 것을 특징으로 하는 컴퓨팅 시스템.
하나 이상의 컴퓨팅 디바이스에 의해 실행될 때, 하나 이상의 컴퓨팅 디바이스로 하여금 동작들을 수행하게 하는 명령들을 집합적으로 저장하는 하나 이상의 비-일시적 컴퓨터 판독 가능 매체로서, 상기 동작들은:
사용자 컴퓨팅 디바이스가 비디오 앵커 세트를 비디오 플레이어에 렌더링하게 하는 데이터를 수신하는 단계와, 상기 비디오 앵커 세트의 각 비디오 앵커는,
핵심 순간 식별자에 대한 텍스트 라벨과, 상기 핵심 순간 식별자는 비디오의 재생 시간을 지정하는 시간 인덱스 값을 포함하고, 그리고 상기 핵심 순간 식별자는 비디오 내의 중요 토픽을 정의하는 하나 이상의 관심 기준을 충족하는 것으로 결정된 비디오의 주제를 나태내고; 그리고
사용자 컴퓨팅 디바이스의 비디오 플레이어가 핵심 순간 식별자의 시간 인덱스 값에 의해 지정된 재생 시간에서 비디오의 재생을 시작하게 하는 명령을 포함하고;
비디오 플레이어의 진행 바에 비디오 앵커 세트의 각 비디오 앵커를 렌더링하는 단계와;
비디오 플레이어에 비디오의 제1 프레임을 렌더링하는 단계와;
비디오 앵커 세트 중 특정 비디오 앵커의 선택을 수신하는 단계와; 그리고
비디오 앵커 세트 중 특정 비디오 앵커의 선택을 수신하는 것에 응답하여, 사용자 컴퓨팅 디바이스가 특정 비디오 앵커의 시간 인덱스 값에 의해 지정된 재생 시간부터 비디오의 재생을 시작하게 하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제16항에 있어서,
상기 비디오 앵커 세트는,
복수의 핵심 순간 식별자를 처리하는 것에 기초하여 생성되는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제16항에 있어서,
상기 사용자 컴퓨팅 디바이스는 모바일 컴퓨팅 디바이스를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제16항에 있어서,
상기 동작들은,
검색 질의를 획득하는 단계와; 그리고
비디오가 검색 질의에 응답한다고 결정하는 단계를 더 포함하고, 상기 사용자 컴퓨팅 디바이스가 비디오 앵커 세트를 비디오 플레이어에 렌더링하게 하는 데이터는 비디오가 검색 질의에 응답한다는 결정에 응답하여 획득되는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제19항에 있어서,
상기 동작들은,
복수의 추가 비디오 검색 결과가 검색 질의와 연관되어 있다고 결정하는 단계와; 그리고
사용자 컴퓨팅 디바이스가 비디오 플레이어에 디스플레이된 비디오와 함께 디스플레이할 복수의 추가 비디오 검색 결과를 제공하게 하는 단계를 더 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.