WO2017107449A1 - 网页视频抓取的方法及网页视频抓取的装置 - Google Patents
网页视频抓取的方法及网页视频抓取的装置 Download PDFInfo
- Publication number
- WO2017107449A1 WO2017107449A1 PCT/CN2016/088955 CN2016088955W WO2017107449A1 WO 2017107449 A1 WO2017107449 A1 WO 2017107449A1 CN 2016088955 W CN2016088955 W CN 2016088955W WO 2017107449 A1 WO2017107449 A1 WO 2017107449A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- video
- channel
- time
- capture
- update
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Definitions
- FIG. 1 is a flowchart of an embodiment of a method for capturing webpage video according to the present application
- the method for crawling webpage video provided by the embodiment of the present application is directed to the popularity of the user who posted the video on the video website (ie, the popularity of the user on the channel) and the update time of the video of the user who posted the video on each channel. Calculating a next update time of each video, and determining a capture time of each channel video according to a next update time of the video of each channel, and then fetching each of the videos according to the capture time of each video Channel video, video capture is time-sensitive, and The technical solution of the prior art polling does not exist.
- the solution provided by the embodiment of the present application only captures the video on the webpage when determining the good video capture time when the webpage video is captured, which greatly saves the scheme. Network resources.
- the collecting time of the video of each channel is collected, and the timetable for updating the video is established, including: collecting the publishing time of the video of each channel. And calculating a time interval of each update of the video of each channel and an updated time period, establishing a schedule of the video update.
- the schedule of the video update can be referred to Table 1 below.
- the calculating the next update time of the video of each channel according to the heat of the respective channels and the schedule of the video update including And calculating a video next update time of each channel according to the heat of each channel, the time interval of each update of the video, and the updated time period.
- the method includes storing information of the video of the captured respective channels.
- the computer readable recording medium includes any mechanism for storing or transmitting information in a form readable by a computer (eg, a computer).
- a machine-readable medium includes read only memory (ROM), random access memory (RAM), magnetic disk storage media, optical storage media, flash storage media, electrical, optical, acoustic, or other forms of propagation signals (eg, carrier waves) , infrared signals, digital signals, etc.).
- the evaluation module is configured to calculate a video next update time of each channel according to the heat of each channel and a schedule of the video update, and determine a video of each channel according to a video next update time of each channel.
- the video capture module is configured to capture the video of each channel according to the determined capture time of the video of each channel.
- the webpage video capture device provided by the embodiment of the present application calculates the next update time of each video according to the heat of each channel of the user and the update time of the video of each channel, and according to the next video of the video of each channel.
- the update time determines the crawl time of the video of each channel, and then captures the video of each channel according to the capture time of each video, the timeliness of video capture is high, and there is no prior art wheel
- the solution provided by the embodiment of the present application only captures the video on the webpage when the webpage video is captured, and the scheme greatly saves the network resources.
- the collecting module 21 collects related information of each channel, including: the recording module 21 collects the number of videos, the number of subscriptions, and the total number of plays of each channel; and calculates the heat of each channel according to the related information of each collected channel.
- the heat of each channel is calculated according to the number of videos, the number of subscriptions, and the total number of plays of each channel collected.
- the evaluation module 23 calculates the next update time of the video of each channel according to the heat of the respective channels and the schedule of the video update.
- the method includes: the evaluation module 23 calculates a video next update time of each channel according to the heat of the respective channels, the time interval of each update of the video, and the updated time period.
- the video capture module 25 stores the information of the captured video of each channel, the video capture module 25 The video of each of the captured channels is recommended to the user.
- a webpage video capture method can implement a related function through a hardware processor.
- the hardware processor performs a webpage video capture provided by an embodiment of the present application.
- the method may include the following steps: Step 11, collecting related information of each channel, calculating the heat of each channel according to the collected related information of each channel; Step 13, collecting the release time of the video of each channel, establishing a video update a timetable; step 15, calculating a video next update time of each channel according to the heat of each channel and a schedule of the video update; and step 17, determining, according to the video next update time of each channel, the respective channels
- the capture time of the video is captured; in step 19, the video of each channel is captured according to the determined capture time of the video of each channel.
- the device embodiments described above are merely illustrative, wherein the modules described as separate components may or may not be physically separate, and the components displayed as modules may or may not be physical modules, ie may be located A place, or it can be distributed to multiple network modules. Some or all of the modules may be selected according to actual needs to achieve the purpose of the solution of the embodiment. Those of ordinary skill in the art can understand and implement without deliberate labor.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种网页视频抓取方法,包括:收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度(11);收集各个频道的视频的发布时间,建立视频更新的时间表(13);根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间(15);根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频(17)。该方案在抓取网页视频时只在确定好的视频抓取时间去网页上抓取视频,极大的节约了网络资源。
Description
本申请要求于2015年12月23日提交中国专利局、申请号为201510977935.X,发明名称为“网页视频抓取的方法及网页视频抓取的终端设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请实施例涉及网络搜索技术领域,尤其涉及一种网页视频抓取的方法及网页视频抓取的装置。
1994年基于WEB的搜索引擎出现以来,搜索引擎便得到了极大的发展。搜索引擎解决了海量互联网资源的快速定位和检索,在人们日常生活和工作中发挥了越来越大的作用。作为搜索引擎的重要一部分,网页信息抓取技术,即抓取技术的发展也是越来越成熟。在计算机领域,越来越多的网络抓取技术都以开源的方式提供给开发人员和企业应用。
随着视频网站在国内的普及和蓬勃发展,人们的互联网生活几乎与视频网站已经密不可分。人们不仅十分喜欢视频这种直观的信息获取方式,而且爱浏览视频,并且很多人都亲自参与视频的拍摄和制作,并发布视频于视频站点与网友们共享和交流。
随着互联网技术的发展,搜索引擎技术在其中扮演着越来越重要的角色。网络爬虫决定搜索引擎的数量来源,是搜索引擎系统的重要组成部分。YouTube是设立在美国的一个视频分享网站,该网站鼓励用户上传视频、观看视频及分享视频或短片,至今YouTube已经成为影音网站的翘楚。
为丰富全网视频搜索的内容,对于YouTube上视频数据的抓取目前广泛采用定时轮询的方案。然而从现有YouTube中遍历几十万的频道,定时抓取视频数据资源耗费太太。具体到各个频道,不同的频道有不同的播放总数、视频总量及订阅数,而且不同的频道更新周期不同,由此,定时轮询存在着严重的时效性及资源浪费的问题。
有鉴于此,本申请实施例提供一种网页视频抓取的方法及网页视频抓取的装置,可以实现在抓取网页视频时时效性高,而且在抓取网页视频时节约网络资源。
发明内容
本申请实施例提供一种网页视频抓取的方法及一种网页视频抓取的设备,可以全部或者部分解决现有技术中在抓取网页视频时使用的定时轮询的方法存在严重的时效性差及资源浪费的的技术问题。
本申请实施例提供一种网页视频抓取的方法,包括:
收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;
收集各个频道的视频的发布时间,建立视频更新的时间表;
根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;
根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;
按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。
本申请实施例还提供一种在其上记录有配置为执行上述方法的程序的计算机可读记录介质。
本申请实施例提供一种网页视频抓取装置,包括:
记录模块,配置为收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度,并收集各个频道的视频的发布时间,建立视频更新的时间表;
评估模块,配置为根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,并根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;
视频抓取模块,配置为按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。
本申请实施例提供的一种网页视频抓取的方法及一种网页视频抓取装置,针对用户的各个频道的热度和各个频道的视频的更新时间,计算各个视频的下次更新时间,并根据所述各个频道的视频的下次更新时间确定所述各个频道视频的抓取时间,进而根据所述各个视频的抓取时间来抓取所述各个频道的视频,视频抓取的时效性高,而且不会存在现有技术的轮询的技术方案,本申请实施例所提供的方案在抓取网页视频时只在确定好的视频抓取时
间去网页上抓取视频,该方案极大的节约了网络资源。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种网页视频抓取的方法实施例的流程图;
图2为本申请一种网页视频抓取装置实施例的结构示意图。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,本申请一种网页视频抓取的方法实施例示意图,应用于服务器端。本申请实施例提供一种网页视频抓取的方法包括:
步骤11,收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;
步骤13,所述收集各个频道的视频的发布时间,建立视频更新的时间表;
步骤15,根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;
步骤17,根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;
步骤19,按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。
本申请实施例提供的一种网页视频抓取的方法,针对发布视频的用户在视频网站的热度(即所述用户在所述频道的热度)和发布视频的用户在各个频道的视频的更新时间,计算各个视频的下次更新时间,并根据所述各个频道的视频的下次更新时间确定所述各个频道视频的抓取时间,进而根据所述各个视频的抓取时间来抓取所述各个频道的视频,视频抓取的时效性高,而
且不会存在现有技术的轮询的技术方案,本申请实施例所提供的方案在抓取网页视频时只在确定好的视频抓取时间去网页上抓取视频,该方案极大的节约了网络资源。
具体地,根据本申请一种网页视频抓取的方法实施例所公开的技术方案,所述收集各个频道的相关信息包括:收集各个频道的视频数、订阅数和播放总数;则所述根据所述收集的各个频道的相关信息计算各个频道的热度包括根据所述收集的各个频道的视频数、订阅数和播放总数计算各个频道的热度。
具体地,根据本申请一种网页视频抓取的方法实施例所公开的技术方案,所述收集各个频道的视频的发布时间,建立视频更新的时间表,包括:收集各个频道的视频的发布时间,计算各个频道的视频每次更新的时间间隔和更新的时间段,建立所述视频更新的时间表。所述视频更新的时间表可以参考如下表1。
表1
频道 | 发布时间 |
娱乐 | 2015年12月1日19:00 |
新闻 | 2015年12月3日9:00 |
具体地,根据本申请一种网页视频抓取的方法实施例所公开的技术方案,所述根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,包括:根据所述各个频道的热度、所述视频每次更新的时间间隔和更新的时间段计算各个频道的视频下次更新时间。
根据本申请也在网页视频抓取的方法实施例所公开的技术方案,所述各个频道的热度表示发布视频的用户在发布视频的网站的热度,即所述发布视频的用户在发布视频的网站受欢迎的程度,即热门程度,热度越高代表所述发布视频的用户在所述网站越是受欢迎。热度的计算可以通过多次试验进行验证,针对某频道对所述收集的视频数、订阅数和播放总数赋予不同的权重来计算各个频道的热度。例如,通过分析用户习惯,各个权重由高到低依次为:订阅数、播放总数和视频数。
下面以一个比较热门的用户频道作为例子进行介绍。第一步:抓取其视频总数(video_num)、用户订阅数(fans_num)及播放总数(play_total),设置其热度为fans_num*0.7+play_total*0.2+video_num*0.1;第二步:抓取改用户频道
下的各个视频及其更新时间,如果视频数过多,则截取其最近的1万条视频信息,根据视频与更新时间的对应关系,建立视频更新时间表;第三步:、通过分析视频更新时间表,分析用户习惯和计算相邻两视频间的更新间隔,计算出视频下次的更新间隔;第四步:通过计算出的更新间隔除以该用户频道的热度得出最终的更新时间间隔,并加上当前时间得到用户频道的最终更新时间。
根据本申请一种网页视频抓取的方法实施例所公开的技术方案,所述方法还包括:收集各个频道视频的视频抓取时间,在所述视频更新的时间表记录所述视频的抓取时间;计算所述视频的发布时间与所述视频的抓取时间的间隔;则,所述根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,还包括:根据所述各个频道的热度、所述视频每次更新的时间间隔、更新的时间段及所述视频的发布时间与所述视频的抓取时间的间隔计算各个频道的视频下次更新时间。本申请实施例所述的方案,计算视频的发布时间和抓取时间的间隔,并根据所述发布时间和抓取时间的间隔的大小来计算视频的下次更新时间,即本申请实施例所公布的方案中在后续确定视频的下次更新时间时充分考虑了之前的视频的抓取时间是否合适这个因素,由此,不断迭代,自动调整视频的下次更新时间,进而确定视频的抓取时间,使得根据本申请实施例所公开的技术方案所进行的视频的抓取时间越来越准确,视频抓取的时效性越来越高,而且由于所述视频的抓取时间控制的准确,不会产生网络资源的浪费,进一步解决网络资源。
具体地,根据本申请一种网页视频抓取的方法实施例所公开的技术方案,在所述按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,所述方法包括存储所述抓取的各个频道的视频的信息。
具体地,根据本申请一种网页视频抓取的方法实施例所公开的技术方案,在所述存储所述抓取的各个频道的视频的信息之后,所述方法包括向用户推荐所述抓取的各个频道的视频。
根据本申请一种网页视频抓取的方法实施例所公开的技术方案,在视频抓取之后,所述可以存储抓取的视频的关键信息,所述关键信息可以包括视频的链接、视频的抓取时间、视频的热度(播放次数、点赞数、踩数)等。所述发现有用户登录视频网页后,可以向所述登录的用户推荐已经存储的视
频。向所述用户推荐视频的具体过程可以是将所述存储的视频按照抓取时间进行排序后推荐给所述登录的用户,也可以是按照视频的热度进行排序后推荐给所述登录的用户,还可以是根据所述视频的抓取时间和热度二者的综合排序来向所述登录的用户推荐已经存储的视频的链接。向登录的用户推荐视频,充分考虑了用户的需求,可以增强用户体验,更方便用户。
本申请实施例还提供一种在其上记录有配置为执行上述方法的程序的计算机可读记录介质。
所述计算机可读记录介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。例如,机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)等。
请参考图2,本申请一种网页视频抓取装置实施例的结构示意图,应用于服务器端。本申请实施例提供一种网页视频抓取装置包括记录模块21、评估模块23和视频抓取模块25,其中:
所述记录模块配置为收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度,并收集各个频道的视频的发布时间,建立视频更新的时间表;
所述评估模块配置为根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,并根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;
所述视频抓取模块配置为按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。
本申请实施例提供的一种网页视频抓取装置,针对用户的各个频道的热度和各个频道的视频的更新时间,计算各个视频的下次更新时间,并根据所述各个频道的视频的下次更新时间确定所述各个频道视频的抓取时间,进而根据所述各个视频的抓取时间来抓取所述各个频道的视频,视频抓取的时效性高,而且不会存在现有技术的轮询的技术方案,本申请实施例所提供的方案在抓取网页视频时只在确定好的视频抓取时间去网页上抓取视频,该方案极大的节约了网络资源。
具体地,根据本申请一种网页视频抓取装置实施例所公开的技术方案,
所述记录模块21收集各个频道的相关信息包括:所述记录模块21收集各个频道的视频数、订阅数和播放总数;所述根据所述收集的各个频道的相关信息计算各个频道的热度包括所述根据所述收集的各个频道的视频数、订阅数和播放总数计算各个频道的热度。
具体地,根据本申请一种网页视频抓取装置实施例所公开的技术方案,所述记录模块21收集各个频道的视频的发布时间,建立视频更新的时间表,包括:所述记录模块21收集各个频道的视频的发布时间,计算各个频道的视频每次更新的时间间隔和更新的时间段,建立所述视频更新的时间表。
具体地,根据本申请一种网页视频抓取装置实施例所公开的技术方案,所述评估模块23根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,包括:所述评估模块23根据所述各个频道的热度、所述视频每次更新的时间间隔和更新的时间段计算各个频道的视频下次更新时间。
根据本申请一种网页视频抓取装置实施例所公开的技术方案,所述记录模块21具体配置为收集各个频道视频的视频的抓取时间,在所述视频更新的时间表记录所述视频的抓取时间;并计算所述视频的发布时间与所述视频的抓取时间的间隔;则,所述评估模块23根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,还包括:所述评估模块23根据所述各个频道的热度、所述视频每次更新的时间间隔、更新的时间段及所述视频的发布时间与所述视频的抓取时间的间隔计算各个频道的视频下次更新时间。
具体地,根据本申请一种网页视频抓取装置实施例所公开的技术方案,在所述视频抓取模块25按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,所述方法包括所述视频抓取模块25存储所述抓取的各个频道的视频的信息。
具体地,根据本申请一种网页视频抓取装置实施例所公开的技术方案,在所述视频抓取模块25存储所述抓取的各个频道的视频的信息之后,所述视频抓取模块25向用户推荐所述抓取的各个频道的视频。
本申请实施例所述的一种网页视频抓取的方法可以通过硬件处理器来实现相关功能。所述硬件处理器在执行本申请实施例提供的一种网页视频抓取
的方法,可以包括如下处理:步骤11,收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;步骤13,收集各个频道的视频的发布时间,建立视频更新的时间表;步骤15,根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;步骤17,根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;步骤19,所述按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。
本申请实施例提供的一种网页视频抓取装置,针对用户的各个频道的热度和各个频道的视频的更新时间,计算各个视频的下次更新时间,并根据所述各个频道的视频的下次更新时间确定所述各个频道视频的抓取时间,进而根据所述各个视频的抓取时间来抓取所述各个频道的视频,视频抓取的时效性高,而且不会存在现有技术的轮询的技术方案,本申请实施例所提供的方案在抓取网页视频时只在确定好的视频抓取时间去网页上抓取视频,该方案极大的节约了网络资源。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或
者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (17)
- 一种网页视频抓取的方法,其特征在于,包括:收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;收集各个频道的视频的发布时间,建立视频更新的时间表;根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。
- 根据权利要求1所述的方法,其特征在于,所述收集各个频道的相关信息包括:所述收集各个频道的视频数、订阅数和播放总数;所述根据所述收集的各个频道的相关信息计算各个频道的热度包括所述根据所述收集的各个频道的视频数、订阅数和播放总数,计算各个频道的热度。
- 根据权利要求1所述的方法,其特征在于,所述收集各个频道的视频的发布时间,建立视频更新的时间表,包括:收集各个频道的视频的发布时间,计算各个频道的视频每次更新的时间间隔和更新的时间段,建立所述视频更新的时间表。
- 根据权利要求1-3任一权利要求所述的方法,其特征在于,所述根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,包括:根据所述各个频道的热度、所述视频每次更新的时间间隔和更新的时间段计算各个频道的视频下次更新时间。
- 根据权利要求4所述的方法,其特征在于,所述方法还包括:收集各个频道视频的视频的抓取时间,在所述视频更新的时间表记录所述视频的抓取时间;所述计算所述视频的发布时间与所述视频的抓取时间的间隔;所述根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,还包括:根据所述各个频道的热度、所述视频每次更新 的时间间隔、更新的时间段及所述视频的发布时间与所述视频的抓取时间的间隔计算各个频道的视频下次更新时间。
- 根据权利要求1-3和5任一权利要求所述的方法,其特征在于,在所述按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,所述方法包括存储所述抓取的各个频道的视频的信息。
- 根据权利要求4所述的方法,其特征在于,在所述按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,所述方法包括所述存储所述抓取的各个频道的视频的信息。
- 根据权利要求7所述的方法,其特征在于,在所述存储所述抓取的各个频道的视频的信息之后,所述方法包括向用户推荐所述抓取的各个频道的视频。
- 一种网页视频抓取装置,其特征在于,包括:记录模块,配置为收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度,并收集各个频道的视频的发布时间,建立视频更新的时间表;评估模块,配置为根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,并根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;视频抓取模块,配置为按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。
- 根据权利要求9所述的装置,其特征在于,所述记录模块收集各个频道的相关信息包括:所述记录模块收集各个频道的视频数、订阅数和播放总数;所述根据所述收集的各个频道的相关信息计算各个频道的热度包括所述根据所述收集的各个频道的视频数、订阅数和播放总数计算各个频道的热度。
- 根据权利要求9所述的装置,其特征在于,所述记录模块收集各个频道的视频的发布时间,建立视频更新的时间表,包括:所述记录模块收集各个频道的视频的发布时间,计算各个频道的视频每次更新的时间间隔和更新的时间段,建立所述视频更新的时间表。
- 根据权利要求9-11任一权利要求所述的装置,其特征在于,所述评估模块根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,包括:所述评估模块根据所述各个频道的热度、所述视频每次更新的时间间隔和更新的时间段计算各个频道的视频下次更新时间。
- 根据权利要求12所述的装置,其特征在于,所述记录模块具体配置为收集各个频道视频的视频的抓取时间,在所述视频更新的时间表记录所述视频的抓取时间;并计算所述视频的发布时间与所述视频的抓取时间的间隔;所述评估模块根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,还包括:所述评估模块根据所述各个频道的热度、所述视频每次更新的时间间隔、更新的时间段及所述视频的发布时间与所述视频的抓取时间的间隔计算各个频道的视频下次更新时间。
- 根据权利要求9-11和13任一权利要求所述的装置,其特征在于,在所述视频抓取模块按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,还包括所述视频抓取模块存储所述抓取的各个频道的视频的信息。
- 根据权利要求12所述的,其特征在于,在所述视频抓取模块按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,所述视频抓取模块存储所述抓取的各个频道的视频的信息。
- 根据权利要求15所述的,其特征在于,在所述视频抓取模块存储所述抓取的各个频道的视频的信息之后,所述视频抓取模块向用户推荐所述抓取的各个频道的视频。
- 一种在其上记录有配置为执行权利要求1-8任一项所述方法的程序的计算机可读记录介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/250,650 US20170188095A1 (en) | 2015-12-23 | 2016-08-29 | Method and electronic device for web video capturing |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510977935.XA CN105912552A (zh) | 2015-12-23 | 2015-12-23 | 网页视频抓取的方法及网页视频抓取的终端设备 |
CN201510977935.X | 2015-12-23 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/250,650 Continuation US20170188095A1 (en) | 2015-12-23 | 2016-08-29 | Method and electronic device for web video capturing |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017107449A1 true WO2017107449A1 (zh) | 2017-06-29 |
Family
ID=56744375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2016/088955 WO2017107449A1 (zh) | 2015-12-23 | 2016-07-06 | 网页视频抓取的方法及网页视频抓取的装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105912552A (zh) |
WO (1) | WO2017107449A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100472A (zh) * | 2020-09-11 | 2020-12-18 | 深圳市科盾科技有限公司 | 爬虫调度方法、装置、终端设备和可读存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107872498B (zh) * | 2016-09-28 | 2021-04-13 | 阿里巴巴集团控股有限公司 | 一种业务数据订阅方法、装置及系统 |
CN109597927B (zh) * | 2018-12-05 | 2022-11-18 | 贵阳高新数通信息有限公司 | 招投标相关网页页面信息提取方法及系统 |
CN115329179B (zh) * | 2022-10-14 | 2023-04-28 | 卡奥斯工业智能研究院(青岛)有限公司 | 数据采集资源量控制方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033929A (zh) * | 2010-12-15 | 2011-04-27 | 百度在线网络技术(北京)有限公司 | 热点视频集的展现方法及装置 |
US20130013583A1 (en) * | 2011-05-30 | 2013-01-10 | Lei Yu | Online video tracking and identifying method and system |
CN104063448A (zh) * | 2014-06-18 | 2014-09-24 | 华东师范大学 | 一种视频领域相关的分布式微博数据抓取系统 |
CN104361005A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种垂直搜索引擎中对信息单元的调度方法 |
CN104765766A (zh) * | 2015-02-28 | 2015-07-08 | 北京奇艺世纪科技有限公司 | 一种监测视频更新的方法和装置 |
CN105528376A (zh) * | 2014-10-22 | 2016-04-27 | 腾讯科技(深圳)有限公司 | 多媒体信息更新方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101242356B (zh) * | 2007-12-06 | 2010-08-18 | 中兴通讯股份有限公司 | Iptv系统中内存数据库的实现方法及iptv系统 |
US8959108B2 (en) * | 2008-06-18 | 2015-02-17 | Zeitera, Llc | Distributed and tiered architecture for content search and content monitoring |
CN102004765A (zh) * | 2010-11-09 | 2011-04-06 | 突触计算机系统(上海)有限公司 | 一种用于基于互联网电视搜索媒体文件的方法与设备 |
US20150178291A1 (en) * | 2013-12-20 | 2015-06-25 | Inching Chen | Wireless display with audio skipping |
CN104021140B (zh) * | 2014-05-08 | 2018-01-26 | 北京奇艺世纪科技有限公司 | 一种网络视频的处理方法及装置 |
-
2015
- 2015-12-23 CN CN201510977935.XA patent/CN105912552A/zh active Pending
-
2016
- 2016-07-06 WO PCT/CN2016/088955 patent/WO2017107449A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033929A (zh) * | 2010-12-15 | 2011-04-27 | 百度在线网络技术(北京)有限公司 | 热点视频集的展现方法及装置 |
US20130013583A1 (en) * | 2011-05-30 | 2013-01-10 | Lei Yu | Online video tracking and identifying method and system |
CN104063448A (zh) * | 2014-06-18 | 2014-09-24 | 华东师范大学 | 一种视频领域相关的分布式微博数据抓取系统 |
CN104361005A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种垂直搜索引擎中对信息单元的调度方法 |
CN105528376A (zh) * | 2014-10-22 | 2016-04-27 | 腾讯科技(深圳)有限公司 | 多媒体信息更新方法及装置 |
CN104765766A (zh) * | 2015-02-28 | 2015-07-08 | 北京奇艺世纪科技有限公司 | 一种监测视频更新的方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100472A (zh) * | 2020-09-11 | 2020-12-18 | 深圳市科盾科技有限公司 | 爬虫调度方法、装置、终端设备和可读存储介质 |
CN112100472B (zh) * | 2020-09-11 | 2023-11-28 | 深圳市科盾科技有限公司 | 爬虫调度方法、装置、终端设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105912552A (zh) | 2016-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150331856A1 (en) | Time-based content aggregator | |
Howard et al. | Opening closed regimes: what was the role of social media during the Arab Spring? | |
US8645485B1 (en) | Social based aggregation of related media content | |
US9405746B2 (en) | User behavior models based on source domain | |
WO2017107449A1 (zh) | 网页视频抓取的方法及网页视频抓取的装置 | |
US20160110134A1 (en) | Large-Scale, Dynamic Graph Storage and Processing System | |
US20210144418A1 (en) | Providing video recommendation | |
CN111708901A (zh) | 多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN109063158B (zh) | 一种网站访问排名信息查询的方法、设备、系统及介质 | |
CN104813305A (zh) | 在线视频内容的可跟踪共享 | |
CN104598505A (zh) | 多媒体资源推荐方法及装置 | |
KR101541495B1 (ko) | 캡쳐된 이미지를 이용한 동영상 분석 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 | |
JP2015090716A (ja) | 動画番組推奨方法及びそのサーバ | |
US11720628B2 (en) | Playlist analytics | |
Acker et al. | Tweets may be archived: civic engagement, digital preservation and Obama White House social media data | |
CN111104583A (zh) | 一种直播间推荐方法、存储介质、电子设备及系统 | |
US20240330393A1 (en) | Matching video content to podcast episodes | |
US20150294012A1 (en) | Displaying a representative item for a collection of items | |
US10198737B2 (en) | Peer-to-peer data collector and analyzer | |
Zhou et al. | Statistical study of view preferences for online videos with cross-platform information | |
US9953068B1 (en) | Computing usage metrics for a content sharing platform | |
US20170188095A1 (en) | Method and electronic device for web video capturing | |
TW201616871A (zh) | 線上影片自動串聯播放系統及方法 | |
CN105474255A (zh) | 确定媒体内容项目之间的派生的可能性和程度 | |
US20170140796A1 (en) | Intelligent segment marking in recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16877261 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16877261 Country of ref document: EP Kind code of ref document: A1 |