TW201322022A - 分散式資料流處理方法及其系統 - Google Patents

分散式資料流處理方法及其系統 Download PDF

Info

Publication number
TW201322022A
TW201322022A TW101107358A TW101107358A TW201322022A TW 201322022 A TW201322022 A TW 201322022A TW 101107358 A TW101107358 A TW 101107358A TW 101107358 A TW101107358 A TW 101107358A TW 201322022 A TW201322022 A TW 201322022A
Authority
TW
Taiwan
Prior art keywords
processing
data
data stream
real
parallel
Prior art date
Application number
TW101107358A
Other languages
English (en)
Inventor
Xu Zhang
zhi-xiong Yang
Jia Xu
zhong-hua Deng
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201110378247.3A external-priority patent/CN103136217B/zh
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of TW201322022A publication Critical patent/TW201322022A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申請提供了一種分散式資料流處理方法,該方法包括:將原始資料流分割成即時資料流和歷史資料流;並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及將所產生的處理結果進行整合。本申請還提供了一種分散式資料流處理裝置,該裝置包括:資料識別模組,用於將原始資料流分割成即時資料流和歷史資料流;並行處理模組,用於並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及資料整合模組,用於將所產生的處理結果進行整合。本申請使得大資料量的即時計算成為可能,即時資料流的運算能夠最大限度地以分散式並行處理,同時保證了大資料量處理和高即時性,提高了系統的反應速度。

Description

分散式資料流處理方法及其系統
本申請係關於分散式資料處理,尤其關於一種用於處理大資料量的分散式資料流處理方法及其系統。
目前,資料流處理成為資料探勘、資料分析的主要方式。例如,網站日誌就是一個大資料量的資料流。再例如,電子商務網站中不斷增加的商品發佈資訊,不斷增加的手機簡訊發送記錄等等。這樣的資料流具有如下特點:(1)數據量大;(2)每條資訊中,具有要分析特徵的ID(識別字);(3)具有時間屬性,即時序性。
資料流分析通常要求即時、快速,使得系統能夠根據具體用戶當前行為做出即時回應。例如,日誌的即時分析可以把握用戶的當前狀態,最近的訪問行為,可以有效地提高推薦的精準度,或即時地反作弊。而如何快速分析資料流,尤其是在資料量很大的情況下,滿足即時要求一直是技術上的難點。
通常,現有的分散式資料流處理系統的基本原理如圖1所示,原始資料流S被分配給多個功能模組F。多個功能模組F同時進行處理,並將處理後的結果都發送給資料整合模組I,由資料整合模組I進行整合並輸出整合後的資料。然而在現有的分散式資料流處理系統中存在如下缺陷:
(1)對資料流進行處理時,當資料量非常大的時候,資料處理、資料分析變得十分耗時。而現有的分散式資料流處理系統一般採用共用儲存模式,即,不同模組之間,尤其是上下游模組之間交互資料的方式是模組A的結果放到儲存(資料庫,文件等)中,然後模組B到儲存中讀取資料,由此實現模組A和模組B的資料交互,這種模式不能即時計算,只能做到準即時。也就是說,當速度成為瓶頸,大部分現有的處理技術不能滿足即時資料流的增長速度,資料延遲比較大,使得資料分析只能離線進行,導致資料分析、資料探勘延遲,不能對用戶的當前或近期行為做出反應。
(2)對於大資料量的處理,分散式平行計算已經成為趨勢。而現有的平行計算系統,基本上都僅限於功能複製的架構,即,系統實現平行計算的方法是所有的運算模組是同樣的功能,運行同樣的程式,只是運算資料的不同部分,以此達到平行計算的目的,因此無法實現更細粒度的並行,也無法實現模組化和模組的熱插拔,並且不利於維護。
本申請提供了一種分散式資料流處理方法,該方法包括:將原始資料流分割成即時資料流和歷史資料流;並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及將所產生的處理結果進行整合。
較佳地,在處理該即時資料流的步驟中,對該即時資料流按維度切分並進行並行處理。
較佳地,處理該即時資料流的步驟包括:將該即時資料流切分成多個資料塊;並行地將該多個資料塊的每一個切分成多個資料單元,然後將該多個資料單元分別發送給多個不同的功能模組進行並行處理;以及將並行處理的結果進行匯總。
較佳地,在處理該歷史資料流的步驟中,對該歷史資料流按維度切分並進行並行處理。
本申請還提供了一種分散式資料流處理裝置,該裝置包括:資料識別模組,用於將原始資料流分割成即時資料流和歷史資料流;並行處理模組,用於並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及資料整合模組,用於將所產生的處理結果進行整合。
較佳地,該並行處理模組在處理該即時資料流時,對該即時資料流按維度切分並進行並行處理。
較佳地,處理該即時資料處理系統包括:橫向切分模組,用於將該即時資料流切分成多個資料塊;多個縱向切分模組,用於並行地將該多個資料塊的每一個切分成多個資料單元,然後將該多個資料單元分別發送給多個不同的功能模組進行並行處理;以及結果匯總模組,用於將並行處理的結果進行匯總。
較佳地,該並行處理模組在處理該歷史資料流時,對該歷史資料流按維度切分並進行並行處理。
根據本申請的分散式資料流處理方法,透過按時序性和按維度對資料流進行多次分割和切分,即利用時序性,採用多層結構,對資料分時段處理,使用新的分散式架構,利用不同維度,對資訊流進行縱向切分。使得大資料量的即時計算成為可能。即時資料流的運算能夠最大限度地以分散式並行處理,同時保證了大資料量處理和高即時性,提高了系統的反應速度。
下面將結合圖2至圖5詳細描述本申請的上述精神和實質。
雖然下面以網站日誌資料流為例來描述本申請的系統和方法的實施方式,可以理解,本申請也可以用來處理個性化推薦、即時反作弊、商品發佈、手機簡訊發送、科學計算等系統的資料流。
以網站日誌資料流為例,圖2示例性示出了本申請的大資料量分散式資料流處理系統的一個實施例的示意圖。
圖2中的大資料量分散式資料流處理系統包括:資料識別模組10;30天以前資料處理系統20;即時資料處理系統30;30天以內資料處理系統40;以及資料整合模組50。可以理解,這些模組可以由一台電腦或類似的具有計算或處理能力的設備、或多台這樣的設備形成的網路、或這樣的設備的一部分硬體或軟體來實現。
圖3示例性示出了與圖2中的大資料量分散式資料流 處理系統相對應的本申請的大資料量分散式資料流處理方法的流程圖。下面結合圖2和圖3來描述本申請的一個實施例。
在步驟S100,獲取原始資料流100。
在步驟S101,原始資料流100被資料識別模組10獲取後,資料識別模組10識別原始資料流100中的資料是即時資料、還是30天以內的資料、或是30天以前的資料,從而將原始資料流100按時序性分割成30天以前資料流200、即時資料流300以及30天以內資料流400。30天以前資料流200被發送至30天以前資料處理系統20,即時資料流300被發送至即時資料處理系統30,以及30天以內資料流400被發送至30天以內資料處理系統40。
在步驟S102,30天以前資料處理系統20進行30天以前資料處理,將處理結果發送到資料整合模組50。在步驟S103,即時資料處理系統30進行即時資料處理,將處理結果發送到資料整合模組50。在步驟S104,30天以內資料處理系統40進行30天以內資料處理,將處理結果發送到資料整合模組50。步驟S102、步驟S103和步驟S104並行執行。
在步驟S105,資料整合模組50將接收到的處理結果進行整合,並輸出整合後的資料。
可以理解,儘管在這裏,原始資料流100被資料識別模組10分割成30天以前資料流200、即時資料流300以及30天以內資料流400這樣的由三個時間限度區分的不 同部分,本領域技術人員能夠根據實際情況以其他時間限度來分割原始資料流100。例如,將原始資料流100分割成更少或更多的時間段(相應地,大資料量分散式資料流處理系統包含更少或更多的資料處理系統),或採用不同於30天的時間限度,或根據實際需求來定義將被看作是“即時”的時間範圍。
透過上面的實施例可以看到,本申請的大資料量分散式資料流處理方法基本上分為按時序性分割、資料處理、資料整合這樣的三個階段。
在按時序性分割階段,由於系統日誌是時刻添加的,因此,首先由資料識別模組10將即時資料流300分發到即時處理系統30;對於歷史資料(例如30天以前資料流200以及30天以內資料流400),由於它們已經儲存為文件,所以發送到歷史文件處理系統(例如30天以前資料處理系統20以及30天以內資料處理系統40)。
在資料處理階段,歷史處理系統和即時處理系統並行地處理不同時段的資料。
在資料整合階段,不同時段的資料並行處理完畢後的結果都被發送到資料整合模組50,這些結果被整合後,就可以輸出,以對外提供服務。
在本實施例中,按時序性對系統和資料進行分割,非常有利於處理具有時序性的大資料量的資料流,這是本申請處理海量資料的一個基礎。
設想資料流的每條資訊都有時間戳的,則從最開始的 資料到現在的資料(仍然在增長中),就是全量的資料流了。把某時間點定為分隔點的話,則可以把這全量的(或者說全部的)資料分為歷史資料和即時資料。對於全量的資料流,我們可以分析出,一定時段前的歷史資料,在某個時間點前已經存在。例如一天前的資料是不需要即時計算的,所以可以離線計算,只需要將其計算結果和其他模組(例如即時處理模組)的結果整合即可。
按歷史資料和即時計算分別處理,對歷史資料離線計算,可以極大地減輕即時計算的壓力。使即時資料能夠被更快地計算。同時,歷史資料可以得到更精細的計算。
本申請按時序性分割資料,使不同時段的資料處理可以並行進行,從而保證了即時資料的高回應性能。
為了進一步提高即時資料處理系統的性能,本申請還提出了將資料的資訊單元(即資料塊)按維度(在本申請中,“維度”一詞用來區分不同屬性或類型的資料,即不同維度的資料由不同類型功能模組來處理)進一步切分到各個功能模組(即不同類型的功能模組)。下面將以即時資料處理系統30為例來進行說明。
圖4示例性示出了圖2中的即時處理系統30的一個實施例的示意圖。
如圖4所示,即時處理系統30包括:一個橫向(在本申請中,“橫向”一詞僅是為了便於標識這一層次的切分,而非方向上的概念)切分模組400;多個(N個)縱向(在本申請中,“縱向”一詞僅是為了便於標識這一層 次的切分,而非方向上的概念)切分模組500;多個(N個)功能模組群組600,其中每個功能模組群組600包含多個(M個)功能模組;以及結果匯總模組700。
圖5示例性示出了與圖4中的即時處理系統30相對應的本申請的即時處理方法的流程圖。下面結合圖4和圖5來描述本申請的即時處理系統的一個實施例。
在步驟S200,獲取即時資料流300。
在步驟S201,橫向切分模組800將獲取的即時資料流300切分成多個資料塊(1、2、3...N...),(這一步驟中的切分即所謂的橫向切分),並將所切分的資料塊分別發送給多個(N個)縱向切分模組500。如圖4所示,將第1個資料塊發送給第1個縱向切分模組500,將第2個資料塊發送給第2個縱向切分模組500,以此類推,將第N個資料塊發送給第N個縱向切分模組500。可以理解,考慮到資料流雖然是無限的,但卻是流動的,而多個(N個)縱向切分模組500中的每一個在處理完一個資料塊後可以被重複使用,因此,縱向切分模組500的數量設置可以視資料流的流量大小而定。
在步驟S202,每個縱向切分模組500將所接收的一個資料塊切分成多個(視實際情況,可多至M個)資料單元(這一步驟中的切分即所謂的按維度縱向切分),並將所切分的多個資料單元分別發送給一個功能模組群組600中的多個(相應於資料單元的數量,多至M個)不同的功能模組。
如圖4中所示,第1個縱向切分模組500將資料塊1切分成M個資料單元,並將第1個資料單元發送至第1個功能模組群組600的第1個功能模組,將第2個資料單元發送至第1個功能模組群組600的第2個功能模組,以此類推,將第M個資料單元發送至第1個功能模組群組600的第M個功能模組。
以此類推,如果即時資料流300的資料流量足夠大,第2個縱向切分模組500將資料塊2切分成M個資料單元,並將第1個資料單元發送至第2個功能模組群組600的第1個功能模組,將第2個資料單元發送至第2個功能模組群組600的第2個功能模組,以此類推,將第M個資料單元發送至第2個功能模組群組600的第M個功能模組。
以此類推,如果即時資料流300的資料流量足夠大,可以存在更多的資料塊、縱向切分模組500、功能模組群組600、以及功能模組。可以理解,縱向切分模組500、功能模組群組600、以及功能模組群組600中的功能模組的數量設置分別可以視需要而定。
步驟S202和步驟S203並行執行。
在步驟S203,每個功能模組對所接收的資料單元進行處理,並將處理後的結果發送給結果匯總模組700。
在步驟S204,結果匯總模組700將所接收的結果進行匯總,並輸出匯總後的資料。
透過本實施例的描述,可以看到,首先,即時資 料流會被橫向切分,分配到各個處理器(例如縱向切分模組500)上,各個處理器的功能是一樣的。這些處理器並行處理,極大地提高了處理速度。
然後,縱向切分模組500對資料塊按維度縱向切分,即從資料塊中提取出不同維度的資料單元,然後相應維度的資料單元被發送到相應的功能處理模組(即功能模組),由各個功能處理模組並行處理。
以網站日誌資料流為原始資料流為例,網站日誌資料流首先被橫向切分成多個日誌資訊資料塊,每個日誌資訊資料塊被分配到一個相應的縱向切分模組500上。然後,各縱向切分模組500對相應的日誌資訊資料塊按維度縱向切分,例如,從日誌資訊資料塊中提取商品資訊送到商品處理單元,提取關鍵字資訊送到關鍵字處理單元。這樣一來,各個資訊單元被分解為更細粒度的元素,分發到各個功能單元,並行處理。例如,作為處理即時網站日誌資料流的功能單元,例如,商品資訊解析模組解析商品資訊,訪問路徑模組解析訪問路徑,各個模組並行處理。然後,用戶和商品資訊被送到推薦功能模組,用戶和訪問路徑資訊被送到反作弊模組,各個模組也是並行處理的。
最後,各個功能模組處理的結果,都發送到整合器(例如結果匯總模組700,或進一步也包括資料整合模組50)上,由整合器對結果整合(匯總)處理。
以上以即時資料處理系統為例描述了本申請對資料進行切分。可以理解,對於歷史資料的處理系統,可以採用 類似的架構。不同的是,由於歷史資料處理採用週期性運行的方式,所以可以使用低成本的集群分散式運算系統。
透過上面的描述,可以看到,本申請不是像現有的分散式資料流處理系統那樣採用共用儲存模式,而是透過按時序性和按維度對資料流進行多次分割和切分,即利用時序性,採用多層結構,對資料分時段處理,使用新的分散式架構,利用不同維度,對資訊流進行縱向切分,而非如現有的平行計算系統那樣僅限於功能複製的架構,也就是說,本發明實現平行計算的方法並非是所有的運算模組是同樣的功能,運行同樣的程式,只是運算資料的不同部分。因此本發明能夠實現更細粒度的並行,也能夠實現模組化和模組的熱插拔,並且有利於維護。
本發明使得大資料量的即時計算成為可能。即時資料流的運算能夠最大限度地以分散式並行處理,同時保證了大資料量處理和高即時性,提高了系統的反應速度。
根據本申請的大資料量分散式資料流處理方法可以由具有運算處理能力的單個或多個處理設備,如單個或多個電腦,運行電腦可執行指令來實現。根據本申請的大資料量分散式資料流處理系統可以為單個或多個處理設備,如單個或多個電腦,其中的各個模組或單元可以為該處理設備運行電腦可執行指令時具有相應功能的設備元件。根據本申請的一個實施例,可以使用JAVA、SQL等語言在linux、Windows等系統下來實現上述大資料量分散式資料流處理方法及其系統。
雖然已參照典型實施例描述了本申請,但應當理解,所用的術語是說明和示例性、而非限制性的術語。由於本申請能夠以多種形式具體實施而不脫離發明的精神或實質,所以應當理解,上述實施例不限於任何前述的細節,而應在隨附之申請專利範圍所限定的精神和範圍內廣泛地解釋,因此落入申請專利範圍或其等效範圍內的全部變化和改型都應為隨附之申請專利範圍所涵蓋。
10‧‧‧資料識別模組
20‧‧‧30天以前資料處理系統
30‧‧‧即時資料處理系統
40‧‧‧30天以內資料處理系統
50‧‧‧資料整合模組
100‧‧‧原始資料流
200‧‧‧30天以前資料流
300‧‧‧即時資料流
400‧‧‧30天以內資料流
800‧‧‧橫向切分模組
500‧‧‧縱向切分模組
600‧‧‧功能模組群組
700‧‧‧結果匯總模組
下面將參照所附附圖來描述本申請的實施例,其中:圖1示例性示出了現有技術的分散式資料流處理系統的示意圖;圖2示例性示出了本申請的大資料量分散式資料流處理系統的一個實施例的示意圖;圖3示例性示出了與圖2中的大資料量分散式資料流處理系統相對應的本申請的大資料量分散式資料流處理方法的流程圖;圖4示例性示出了圖2中的即時處理系統30的一個實施例的示意圖;以及圖5示例性示出了與圖4中的即時處理系統30相對應的本申請的即時處理方法的流程圖。
10‧‧‧資料識別模組
20‧‧‧30天以前資料處理系統
30‧‧‧即時資料處理系統
40‧‧‧30天以內資料處理系統
50‧‧‧資料整合模組
100‧‧‧原始資料流
200‧‧‧30天以前資料流
300‧‧‧即時資料流
400‧‧‧30天以內資料流

Claims (8)

  1. 一種分散式資料流處理方法,該方法包括:將原始資料流分割成即時資料流和歷史資料流;並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及將所產生的處理結果進行整合。
  2. 根據申請專利範圍第1項所述的方法,其中,在處理該即時資料流的步驟中,對該即時資料流按維度切分並進行並行處理。
  3. 根據申請專利範圍第2項所述的方法,其中,處理該即時資料流的步驟包括:將該即時資料流切分成多個資料塊;並行地將該多個資料塊的每一個切分成多個資料單元,然後將該多個資料單元分別發送給多個不同的功能模組進行並行處理;以及將並行處理的結果進行匯總。
  4. 根據申請專利範圍第1項所述的方法,其中,在處理該歷史資料流的步驟中,對該歷史資料流按維度切分並進行並行處理。
  5. 一種分散式資料流處理裝置,該裝置包括:資料識別模組,用於將原始資料流分割成即時資料流和歷史資料流;並行處理模組,用於並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及 資料整合模組,用於將所產生的處理結果進行整合。
  6. 根據申請專利範圍第5項所述的裝置,其中,該並行處理模組在處理該即時資料流時,對該即時資料流按維度切分並進行並行處理。
  7. 根據申請專利範圍第6項所述的裝置,其中,處理該即時資料處理系統包括:橫向切分模組,用於將該即時資料流切分成多個資料塊;多個縱向切分模組,用於並行地將該多個資料塊的每一個切分成多個資料單元,然後將該多個資料單元分別發送給多個不同的功能模組進行並行處理;以及結果匯總模組,用於將並行處理的結果進行匯總。
  8. 根據申請專利範圍第5項所述的裝置,其中,該並行處理模組在處理該歷史資料流時,對該歷史資料流按維度切分並進行並行處理。
TW101107358A 2011-11-24 2012-03-05 分散式資料流處理方法及其系統 TW201322022A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110378247.3A CN103136217B (zh) 2011-11-24 一种分布式数据流处理方法及其系统

Publications (1)

Publication Number Publication Date
TW201322022A true TW201322022A (zh) 2013-06-01

Family

ID=48468027

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101107358A TW201322022A (zh) 2011-11-24 2012-03-05 分散式資料流處理方法及其系統

Country Status (5)

Country Link
US (2) US9250963B2 (zh)
EP (1) EP2783293A4 (zh)
JP (1) JP6030144B2 (zh)
TW (1) TW201322022A (zh)
WO (1) WO2013078231A1 (zh)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9438385B2 (en) 2012-09-13 2016-09-06 First Principles, Inc. Data stream division to increase data transmission rates
US9100904B2 (en) * 2012-09-13 2015-08-04 First Principles, Inc. Data stream division to increase data transmission rates
CN104298556B (zh) 2013-07-17 2018-01-09 华为技术有限公司 流处理单元的分配方法及装置
CN103595795B (zh) * 2013-11-15 2016-10-05 北京国双科技有限公司 分布式数据的处理方法和装置
US9323556B2 (en) 2014-09-30 2016-04-26 Amazon Technologies, Inc. Programmatic event detection and message generation for requests to execute program code
US9830193B1 (en) 2014-09-30 2017-11-28 Amazon Technologies, Inc. Automatic management of low latency computational capacity
US9600312B2 (en) 2014-09-30 2017-03-21 Amazon Technologies, Inc. Threading as a service
US10048974B1 (en) 2014-09-30 2018-08-14 Amazon Technologies, Inc. Message-based computation request scheduling
US9678773B1 (en) 2014-09-30 2017-06-13 Amazon Technologies, Inc. Low latency computational capacity provisioning
US9715402B2 (en) 2014-09-30 2017-07-25 Amazon Technologies, Inc. Dynamic code deployment and versioning
US9146764B1 (en) 2014-09-30 2015-09-29 Amazon Technologies, Inc. Processing event messages for user requests to execute program code
TWI530808B (zh) * 2014-12-04 2016-04-21 知意圖股份有限公司 即時提供信息查詢的資訊系統與方法
US9537788B2 (en) 2014-12-05 2017-01-03 Amazon Technologies, Inc. Automatic determination of resource sizing
US9733967B2 (en) 2015-02-04 2017-08-15 Amazon Technologies, Inc. Security protocols for low latency execution of program code
US9588790B1 (en) 2015-02-04 2017-03-07 Amazon Technologies, Inc. Stateful virtual compute system
US9785476B2 (en) 2015-04-08 2017-10-10 Amazon Technologies, Inc. Endpoint management system and virtual compute system
US9930103B2 (en) 2015-04-08 2018-03-27 Amazon Technologies, Inc. Endpoint management system providing an application programming interface proxy service
CN105228131B (zh) * 2015-11-05 2018-07-31 上海斐讯数据通信技术有限公司 运算数据的协助处理方法、系统及终端设备
KR101701224B1 (ko) * 2015-11-30 2017-02-01 고려대학교 산학협력단 객체 모델 기반 실시간 스트림 데이터 분산 병렬 처리 시스템
CN105630869B (zh) * 2015-12-15 2019-02-05 北京奇虎科技有限公司 一种语音数据的存储方法和装置
US10013267B1 (en) 2015-12-16 2018-07-03 Amazon Technologies, Inc. Pre-triggers for code execution environments
US9811434B1 (en) 2015-12-16 2017-11-07 Amazon Technologies, Inc. Predictive management of on-demand code execution
US10754701B1 (en) 2015-12-16 2020-08-25 Amazon Technologies, Inc. Executing user-defined code in response to determining that resources expected to be utilized comply with resource restrictions
US11989096B2 (en) * 2015-12-21 2024-05-21 Ab Initio Technology Llc Search and retrieval data processing system for computing near real-time data aggregations
US9910713B2 (en) 2015-12-21 2018-03-06 Amazon Technologies, Inc. Code execution request routing
US10067801B1 (en) 2015-12-21 2018-09-04 Amazon Technologies, Inc. Acquisition and maintenance of compute capacity
US10002026B1 (en) 2015-12-21 2018-06-19 Amazon Technologies, Inc. Acquisition and maintenance of dedicated, reserved, and variable compute capacity
US10162672B2 (en) * 2016-03-30 2018-12-25 Amazon Technologies, Inc. Generating data streams from pre-existing data sets
US11132213B1 (en) 2016-03-30 2021-09-28 Amazon Technologies, Inc. Dependency-based process of pre-existing data sets at an on demand code execution environment
US10891145B2 (en) 2016-03-30 2021-01-12 Amazon Technologies, Inc. Processing pre-existing data sets at an on demand code execution environment
US10282229B2 (en) 2016-06-28 2019-05-07 Amazon Technologies, Inc. Asynchronous task management in an on-demand network code execution environment
US10102040B2 (en) 2016-06-29 2018-10-16 Amazon Technologies, Inc Adjusting variable limit on concurrent code executions
US10203990B2 (en) 2016-06-30 2019-02-12 Amazon Technologies, Inc. On-demand network code execution with cross-account aliases
US10277708B2 (en) 2016-06-30 2019-04-30 Amazon Technologies, Inc. On-demand network code execution with cross-account aliases
US10884787B1 (en) 2016-09-23 2021-01-05 Amazon Technologies, Inc. Execution guarantees in an on-demand network code execution system
US10061613B1 (en) 2016-09-23 2018-08-28 Amazon Technologies, Inc. Idempotent task execution in on-demand network code execution systems
US11119813B1 (en) 2016-09-30 2021-09-14 Amazon Technologies, Inc. Mapreduce implementation using an on-demand network code execution system
CN107566450B (zh) * 2017-08-02 2020-08-28 北京奇艺世纪科技有限公司 一种实时用户行为的数据处理方法、装置及电子设备
US10303492B1 (en) 2017-12-13 2019-05-28 Amazon Technologies, Inc. Managing custom runtimes in an on-demand code execution system
US10564946B1 (en) 2017-12-13 2020-02-18 Amazon Technologies, Inc. Dependency handling in an on-demand network code execution system
US10353678B1 (en) 2018-02-05 2019-07-16 Amazon Technologies, Inc. Detecting code characteristic alterations due to cross-service calls
US10831898B1 (en) 2018-02-05 2020-11-10 Amazon Technologies, Inc. Detecting privilege escalations in code including cross-service calls
US10572375B1 (en) 2018-02-05 2020-02-25 Amazon Technologies, Inc. Detecting parameter validity in code including cross-service calls
US10733085B1 (en) 2018-02-05 2020-08-04 Amazon Technologies, Inc. Detecting impedance mismatches due to cross-service calls
US10725752B1 (en) 2018-02-13 2020-07-28 Amazon Technologies, Inc. Dependency handling in an on-demand network code execution system
US10776091B1 (en) 2018-02-26 2020-09-15 Amazon Technologies, Inc. Logging endpoint in an on-demand code execution system
CN108400992B (zh) * 2018-03-06 2020-05-26 电信科学技术第五研究所有限公司 一种流式通信数据协议解析软件框架实现系统及方法
KR102024040B1 (ko) * 2018-04-27 2019-09-24 주식회사 명인정밀 다기능 줄자
CN108897613A (zh) * 2018-05-07 2018-11-27 广西英腾教育科技股份有限公司 数据处理方法、系统及计算机设备
US10853115B2 (en) 2018-06-25 2020-12-01 Amazon Technologies, Inc. Execution of auxiliary functions in an on-demand network code execution system
US10649749B1 (en) 2018-06-26 2020-05-12 Amazon Technologies, Inc. Cross-environment application of tracing information for improved code execution
US11146569B1 (en) 2018-06-28 2021-10-12 Amazon Technologies, Inc. Escalation-resistant secure network services using request-scoped authentication information
US10949237B2 (en) 2018-06-29 2021-03-16 Amazon Technologies, Inc. Operating system customization in an on-demand network code execution system
US11099870B1 (en) 2018-07-25 2021-08-24 Amazon Technologies, Inc. Reducing execution times in an on-demand network code execution system using saved machine states
US11099917B2 (en) 2018-09-27 2021-08-24 Amazon Technologies, Inc. Efficient state maintenance for execution environments in an on-demand code execution system
US11243953B2 (en) 2018-09-27 2022-02-08 Amazon Technologies, Inc. Mapreduce implementation in an on-demand network code execution system and stream data processing system
US11204926B2 (en) 2018-10-31 2021-12-21 International Business Machines Corporation Storing partial tuples from a streaming application in a database system
US11943093B1 (en) 2018-11-20 2024-03-26 Amazon Technologies, Inc. Network connection recovery after virtual machine transition in an on-demand network code execution system
US10884812B2 (en) 2018-12-13 2021-01-05 Amazon Technologies, Inc. Performance-based hardware emulation in an on-demand network code execution system
CN109597842A (zh) * 2018-12-14 2019-04-09 深圳前海微众银行股份有限公司 数据实时计算方法、装置、设备及计算机可读存储介质
US11010188B1 (en) 2019-02-05 2021-05-18 Amazon Technologies, Inc. Simulated data object storage using on-demand computation of data objects
US11861386B1 (en) 2019-03-22 2024-01-02 Amazon Technologies, Inc. Application gateways in an on-demand network code execution system
US11119809B1 (en) 2019-06-20 2021-09-14 Amazon Technologies, Inc. Virtualization-based transaction handling in an on-demand network code execution system
US11190609B2 (en) 2019-06-28 2021-11-30 Amazon Technologies, Inc. Connection pooling for scalable network services
US11115404B2 (en) 2019-06-28 2021-09-07 Amazon Technologies, Inc. Facilitating service connections in serverless code executions
US11159528B2 (en) 2019-06-28 2021-10-26 Amazon Technologies, Inc. Authentication to network-services using hosted authentication information
CN115462079A (zh) * 2019-08-13 2022-12-09 深圳鲲云信息科技有限公司 神经网络数据流加速方法、装置、计算机设备及存储介质
US11656892B1 (en) 2019-09-27 2023-05-23 Amazon Technologies, Inc. Sequential execution of user-submitted code and native functions
US11394761B1 (en) 2019-09-27 2022-07-19 Amazon Technologies, Inc. Execution of user-submitted code on a stream of data
US11250007B1 (en) 2019-09-27 2022-02-15 Amazon Technologies, Inc. On-demand execution of object combination code in output path of object storage service
US11106477B2 (en) 2019-09-27 2021-08-31 Amazon Technologies, Inc. Execution of owner-specified code during input/output path to object storage service
US10908927B1 (en) 2019-09-27 2021-02-02 Amazon Technologies, Inc. On-demand execution of object filter code in output path of object storage service
US11550944B2 (en) 2019-09-27 2023-01-10 Amazon Technologies, Inc. Code execution environment customization system for object storage service
US11416628B2 (en) 2019-09-27 2022-08-16 Amazon Technologies, Inc. User-specific data manipulation system for object storage service based on user-submitted code
US11055112B2 (en) 2019-09-27 2021-07-06 Amazon Technologies, Inc. Inserting executions of owner-specified code into input/output path of object storage service
US11386230B2 (en) 2019-09-27 2022-07-12 Amazon Technologies, Inc. On-demand code obfuscation of data in input path of object storage service
US11023416B2 (en) 2019-09-27 2021-06-01 Amazon Technologies, Inc. Data access control system for object storage service based on owner-defined code
US10996961B2 (en) 2019-09-27 2021-05-04 Amazon Technologies, Inc. On-demand indexing of data in input path of object storage service
US11023311B2 (en) 2019-09-27 2021-06-01 Amazon Technologies, Inc. On-demand code execution in input path of data uploaded to storage service in multiple data portions
US11360948B2 (en) 2019-09-27 2022-06-14 Amazon Technologies, Inc. Inserting owner-specified data processing pipelines into input/output path of object storage service
US11263220B2 (en) 2019-09-27 2022-03-01 Amazon Technologies, Inc. On-demand execution of object transformation code in output path of object storage service
US11119826B2 (en) 2019-11-27 2021-09-14 Amazon Technologies, Inc. Serverless call distribution to implement spillover while avoiding cold starts
US10942795B1 (en) 2019-11-27 2021-03-09 Amazon Technologies, Inc. Serverless call distribution to utilize reserved capacity without inhibiting scaling
US11714682B1 (en) 2020-03-03 2023-08-01 Amazon Technologies, Inc. Reclaiming computing resources in an on-demand code execution system
US11188391B1 (en) 2020-03-11 2021-11-30 Amazon Technologies, Inc. Allocating resources to on-demand code executions under scarcity conditions
US11775640B1 (en) 2020-03-30 2023-10-03 Amazon Technologies, Inc. Resource utilization-based malicious task detection in an on-demand code execution system
US11550713B1 (en) 2020-11-25 2023-01-10 Amazon Technologies, Inc. Garbage collection in distributed systems using life cycled storage roots
US11593270B1 (en) 2020-11-25 2023-02-28 Amazon Technologies, Inc. Fast distributed caching using erasure coded object parts
US11762945B2 (en) * 2020-12-10 2023-09-19 International Business Machines Corporation Syncing streams by intelligent collection and analysis
US11388210B1 (en) 2021-06-30 2022-07-12 Amazon Technologies, Inc. Streaming analytics using a serverless compute system
CN114363435B (zh) * 2021-12-31 2023-12-12 广东柯内特环境科技有限公司 环境数据监测处理方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5155851A (en) 1989-05-15 1992-10-13 Bell Communications Research, Inc. Routing an incoming data stream to parallel processing stations
JPH04167079A (ja) 1990-10-31 1992-06-15 Toshiba Corp 画像処理装置
US6665684B2 (en) * 1999-09-27 2003-12-16 Oracle International Corporation Partition pruning with composite partitioning
US6850947B1 (en) * 2000-08-10 2005-02-01 Informatica Corporation Method and apparatus with data partitioning and parallel processing for transporting data for data warehousing applications
US6931390B1 (en) * 2001-02-27 2005-08-16 Oracle International Corporation Method and mechanism for database partitioning
US7213025B2 (en) * 2001-10-16 2007-05-01 Ncr Corporation Partitioned database system
US8090751B2 (en) * 2002-02-05 2012-01-03 Hewlett-Packard Development Company, L.P. Operational data store
US7340467B2 (en) * 2003-04-15 2008-03-04 Microsoft Corporation System and method for maintaining a distributed database of hyperlinks
US20040249644A1 (en) * 2003-06-06 2004-12-09 International Business Machines Corporation Method and structure for near real-time dynamic ETL (extraction, transformation, loading) processing
US7602725B2 (en) * 2003-07-11 2009-10-13 Computer Associates Think, Inc. System and method for aggregating real-time and historical data
US7457872B2 (en) 2003-10-15 2008-11-25 Microsoft Corporation On-line service/application monitoring and reporting system
US7644050B2 (en) * 2004-12-02 2010-01-05 International Business Machines Corporation Method and apparatus for annotation-based behavior extensions
US7428555B2 (en) * 2005-04-07 2008-09-23 Google Inc. Real-time, computer-generated modifications to an online advertising program
US7418394B2 (en) 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
JP4687253B2 (ja) 2005-06-03 2011-05-25 株式会社日立製作所 ストリームデータ処理システムのクエリ処理方法
US8055575B2 (en) * 2005-10-14 2011-11-08 Financial Intergroup Holdings, Ltd. Central counterparty for data management
US8565799B2 (en) * 2007-04-04 2013-10-22 Qualcomm Incorporated Methods and apparatus for flow data acquisition in a multi-frequency network
US20110276993A1 (en) 2007-04-06 2011-11-10 Ferguson Kenneth H Media Content Programming Control Method and Apparatus
CN101286150B (zh) 2007-04-10 2010-09-15 阿里巴巴集团控股有限公司 生成更新参数的方法和装置、展示相关关键词的方法和装置
US8069190B2 (en) 2007-12-27 2011-11-29 Cloudscale, Inc. System and methodology for parallel stream processing
US7882087B2 (en) * 2008-01-15 2011-02-01 At&T Intellectual Property I, L.P. Complex dependencies for efficient data warehouse updates
US8688622B2 (en) * 2008-06-02 2014-04-01 The Boeing Company Methods and systems for loading data into a temporal data warehouse
CN101639769B (zh) * 2008-07-30 2013-03-06 国际商业机器公司 在多处理器系统上对数据集进行划分及排序的方法和装置
FR2936626B1 (fr) 2008-09-30 2011-03-25 Commissariat Energie Atomique Dispositif de traitement en parallele d'un flux de donnees
CN101464884B (zh) 2008-12-31 2011-09-28 阿里巴巴集团控股有限公司 一种分布式任务系统及应用该系统的数据处理方法
US8380702B2 (en) * 2009-03-10 2013-02-19 Oracle International Corporation Loading an index with minimal effect on availability of applications using the corresponding table
CN102415064B (zh) * 2009-05-04 2015-01-21 法国电信公司 用于在通信网络中处理数据流的技术
US8788928B2 (en) 2009-07-15 2014-07-22 Clandscale, Inc. System and methodology for development of stream processing applications utilizing spreadsheet interface
US20110035272A1 (en) * 2009-08-05 2011-02-10 Yahoo! Inc. Feature-value recommendations for advertisement campaign performance improvement
KR101687213B1 (ko) * 2010-06-15 2016-12-16 아브 이니티오 테크놀로지 엘엘시 동적으로 로딩하는 그래프 기반 계산
US9367501B2 (en) * 2011-11-10 2016-06-14 International Business Machines Corporation Dynamic streaming data dispatcher
JP5818394B2 (ja) * 2011-11-10 2015-11-18 トレジャー データ, インク.Treasure Data, Inc. 大量データプラットフォームを操作するシステム及び方法

Also Published As

Publication number Publication date
US20130139166A1 (en) 2013-05-30
JP6030144B2 (ja) 2016-11-24
US9727613B2 (en) 2017-08-08
EP2783293A4 (en) 2016-06-01
JP2014531092A (ja) 2014-11-20
CN103136217A (zh) 2013-06-05
EP2783293A1 (en) 2014-10-01
WO2013078231A1 (en) 2013-05-30
US20160179898A1 (en) 2016-06-23
US9250963B2 (en) 2016-02-02

Similar Documents

Publication Publication Date Title
TW201322022A (zh) 分散式資料流處理方法及其系統
Aly et al. M3: Stream processing on main-memory mapreduce
Banerjee et al. Analysis of a finite-buffer bulk-service queue under Markovian arrival process with batch-size-dependent service
TWI550418B (zh) Real - time processing method and device and application system of huge amount of streaming data
Verma et al. Big Data representation for grade analysis through Hadoop framework
CN104008007A (zh) 基于流式计算和批处理计算的互操作数据处理系统及方法
WO2009110953A3 (en) System and method for metering and analyzing usage and performance data of a virtualized compute and network infrastructure
WO2014117295A1 (en) Performing an index operation in a mapreduce environment
Hussain et al. Big data hadoop tools and technologies: A review
US11221890B2 (en) Systems and methods for dynamic partitioning in distributed environments
US10162830B2 (en) Systems and methods for dynamic partitioning in distributed environments
Venkatesan et al. Analysis of real-time data with spark streaming
Pelle et al. A Comprehensive Performance Analysis of Stream Processing with Kafka in Cloud Native Deployments for IoT Use-cases
CN115269719A (zh) 数据同步方法及装置
Vakali et al. A distributed framework for early trending topics detection on big social networks data threads
CN103136217B (zh) 一种分布式数据流处理方法及其系统
US10713259B2 (en) Field-programmable gate array cards in a streaming environment
WO2018036336A1 (zh) 一种数据处理方法和装置
WO2019126720A1 (en) A system and method for optimization and load balancing of computer clusters
WO2019104312A1 (en) Meta-indexing, search, compliance, and test framework for software development
US9197574B2 (en) Distributed sequence number checking for network testing
KR101865317B1 (ko) 데이터 분산처리 시스템을 위한 빅 데이터의 전처리 장치 및 방법
Liu et al. Architectural design of data stream-based big data real-time analysis system
How et al. The Ingestion Architecture
US11442792B2 (en) Systems and methods for dynamic partitioning in distributed environments