TWI611309B

TWI611309B - 大數據資料庫系統

Info

Publication number: TWI611309B
Application number: TW105141829A
Authority: TW
Inventors: Tze Jen Yu; Kun Ting Chiu; shu yuan Hu; Pei Fen Hu
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2018-01-11
Also published as: TW201824025A

Description

大數據資料庫系統

本發明係屬於資料庫之技術領域，特別是關於一種大數據資料庫系統，以建基於採用SQL(Structural Query Language，結構化查詢語言)的關聯式資料庫(Relational Database)與非關聯式資料庫(NoSQL database)技術上，利用一中間裝置整理指派連線任務而減輕終端主機的連線負荷量而提升整體資料庫的運作效能。

在2012年《紐約時報》的一篇專欄文章「The Age of Big Data」正式宣告大數據時代的來臨後，至今，「大數據」一詞已經可以說是耳熟能詳，而當這世界上累積的資料量越來越龐大時，資料庫即面臨高讀寫需求、高存儲效率、高訪問需求與高擴展性的挑戰。以一般普遍通知的關聯式資料庫為例，其係採用同步且對稱的連線架構而透過對應用戶端(Client)數量的連線數進行資料存取，使實現強大的資料查詢能力。然而，此種屬於單一主從關係的分佈式資料庫因其連線數需與用戶端等量，故受硬體設備負荷能力的限制，於面臨大數據的資料存取需求時，勢必得將原有的硬體設備進行擴充或汰換更高規格者，如此，除成本增加外，亦需面臨作業上的難度。

另外，非關聯式資料庫雖利用分佈式儲存與運算的作業方式處理數據資料而具有硬體設備需求低廉與高水平擴充能力的特點，不過，卻同樣採用同步且對稱的連線架構，故於面臨大數據的資料存取需求時仍得將原有的硬體設備進行擴充，且由於非關聯式資料庫採用新程式語言，因此除查詢能力極弱外，於巨量資料的寫入輸出時更呈現有高錯誤率，且其語言成熟度不足而容易發生版本升級上的風險亦降低資料庫的安全性與穩定性，不利於高風險需求的產業發展。

為此，考量到關聯式資料庫的實時性、準確性與安全性及非關聯式資料庫的高擴充性與高可用性，即發展出如圖1所示之SQL+NoSQL資料庫1，其複數個用戶端10分別連線至一SQL資料庫11，該SQL資料庫11又連線至一NoSQL資料庫12，且該NoSQL資料庫12係儲放有一資料表(圖未示)，以供資料查詢用。由於該等用戶端10是透過SQL語言與該SQL資料庫11作連結，而SQL資料庫11再與該NoSQL資料庫12以新程式語言進行轉譯溝通，因此資料查詢能力仍偏弱。再者，該SQL+NoSQL資料庫1仍是同步且對稱的連線架構，雖具有水平擴充的能力，但受限於該SQL資料庫11與該NoSQL資料庫12間的溝通需經過轉譯，故對整體系統而言，擴充後的資料庫反而承受更高的工作負荷量，導致查詢時間延長而不利於產業應用。

有感於此，如何改善資既有料庫架構或提出全然不同的架構，以於減少縮減資料庫所需負荷的連線數的同時，確保資料(Data)轉換成資訊(Information)的工作效率，即為本發明所亟欲探究之課題。

有鑑於習知技藝之問題，本發明之目的在於提供一種高擴充性與的大數據資料庫系統，以降低資料主機所承接的網段負載的同時使整體系統至少可處理400K用戶連線數之資料請求，實現巨量數據的高品質運算。

根據本發明之目的，該大數據資料庫系統係建基於SQL資料庫與NoSQL資料庫的語言架構上而供複數個用戶端請求連線後進行資料的存取，其特徵在於：該大數據資料庫系統設有至少一轉接伺服器與一資料主機，該轉接伺服器內設有複數個佇列器與一指派器，該等佇列器分別電訊連接對應之該用戶端，該指派器電訊連接該等佇列器與該資料主機，當該等用戶端分別傳送一資料請求時，對應之該佇列器即接收並佇列該等資料請求，且該指派器使該等資料請求分別透過該轉接伺服器與該資料主機間之單一連線傳送予該資料主機。

其中，該指派器係依據先進先出的訊息機制自該等佇列器中讀取該等資料請求後順序傳送予該資料主機，該等佇列器係對應該等用戶端設置，使各該用戶端連線對應之該佇列器，且當該轉接伺服器為複數使用型態，即該等轉接伺服器為α個時，該資料主機與該等轉接伺服器間之網段連線數亦為α。

並且，該轉接伺服器與該等用戶端間係採用關聯式資料庫架構之語言技術，而該轉接伺服器與該資料主機間係採用非關聯式資料庫架構之語言技術。

綜上所述，本發明係透過該指派器進行新程式語言的轉譯工作而解決往昔NoSQL資料庫低查詢功能的問題，且透過該等佇列器與該指派器的使用順序處理該等資料請求而解決往昔SQL資料庫、NoSQL資料庫或SQL+NoSQL資料庫需求對等用戶數的連線量問題，亦即，無需予各該資料請求分配對應之一執行緒進行資料的處理與應答，如此，即使該等用戶端的數量增加或該等資料請求爆增，該資料主機仍於該指派器的協調下，透過與該轉接伺服器間的單一連線進行資料的處理與應答而不會有網段連線負載過高的問題出現。進一步言，利用本發明之大數據資料庫系統為基礎，可為訊息交換之運用，以及搭配各式資料處理方法為其實施。

習知技藝

1‧‧‧SQL+NoSQL資料庫

10‧‧‧用戶端

11‧‧‧SQL資料庫

12‧‧‧NoSQL資料庫

本發明

2‧‧‧大數據資料庫系統

20‧‧‧用戶端

21‧‧‧轉接伺服器

210‧‧‧佇列器

211‧‧‧指派器

22‧‧‧資料主機

3‧‧‧雲伺服器

S1~S3‧‧‧步驟

第1圖係為習知SQL+NoSQL資料庫之架構示意圖。

第2圖係為本發明較佳實施例之架構示意圖。

第3圖係為本發明較佳實施例之流程示意圖。

第4圖係為本發明較佳實施例之使用示意圖。

第5圖係為本發明較佳實施例之應用示意圖。

為使貴審查委員能清楚了解本發明之內容，謹以下列說明搭配圖式，敬請參閱。

請參閱第2、3圖，其係分別為本發明較佳實施例之架構示意圖與流程示意圖。如圖所示，該大數據資料庫系統2建基於SQL資料庫與NoSQL資料庫的語言架構上而供複數個用戶端20請求連線後進行資料的存取，其設有至少一轉接伺服器21與一資料主機22。該轉接伺服器21內設有複數個佇列器210與一指派器211，該等佇列器210分別電訊連接對應之該用戶端20並透過關聯式資料庫架構之語言技術進行構通，該指派器211電訊連接該等佇列器210與該資料主機22，並透過非關聯式資料庫架構之語言技術與該資料主機22進行構通，又該大數據資料庫系統2之運作方式可包含下列步驟。

當該等用戶端20之數量為N時，於步驟S1中，設置對應該等用戶端20數量之該等佇列器210，使該轉接伺服器21內具有N個佇列器210，且各該佇列器210連線對應之各該用戶端20，亦即，該轉接伺服器21與該等用戶端20間網段呈現有N條連線。

接著，當該等用戶端20分別傳送一資料請求時，步驟S2，對應之該佇列器210接收並佇列該等資料請求，亦即，來自各該用戶端20之指令、交易或請求使用SQL語言寫入各該佇列器210中。同時，各該佇列器210傳送一請求通知予該指派器211，以於巨量之該等資料請求並存於該轉接伺服器21內的同時，使該指派器211創建分階段執行該等資料請求之一執行緒。

於步驟S3中，該指派器211依據先進先出的訊息機制自該等佇列器210中讀取該等資料請求，並轉譯成該資料主機22所能辦識之程式語言後，透過該轉接伺服器21與該資料主機22間之單一連線順序分發予該資料主機22，如此，透過此訊息機制協調對應各該佇列器210之執行緒間不同節節點之工作，即可允許該資料主機22具有於面臨巨量請求時仍可用單一連線接收並回復的功能，而不會造成該等用戶端20輸入之資料請求出現時序重疊而影響系統運算時效的問題發生。順帶一提的是，利用該指派器211作為該轉接伺服器21與該資料主機22間之中間裝置進行程式語言的轉譯的資料處理手段，係可大幅提升該大數據資料庫系統2的查詢能力，且該等用戶端20與該等轉接伺服器21間之連線數明顯地不同於該等轉接伺服器21與該資料主機22間之連線數，故可大幅降低該資料主機22所承接的網段負載。

並且，當該等用戶端20的數量到達一程度而使該轉接伺服器21到達連線上限時，該大數據資料庫系統2可再添增次一該轉接伺服器21，且次一該轉接伺服器21自動接收超量之該等用戶端20之資料請求後，亦透過其與該資料主機22間之單一連線順序分發該等資料請求予該資料主機22。如圖4所示，若各該指派器210皆僅負責4,000，即4K連線數，當該轉接伺服器21為如3個的複數使用型態而使該等指派器210合計有100個時，即使該資料主機22與該等轉接伺服器21間之網段連線數為3條連線數，該大數據資料庫系統2仍可處理400K連線數而不會出現錯誤與問題，極大於現今NoSQL資料庫的10K連線數等級，毫無疑問可解決巨量的指令與資料問題。換言之，該等轉接伺服器21為α個時，該資料主機22與該等轉接伺服器21間之網段連線數亦為α，形成非同步且非對稱連線之系統架構。由於本發明係採用分散式運算方式，且各該轉接伺服器21僅需處理該等資料請求的排序與轉譯工作，故各該轉接伺服器21的硬體需求並不高，可隨該等用戶端20的數量增減而隨意增減，並不會影響後端該資料主機22的資料運算與儲存，又該資料主機22主要是作為壓縮後資料(Data Table)的存放，而各該轉接伺服器21則皆具有讀寫功能，非傳統的主從式系統架構。

另外，該大數據資料庫系統2理當可如圖5所示應用於雲資料庫上，其係於該等轉接伺服器21前端部署一雲伺服器3，以供提供產業應用(Industry Applications)、資料分析應用(Data Analytics Applications)、機能應用(Functional Applications)、連線分析(Content Analytics)與商業智能報告(BI/Reporting)等服務，而允許該等用戶端20透過雲端網絡的連接方式利用該雲伺服器3進入該資料主機22進行資料的查詢、讀取或寫入等作動。又該資料主機22內可分設有對應該等轉接伺服器21之複數個資料槽(圖未示)，該等資料槽內資料彼此同步更新，以供各該指派器211自對應之該資料槽中查詢資料而提升作業時效。

以上所述僅為舉例性之較佳實施例，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。