TW202105372A - 基於區塊鏈的文件相似性檢測方法及裝置、電子設備 - Google Patents
基於區塊鏈的文件相似性檢測方法及裝置、電子設備 Download PDFInfo
- Publication number
- TW202105372A TW202105372A TW109105435A TW109105435A TW202105372A TW 202105372 A TW202105372 A TW 202105372A TW 109105435 A TW109105435 A TW 109105435A TW 109105435 A TW109105435 A TW 109105435A TW 202105372 A TW202105372 A TW 202105372A
- Authority
- TW
- Taiwan
- Prior art keywords
- file
- similarity
- target
- unit
- smart contract
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本說明書提供了一種基於區塊鏈的文件相似性檢測方法和裝置,應用於部署有用於檢測與目標原創文件相似度的智慧合約的區塊鏈網路,所述方法由所述區塊鏈網路的節點設備執行,包括:接收包含第一文件的第一交易,所述第一文件為待檢測與所述目標原創文件的相似度的文件;呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述第一文件與所述目標原創文件的相似性檢測結果。
Description
本說明書一個或多個實施例涉及區塊鏈技術領域,尤其涉及一種基於區塊鏈的文件相似性檢測方法及裝置、電子設備。
區塊鏈技術,也被稱之為分布式帳本技術,是一種由若干台計算設備共同參與“記帳”,共同維護一份完整的分布式資料庫的新興技術。由於區塊鏈技術具有去中心化、公開透明、每台計算設備可以參與資料庫記錄、並且各計算設備之間可以快速的進行資料同步的特性,使得區塊鏈技術已在眾多的領域中廣泛的進行應用。
有鑑於此,本說明書一個或多個實施例提供一種基於區塊鏈的文件相似性檢測方法、裝置、電腦設備和電腦可讀儲存媒體。
為實現上述目的,本說明書一個或多個實施例提供了一種基於區塊鏈的文件相似性檢測方法,應用於部署有用於檢測與目標原創文件相似度的智慧合約的區塊鏈網路,所述方法由所述區塊鏈網路的節點設備執行,包括:
接收包含第一文件的第一交易,所述第一文件為待檢測與所述目標原創文件的相似度的文件;
呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述第一文件與所述目標原創文件的相似性檢測結果。
在又一示出的實施方式中,所述第一文件包括至少一個預設長度的第一文件單元;所述智慧合約儲存有若干個目標文件向量,每個目標文件向量基於所述目標原創文件所包含的預設長度的目標文件單元而產生;所述執行所述智慧合約聲明的文件相似性檢測邏輯包括:
為所述至少一個第一文件單元產生至少一個第一文件向量;
計算所述至少一個第一文件向量與每個目標文件向量的距離;
對比所述距離與預設的距離閾值;當所述距離小於預設的距離閾值時,所述至少一個第一文件單元的相似性檢測結果為相似;所述第一文件與所述目標原創文件的相似性檢測結果包括所述至少一個第一文件單元的相似性檢測結果。
在又一示出的實施方式中,所述智慧合約為所述若干個目標文件向量產生有目標文件向量索引。
在又一示出的實施方式中,所述的方法,還包括:
獲取包含至少一個相似的第一文件單元的第二文件,所述相似的第一文件單元為所述相似性檢測結果為相似的第一文件單元;
將所述第二文件劃分為多個所述預設長度的第二文件單元;
向所述區塊鏈發送包含所述第二文件單元的第二交易,以呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述每個第二文件與所述目標原創文件的相似性檢測結果;
基於相似性檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度。
在又一示出的實施方式中,基於相似度檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度,包括:
計算所述相似度檢測結果為相似的第二文件單元的內容總和與所述第二文件的全部內容的比值,或所述相似度檢測結果為相似的第二文件單元的內容總和與所述目標原創文件的全部內容的比值,以作為所述第二文件與所述目標原創文件的相似度。
在又一示出的實施方式中,當所述第二文件與目標原創文件的相似度大於預設的相似度閾值時,所述方法還包括:
向所述區塊鏈發送存證交易,所述存證交易包括所述第二文件和所述第二文件的來源資訊。
相應地,本說明書還提供了一種基於區塊鏈的文件相似性檢測裝置,應用於部署有用於檢測與目標原創文件相似度的智慧合約的區塊鏈網路,所述裝置應用於所述區塊鏈網路的節點設備端,包括:
接收單元,接收包含第一文件的第一交易,所述第一文件為待檢測與所述目標原創文件的相似度的文件;
執行單元,呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述第一文件與所述目標原創文件的相似性檢測結果。
在又一示出的實施方式中,所述第一文件包括至少一個預設長度的第一文件單元;所述智慧合約儲存有若干個目標文件向量,每個目標文件向量基於所述目標原創文件所包含的預設長度的目標文件單元而產生;所述執行所述智慧合約聲明的文件相似性檢測邏輯包括:
為所述至少一個第一文件單元產生至少一個第一文件向量;
計算所述至少一個第一文件向量與每個目標文件向量的距離;
對比所述距離與預設的距離閾值;當所述距離小於預設的距離閾值時,所述至少一個第一文件單元的相似性檢測結果為相似;所述第一文件與所述目標原創文件的相似性檢測結果包括所述至少一個第一文件單元的相似性檢測結果。
在又一示出的實施方式中,所述智慧合約為所述若干個目標文件向量產生有目標文件向量索引。
在又一示出的實施方式中,所述的裝置,還包括:
獲取單元,獲取包含至少一個相似的第一文件單元的第二文件,所述相似的第一文件單元為所述相似性檢測結果為相似的第一文件單元;
劃分單元,將所述第二文件劃分為多個所述預設長度的第二文件單元;
發送單元,向所述區塊鏈發送包含所述第二文件單元的第二交易,以呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述每個第二文件與所述目標原創文件的相似性檢測結果;
計算單元,基於相似性檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度。
在又一示出的實施方式中,所述計算單元,進一步用於:
計算所述相似度檢測結果為相似的第二文件單元的內容總和與所述第二文件的全部內容的比值,或所述相似度檢測結果為相似的第二文件單元的內容總和與所述目標原創文件的全部內容的比值,以作為所述第二文件與所述目標原創文件的相似度。
在又一示出的實施方式中,當所述第二文件與目標原創文件的相似度大於預設的相似度閾值時,所述發送單元,進一步用於:
向所述區塊鏈發送存證交易,所述存證交易包括所述第二文件和所述第二文件的來源資訊。
相應地,本說明書還提供了一種電腦設備,包括:儲存器和處理器;所述儲存器上儲存有可由所述處理器運行的電腦程式;所述處理器運行所述電腦程式時,執行如上述各實施方式所述的基於區塊鏈的文件相似性檢測方法。
相應地,本說明書還提供了一種電腦可讀儲存媒體,其上儲存有電腦程式,所述電腦程式被處理器運行時,執行如上述各實施方式所述的基於區塊鏈的文件相似性檢測方法。
這裡將詳細地對示例性實施例進行說明,其示例表示在圖式中。下面的描述涉及圖式時,除非另有表示,不同圖式中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本說明書一個或多個實施例相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本說明書一個或多個實施例的一些方面相一致的裝置和方法的例子。
需要說明的是:在其他實施例中並不一定按照本說明書示出和描述的順序來執行相應方法的步驟。在一些其他實施例中,其方法所包括的步驟可以比本說明書所描述的更多或更少。此外,本說明書中所描述的單個步驟,在其他實施例中可能被分解為多個步驟進行描述;而本說明書中所描述的多個步驟,在其他實施例中也可能被合併為單個步驟進行描述。
隨著網際網路普及和內容抄襲成本的降低,越來越多原創網際網路內容受到不法侵權的影響,不僅給創作者帶來巨大的經濟損失,而且影響到整個社會的創新動力。另外,抄襲者利用同義詞替換或洗稿工具,使得侵權檢測變得更困難。
例如,一般對網際網路文件內容侵權檢測,會採用文件內容直接對比的方式,比較兩篇文章中詞的重合度;對於直接採用文件內容進行對比的方法,缺點比較明顯:當抄襲文章的文件內容稍有改動,就無法檢查出,例如原創文章A的文件內容雜湊值為md5_A,抄襲文章只要改動一個字元,那麼抄襲文章的文件內容的雜湊值即與md5_A完全不同,因此很難檢出抄襲文章與原創文件的重合度。
而且,在現有的文件侵權檢測或文件相似性檢測中,對檢測出的侵權文件通常透過公證機關進行文件存證或電子存證,從檢測到存證的時間窗口較長,易於被可能侵權者抵賴或消除證據。
有鑑於此,本說明書提供了一種基於區塊鏈的文件相似性檢測方法,應用於部署有用於檢測與目標原創文件相似度的智慧合約的區塊鏈網路。
本說明書一個或多個實施例所述的區塊鏈網路,具體可指一個各節點設備透過共識機制達成的、具有分布式資料儲存結構的P2P網路系統,該區塊鏈內的資料分佈在時間上相連的一個個“區塊(block)”之內,後一區塊可包含前一區塊的資料摘要,且根據具體的共識機制(如POW、POS、DPOS或PBFT等)的不同,達成全部或部分節點的資料全備份。
對於實體世界產生的真實資料,可以將其構建成區塊鏈所支援的標準的交易(transaction)格式,然後發佈至區塊鏈,由區塊鏈中的節點設備對收到的交易進行共識處理,並在達成共識後,由區塊鏈中作為記帳節點的節點設備,將這筆交易打包進區塊,在區塊鏈中進行持久化存證。
其中,區塊鏈中支援的共識算法可以包括:
第一類共識算法,即節點設備需要爭奪每一輪的記帳週期的記帳權的共識算法;例如,工作量證明(Proof of Work, POW)、股權證明(Proof of Stake,POS)、委任權益證明(Delegated Proof of Stake,DPOS)等共識算法;
第二類共識算法,即預先為每一輪記帳週期選舉記帳節點(不需要爭奪記帳權)的共識算法;例如,實用拜占庭容錯(Practical Byzantine Fault Tolerance,PBFT)等共識算法。
在採用第一類共識算法的區塊鏈網路中,爭奪記帳權的節點設備,都可以在接收到交易後執行該筆交易。爭奪記帳權的節點設備中可能有一個節點設備在本輪爭奪記帳權的過程中勝出,成為記帳節點。記帳節點可以將收到的交易與其它交易一起打包以產生最新區塊,並將產生的最新區塊或者該最新區塊的區塊頭發送至其它節點設備進行共識。
在採用第二類共識算法的區塊鏈網路中,具有記帳權的節點設備在本輪記帳前已經商定好。因此,節點設備在接收到交易後,如果自身不是本輪的記帳節點,則可以將該交易發送至記帳節點。對於本輪的記帳節點,在將該交易與其它交易一起打包以產生最新區塊的過程中或者之前,可以執行該交易。記帳節點在產生最新區塊後,可以將該最新區塊或者該最新區塊的區塊頭發送至其它節點設備進行共識。
如上所述,無論區塊鏈採用以上示出的哪種共識算法,本輪的記帳節點都可以將接收到的交易打包以產生最新區塊,並將產生的最新區塊或者該最新區塊的區塊頭發送至其它節點設備進行共識驗證。如果其它節點設備接收到最新區塊或者該最新區塊的區塊頭後,經驗證沒有問題,可以將該最新區塊追加到原有的區塊鏈末尾,從而完成區塊鏈的記帳過程。其它節點驗證記帳節點發來的新的區塊或區塊頭的過程中,也可以執行該區塊中的包含的交易。
本領域的技術人員熟知,由於區塊鏈網路系統在相應共識機制下運行,已收錄至區塊鏈資料庫內的資料很難被任意的節點篡改,例如採用Pow共識的區塊鏈,至少需要全網51%算力的攻擊才有可能篡改已有資料,因此區塊鏈系統有著其他中心化資料庫系統所無法比擬的保證資料安全、防攻擊篡改的特性。由此可知,被收錄至區塊鏈的分布式資料庫中的資料不會被攻擊或篡改,從而保證了存證入區塊鏈的分布式資料庫的資料資訊的真實可靠性。
區塊鏈網路的示例類型可以包括公有區塊鏈網路、私有區塊鏈網路和聯盟區塊鏈網路。儘管術語區塊鏈通常與比特幣加密貨幣網路相關聯,但是本文使用的區塊鏈可指代不參考任何特定用例的DLS(分布式帳本系統)。
在公有區塊鏈網路中,共識過程由共識網路的節點控制。例如,數百、數千、甚至數百萬個實體可以在公有區塊鏈網路中協作,每個實體在公有區塊鏈網路中操作至少一個節點。因此,公有區塊鏈網路可以被認為是相對於參與實體的公有網路。示例公有區塊鏈網路包括比特幣網路,比特幣網路是對等支付網路。比特幣網路利用分布式帳本,被稱為區塊鏈。然而如上所述,術語區塊鏈通常用於指代不特別參考比特幣網路的分布式帳本。
通常,公有區塊鏈網路支援公有交易。公有交易與公有區塊鏈網路內的所有節點共享,並儲存在全域區塊鏈中。全域區塊鏈是跨所有節點複製的區塊鏈。也就是說,對於全域區塊鏈,所有節點處於完全一致的狀態。為了達成共識(例如,同意向區塊鏈添加塊),在公有區塊鏈網路內實施共識協定。示例共識協定包括但不限於,在比特幣網路中實施的工作量證明(proof-of-work,POW)。
通常,私有區塊鏈網路提供給特定實體,特定實體集中控制讀取和寫入權限。該實體控制哪些節點能夠參與區塊鏈網路。因此,私有區塊鏈網路通常被稱為許可網路,其對允許誰參與網路及其參與水平(例如,僅在某些交易中)施加限制。可以使用各種類型的存取控制機制(例如,現有參與者投票添加新實體,監管機構可以控制准入)。
通常,聯盟區塊鏈網路在參與實體中是私有的。在聯盟區塊鏈網路中,共識過程由授權的一組節點(聯盟成員節點)控制,一個或多個節點由相應的實體(例如,企業)操作。例如,由十(10)個實體(例如,企業)組成的聯盟可以操作聯盟區塊鏈網路,每個實體在該聯盟區塊鏈網路中操作至少一個節點。因此,就參與實體而言,聯盟區塊鏈網路可以被認為是私有網路。在一些示例中,每個實體(節點)必須對每個塊進行簽名,以使該塊有效並將有效的塊添加到區塊鏈。在一些示例中,至少實體(節點)的子集(例如,至少7個實體)必須對每個塊進行簽名以使該塊有效,並且將有效的塊添加到區塊鏈。
可以預期,本說明書所提供的實施方式能夠在任何合適類型的區塊鏈網路中實現。
在實際應用中,不論是公有鏈、私有鏈還是聯盟鏈,都可能提供智慧合約(Smart contract)的功能。區塊鏈上的智慧合約是在區塊鏈上可以被交易觸發執行的合約。智慧合約可以透過代碼的形式定義。
以以太坊為例,支援用戶在以太坊網路中創建並呼叫一些複雜的邏輯。以太坊作為一個可程式化區塊鏈,其核心是以太坊虛擬機器(EVM),每個以太坊節點都可以運行EVM。EVM是一個圖靈完備的虛擬機器,透過它可以實現各種複雜的邏輯。用戶在以太坊中發佈和呼叫智慧合約就是在EVM上運行的。實際上,EVM直接運行的是虛擬機器代碼(虛擬機器位元組碼,下簡稱“位元組碼”),所以部署在區塊鏈上的智慧合約可以是位元組碼。
如圖1所示,Bob將一筆包含創建智慧合約資訊的交易(Transaction)發送到以太坊網路後,各節點均可以在EVM中執行這筆交易。其中,圖中交易的From欄位用於記錄發起創建智慧合約的帳戶的地址,交易的Data欄位的欄位值保存的合約代碼可以是位元組碼,交易的To欄位的欄位值為一個null(空)的帳戶。當節點間透過共識機制達成一致後,這個智慧合約成功創建,後續用戶可以呼叫這個智慧合約。
智慧合約創建後,區塊鏈上出現一個與該智慧合約對應的合約帳戶,並擁有一個特定的地址;比如,圖1中各節點中的“0x68e12cf284…”就代表了創建的這個合約帳戶的地址;合約代碼(Code)和帳戶儲存(Storage)將保存在該合約帳戶的帳戶儲存中。智慧合約的行為由合約代碼控制,而智慧合約的帳戶儲存則保存了合約的狀態。換句話說,智慧合約使得區塊鏈上產生包含合約代碼和帳戶儲存的虛擬帳戶。
前述提到,包含創建智慧合約的交易的Data欄位保存的可以是該智慧合約的位元組碼。位元組碼由一連串的位元組組成,每一位元組可以標識一個操作。基於開發效率、可讀性等多方面考慮,開發者可以不直接書寫位元組碼,而是選擇一門高級語言編寫智慧合約代碼。例如,高級語言可以採用諸如Solidity、Serpent、LLL語言等。對於採用高級語言編寫的智慧合約代碼,可以經過編譯器編譯,產生可以部署到區塊鏈上的位元組碼。
以Solidity語言為例,用其編寫的合約代碼與面向對象程式化語言中的類(Class)很相似,在一個合約中可以聲明多種成員,包括狀態變量、函數、函數修改器、事件等。狀態變量是永久儲存在智慧合約的帳戶儲存(Storage)欄位中的值,用於保存合約的狀態。
如圖2所示,仍以以太坊為例,Bob將一筆包含呼叫智慧合約資訊的交易發送到以太坊網路後,各節點均可以在EVM中執行這筆交易。其中,圖中交易的From欄位用於記錄發起呼叫智慧合約的帳戶的地址,To欄位用於記錄被呼叫的智慧合約的地址,交易的Data欄位用於記錄呼叫智慧合約的方法和參數。呼叫智慧合約後,合約帳戶的帳戶狀態可能改變。後續,某個客戶端可以透過接入的區塊鏈節點查看合約帳戶的帳戶狀態。
智慧合約可以以規定的方式在區塊鏈網路中每個節點獨立的執行,所有執行記錄和資料都保存在區塊鏈上,所以當這樣的交易執行完畢後,區塊鏈上就保存了無法篡改、不會丟失的交易憑證。
創建智慧合約和呼叫智慧合約的示意圖如圖3所示。以太坊中要創建一個智慧合約,需要經過編寫智慧合約、變成位元組碼、部署到區塊鏈等過程。以太坊中呼叫智慧合約,是發起一筆指向智慧合約地址的交易,各個節點的EVM可以分別執行該交易,將智慧合約代碼分布式的運行在以太坊網路中每個節點的虛擬機器中。
本說明書中一個或多個實施例中提供的智慧合約,用於檢測任意文件與目標原創文件的相似度,上述智慧合約的帳戶內可儲存目標原創文件的全文內容,或經過處理的、與全文內容對應的多種形式的索引內容,以方便比對。
圖4示意了本說明書一示例性實施例提供的基於區塊鏈的文件相似性檢測方法的流程步驟,上述方法步驟可由區塊鏈的任一節點設備執行,包括:
步驟402,接收包含第一文件的第一交易,所述第一文件為待檢測與所述目標原創文件的相似度的文件。
在本實施方式中,上述第一交易為智慧合約呼叫交易,如上所述,除了包含待檢測與目標原創文件相似度的第一文件外,還可包括所呼叫的智慧合約的地址、呼叫函數名稱、或參數等內容。本實施方式並不限定上述第一交易的發送方身份,區塊鏈內任一具有上述智慧合約呼叫權限的節點設備可向區塊鏈發送上述第一交易。
上述第一交易不僅可用於呼叫智慧合約,本領域的技術人員應知,在上述第一交易被共識驗證收錄到區塊鏈的分布式資料庫後,即可基於區塊鏈的防篡改機制為上述第一交易所包含的第一文件內容起到存證作用。
步驟404, 呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述第一文件單元與所述目標原創文件的相似性檢測結果。
智慧合約聲明有一系列可執行程式代碼,可在區塊鏈節點設備的EVM上執行。由於智慧合約在被部署到區塊鏈後,可在任何時候經呼叫而執行,因而大大提升了檢測第一文件與目標原創文件相似度的檢測效率;而且,智慧合約的任何變動或更改都在區塊鏈上有跡可循,因此有著較低的人為干預風險和去中心化權威特性,區塊鏈網路的節點設備均可準確執行且達成共識的執行結果,相比於可能受人為干預的中心化檢測程式,透過呼叫智慧合約執行文件相似性檢測可獲得更加公平、公正、準確的執行結果。
本實施方式並不限定上述智慧合約所聲明的文件相似性檢測邏輯所包含的具體邏輯步驟,本領域的技術人員可從實際的業務需求出發,針對目標原創文件設計出適合的文件相似性檢測邏輯。
在一示出的實施方式中,上述文件相似性檢測邏輯可包括:採用相似度算法,如利用simhash算法,透過分詞、雜湊、加權、合併、降維等過程為目標原創文件和第一文件分別產生simhash簽名,由於在simhash算法中,上述兩文件的字元上越接近,相似度越高,因此可根據上述兩simhash的值進行對比以得到上述兩文件的相似度。上述文件相似性檢測邏輯對於大段抄襲和小部分內容修改,任然能夠起到不錯的檢測效果,但對於大量採用同義詞替換,文章段落拼接等場景,效果就會變差。
在又一示出的實施方式中,上述第一文件包括至少一個預設長度的第一文件單元;所述智慧合約儲存有若干個目標文件向量,每個目標文件向量基於所述目標原創文件所包含的預設長度的目標文件單元而產生。
本實施方式並不限定上述預設長度的具體表現形式,可以為預設文件單元如自然段落、或自然句子的長度,也可以為預設容量如100K文件容量的長度,等等。上述用於比較與目標原創文件相似性的第一文件,至少包含一個預設長度的第一文件單元,例如,當上述預設長度為自然段落長度時,上述第一文件應至少包含一個自然段落長度的第一文件單元——即至少一個自然段落;基於相同的預設長度處理規則,上述目標原創文件可被劃分為若干個預設長度的目標文件單元,例如,上述目標原創文件可基於其文件的自然段落被劃分為若干個目標文件單元,再基於文件向量產生算法(如doc2vec算法),為上述若干個目標文件單元產生相應的目標文件向量。
在該實施方式中,執行所述智慧合約聲明的文件相似性檢測邏輯包括(以下邏輯步驟4042至4046未在圖4中顯示):
步驟4042,為所述至少一個第一文件單元產生至少一個第一文件向量。
在該步驟中,採用與產生上述目標文件向量相同的算法(如doc2vec算法),為上述至少一個第一文件單元產生至少一個第一文件向量。
步驟4044,計算所述至少一個第一文件向量與每個目標文件向量的距離。
上述第一文件向量與目標文件向量之間的距離的計算方法包括但不限於cosine距離計算方法,pearson距離計算方法,歐式距離計算方法,街區距離計算方法,等等。
步驟4046,對比所述距離與預設的距離閾值;當所述距離小於預設的距離閾值時,所述至少一個第一文件單元的相似性檢測結果為相似。
相應地,上述第一文件與目標原創文件的相似度檢測結果包括上述至少一個第一文件單元的相似性檢測結果。
以下,本實施方式示例性地展示一第一文件單元的相似性檢測過程,以解釋上述步驟4042至4046的具體過程。
在該示例中,目標原創文件包含有一自然段落:“室友今天看上去臉色特別不好,感覺整個人站起來馬上就要倒下去;測量一下後發現體溫挺正常。天氣太熱,現在確實很容易中暑。治療中暑喝綠豆湯有用。”第一文件包含有一自然段落:“男朋友下午看上去臉色特別不好,整個人站都站不起來,感覺馬上就要倒下去;體溫還算正常,36度。現在天氣很熱,可能比較容易中暑。治療中暑喝綠豆湯、酸梅湯有用。”
可以看出上述第一文件所包含的自然段落有可能是基於目標原創文件包含的上述自然段落進行洗稿後所得,但直接對比法、或Simhash算法均不能很好地體現出上述兩自然段落的相似性;在本示例中,採用計算文件向量距離的方式來獲得上述兩自然段落文件的相似性。
本示例所提供的智慧合約可以在向區塊鏈發佈部署前,已經以自然段落的長度為預設長度,為包含上述自然段落的目標原創文件產生了每個自然段落對應的目標文件向量;也可在向區塊鏈發佈上述智慧合約代碼後,基於包含上述自然段落的目標原創文件對目標文件向量產生函數的呼叫,為包含上述自然段落的目標原創文件產生每個自然段落對應的目標文件向量,本說明書對此不做限定。
關於上述目標文件向量的產生過程,可以包括:
對目標原創文件進行預處理,該預處理過程可包括去除標點符號,去除文件的助詞、停用詞等分詞處理;
對目標原創文件或經過預處理的目標原創文件進行預設長度的文件劃分以產生目標文件單元,例如以自然段落為單元劃分上述的目標原創文件或經過預處理的目標原創文件;
採用向量產生算法將目標文件單元產生目標文件向量。
經文件預處理後,上述示例中的目標原創文件包含的自然段落對應的目標文件單元可以為“室友 今天 看上去 臉色 特別 不好 感覺 整個人 站起來 馬上 就要 倒下去 測量一下 體溫 挺 正常 天氣 太熱 現在 確實 很 容易 中暑 治療 中暑 喝 綠豆湯 有用”。基於doc2vec算法,上述目標文件單元產生的目標文件向量可如表一中第二行資料所示。
上述智慧合約對包含上述自然段落的第一文件的處理過程與上述過程類似,經文件預處理後,上述示例中的第一文件包含的自然段落對應的第一文件單元可以為“男朋友 下午 看上去 臉色 特別 不好 整個人 站 都站不 感覺 馬上 就要 倒 下去 體溫 還 算正常 36度 現在 天氣 很 熱 可能 比較 容易 中暑 治療 中暑 喝 綠豆湯 酸梅湯 有用”。基於doc2vec算法,上述目標文件單元產生的目標文件向量可表一中第三行資料所示。
在本示例中,基於cosine距離算法,對表一種第二行和第三行所述的文件向量進行距離計算,可得到上述第一文件向量和目標文件向量的距離:0.9270391810208355。
當上述向量間的距離小於預設的距離閾值時,可以得出上述第一文件向量的相似性檢測結果為相似。
在本實施方式中,計算預設長度的文件單元(包含目標文件單元和第一文件單元)所採用的算法通常選用電腦深度學習算法,如doc2vec算法,使得文件向量的產生過程不會受文件單元中同義詞替換的影響,從而為相似的文件單元產生相似的文件向量;當上述目標文件向量與第一文件向量之間的距離小於預設閾值時,上述目標文件向量對應的目標文件單元與第一文件向量對應的第一文件單元即為相似文件,因此本實施方式侵權者採用同義詞替換或洗稿來進行文件侵權可以起到更加準確的相似性檢測效果。
值得注意的是,本實施方式中並不限定第一文件所包含的第一文件單元來源於同一文件,還是源自不同的文件;本實施方式可以第一文件單元為檢測單位來進行文件相似性的檢測。
在本實施方式中,區塊鏈的任一節點設備可以基於一個或多個第一文件單元呼叫上述智慧合約來檢測上述一個或多個第一文件單元與目標原創文件中包括的多個目標文件單元的相似性;為了便於管理,上述智慧合約可以為目標原創文件包括的多個目標文件單元創建索引,從而以目標文件單元為檢測單元,更加提高了文件相似度檢測的效率和準確率。
在上述實施方式中,用於檢測與目標原創文件的相似性的第一文件可能只包含一個或幾個等少量預設長度的、與目標原創文件具有相似性的第一文件單元,而第一文件所屬的完整文章文件可能相對於目標原創文件具有更多可以視為相似性的文件單元;因此,在獲取與目標原創文件(的目標文件單元)具有相似性的第一文件單元後,可基於上述相似的第一文件單元進行全網監測抓取,以獲取包含至少一個相似的第一文件單元的第二文件,上述相似的第一文件單元為在上述實施方式中相似性檢測結果為相似的第一文件單元,以檢測上述第二本文所包含的預設長度的第二文件單元與目標原創文件的相似性,從而以獲得上述第二文件是否與目標原創文件具備足夠的相似性以影響第二文件的原創性的結果。
因此,如圖4所示,又一示出的實施方式所提供的文件相似性檢測方法還包括:
步驟406,獲取包含至少一個相似的第一文件單元的第二文件,所述相似的第一文件單元為所述相似性檢測結果為相似的第一文件單元。
步驟408,將所述第二文件劃分為多個所述預設長度的第二文件單元。
為了保證相似性對比的統一性,對預設長度的第二文件單元的劃分方式可與上述第一文件單元或目標文件單元的劃分方式一致。
步驟410,向所述區塊鏈發送包含所述第二文件單元的第二交易,以呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得每個第二文件單元與所述目標原創文件的相似性檢測結果。
由以上實施方式可知,上述第二交易可以為一個,也可以為多個,基於上述實施方式所示的步驟402至404的過程,獲得每個第二文件單元與所述目標原創文件的相似性檢測結果。
步驟412,基於相似性檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度。
本實施方式中並不限定基於相似性檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度的具體方式,本領域的技術人員可基於文件內容的領域、文件的特性、領域內文件侵權的定義等具體的影響因素,為目標原創文件設計出適用的文件相似度計算方法。
在一示出的實施方式中,上述基於相似度檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度,包括:計算所述相似度檢測結果為相似的第二文件單元的內容總和與所述第二文件的全部內容的比值以作為所述第二文件與所述目標原創文件的相似度。例如,與目標原創文件具有相似性的第二文件單元的個數為N個,第二文件的總段落數為M1個,則上述第二文件與目標原創文件的相似度可以為N/M1。
或者,計算所述相似度檢測結果為相似的第二文件單元的內容總和與所述目標原創文件的全部內容的比值以作為所述第二文件與所述目標原創文件的相似度。例如,與目標原創文件具有相似性的第二文件單元的個數為N個,目標原創文件的總段落數為M2個,則上述第二文件與目標原創文件的相似度可以為N/M2。
亦或,上述第二文件與目標原創文件的相似度還可選用N/M1、N/M2這兩數值中較大或較小的,以作為上述第二文件與目標原創文件的相似度。
在又一示出的實施方式中,可以基於第二文件所包含的所有具有相似性的第二文件單元與相應目標文件單元的多個相似度,計算平均相似度(或取上述多個相似度的最大值),作為第二文件與目標原創文件的相似度。上述具有相似性的第二文件單元與相應目標文件單元的相似度可以基於上述第二文件向量與相應目標文件向量的距離與預設距離閾值的比值或差值計算而獲得,在此不作限定。
當上述第二文件與目標原創文件的相似度大於一預設的相似度閾值時,上述第二文件可被認定為侵權文件。在進行第二文件所包含的第二文件單元與目標文件單元的相似性檢測時,透過在區塊鏈上基於第二交易呼叫智慧合約,經過區塊鏈節點設備的共識驗證、已經為第二交易包含的第二文件單元的內容、及該內容與目標原創文件的相似性進行了區塊鏈存證;有效克服了在現有的文件侵權檢測或文件相似性檢測中,對檢測出的侵權文件通常透過公證機關進行文件存證或電子存證,從檢測到存證的時間窗口較長,易於被可能侵權者抵賴或消除證據的缺點。
更進一步地,在又一示出的實施方式中,當所述第二文件與目標原創文件的相似度大於預設的相似度閾值時,所述方法還包括:向所述區塊鏈發送包含所述第二文件的存證交易,上述存證交易還可包括上述第二文件的來源資訊,如刊載網址等,從而基於區塊鏈的防篡改機制進一步為第二文件的侵權性作出區塊鏈存證。
基於本說明書各實施方式所提供的第二文件與目標原創文件的相似度獲得過程,可以為基於多個不同的第二文件與目標原創文件的相似度對多個不同的第二文件進行相似度排序,從而基於不同的相似度排名採用對應的侵權應對措施,如通知侵權方立即停止侵權、進行侵權索賠或發送共享權利建議等。
與上述流程實現對應,本說明書的實施例還提供了基於區塊鏈的文件相似性檢測裝置50。裝置50可以透過軟體實現,也可以透過硬體或者軟硬體結合的方式實現。以軟體實現為例,作為邏輯意義上的裝置,是透過所在設備的CPU(Central Process Unit,中央處理器)將對應的電腦程式指令讀取到內部記憶體中運行形成的。從硬體層面而言,除了圖6所示的CPU、內部記憶體以及儲存器之外,上述裝置所在的設備通常還包括用於進行無線信號收發的晶片等其他硬體,及/或用於實現網路通信功能的板卡等其他硬體。
如圖5所示,本說明書還提供了一種基於區塊鏈的文件相似性檢測裝置50,應用於部署有用於檢測與目標原創文件相似度的智慧合約的區塊鏈網路,所述裝置50應用於所述區塊鏈網路的節點設備端,包括:
接收單元502,接收包含第一文件的第一交易,所述第一文件為待檢測與所述目標原創文件的相似度的文件;
執行單元504,呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述第一文件與所述目標原創文件的相似性檢測結果。
在又一示出的實施方式中,所述第一文件包括至少一個預設長度的第一文件單元;所述智慧合約儲存有若干個目標文件向量,每個目標文件向量基於所述目標原創文件所包含的預設長度的目標文件單元而產生;所述執行所述智慧合約聲明的文件相似性檢測邏輯包括:
為所述至少一個第一文件單元產生至少一個第一文件向量;
計算所述至少一個第一文件向量與每個目標文件向量的距離;
對比所述距離與預設的距離閾值;當所述距離小於預設的距離閾值時,所述至少一個第一文件單元的相似性檢測結果為相似;所述第一文件與所述目標原創文件的相似性檢測結果包括所述至少一個第一文件單元的相似性檢測結果。
在又一示出的實施方式中,所述智慧合約為所述若干個目標文件向量產生有目標文件向量索引。
在又一示出的實施方式中,所述的裝置50,還包括:
獲取單元,獲取包含至少一個相似的第一文件單元的第二文件,所述相似的第一文件單元為所述相似性檢測結果為相似的第一文件單元;
劃分單元,將所述第二文件劃分為多個所述預設長度的第二文件單元;
發送單元,向所述區塊鏈發送包含所述第二文件單元的第二交易,以呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述每個第二文件與所述目標原創文件的相似性檢測結果;
計算單元,基於相似性檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度。
在又一示出的實施方式中,所述計算單元,進一步用於:
計算所述相似度檢測結果為相似的第二文件單元的內容總和與所述第二文件的全部內容的比值,或所述相似度檢測結果為相似的第二文件單元的內容總和與所述目標原創文件的全部內容的比值,以作為所述第二文件與所述目標原創文件的相似度。
在又一示出的實施方式中,當所述第二文件與目標原創文件的相似度大於預設的相似度閾值時,所述發送單元,進一步用於:
向所述區塊鏈發送存證交易,所述存證交易包括所述第二文件和所述第二文件的來源資訊。
上述裝置50中各個單元的功能和作用的實現過程具體詳見上述區塊鏈節點設備所執行的基於區塊鏈的文件相似性檢測方法中對應步驟的實現過程,相關之處參見方法實施例的部分說明即可,在此不再贅述。
以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是實體上分開的,作為單元顯示的部件可以是或者也可以不是實體模組,即可以位於一個地方,或者也可以分佈到多個網路模組上。可以根據實際的需要選擇其中的部分或者全部單元或模組來實現本說明書方案的目的。本領域普通技術人員在不付出創造性勞動的情況下,即可以理解並實施。
上述實施例闡明的裝置、單元、模組,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦,電腦的具體形式可以是個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件收發設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。
與上述方法實施例相對應,本說明書的實施例還提供了一種電腦設備,如圖6所示,該電腦設備包括儲存器和處理器。其中,儲存器上儲存有能夠由處理器運行的電腦程式;處理器在運行儲存的電腦程式時,執行本說明書實施例中上述區塊鏈節點設備所執行的基於區塊鏈的文件相似性檢測方法的各個步驟。對上述區塊鏈節點設備所執行的基於區塊鏈的文件相似性檢測方法的各個步驟的詳細描述請參見之前的內容,不再重複。
與上述方法實施例相對應,本說明書的實施例還提供了一種電腦可讀儲存媒體,該儲存媒體上儲存有電腦程式,這些電腦程式在被處理器運行時,執行本說明書實施例中上述區塊鏈節點設備所執行的基於區塊鏈的文件相似性檢測方法的各個步驟。對上述區塊鏈節點設備所執行的基於區塊鏈的文件相似性檢測方法的各個步驟的詳細描述請參見之前的內容,不再重複。
以上所述僅為本說明書的較佳實施例而已,並不用以限制本說明書,凡在本說明書的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本說明書保護的範圍之內。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內部記憶體。
內部記憶體可能包括電腦可讀媒體中的非永久性儲存器,隨機存取記憶體(RAM)及/或非易失性內部記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。內部記憶體是電腦可讀媒體的示例。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。
電腦的儲存媒體的例子包括,但不限於相變內部記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體或其他內部記憶體技術、唯讀光碟唯讀儲存器(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、卡式磁帶,磁帶磁磁盤儲存或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本說明書的實施例可提供為方法、系統或電腦程式產品。因此,本說明書的實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本說明書的實施例可採用在一個或多個其中包含有電腦可用程式代碼的電腦可用儲存媒體(包括但不限於磁盤儲存器、CD-ROM、光學儲存器等)上實施的電腦程式產品的形式。
402:步驟
404:步驟
406:步驟
408:步驟
410:步驟
412:步驟
50:裝置
502:接收單元
504:執行單元
[圖1]是一示例性實施例提供的創建智慧合約的示意圖;
[圖2]是一示例性實施例提供的一種呼叫智慧合約的示意圖;
[圖3]是一示例性實施例提供的創建智慧合約和呼叫智慧合約的示意圖;
[圖4]是一示例性實施例提供的基於區塊鏈的文件相似性檢測方法的流程示意圖;
[圖5]是一示例性實施例提供的基於區塊鏈的文件相似性檢測裝置的示意圖;
[圖6]是運行本說明書所提供的基於區塊鏈的文件相似性檢測裝置實施例的一種硬體結構圖。
Claims (14)
- 一種基於區塊鏈的文件相似性檢測方法,應用於部署有用於檢測與目標原創文件相似度的智慧合約的區塊鏈網路,所述方法由所述區塊鏈網路的節點設備執行,包括: 接收包含第一文件的第一交易,所述第一文件為待檢測與所述目標原創文件的相似度的文件; 呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述第一文件與所述目標原創文件的相似性檢測結果。
- 根據請求項1所述的方法,所述第一文件包括至少一個預設長度的第一文件單元;所述智慧合約儲存有若干個目標文件向量,每個目標文件向量基於所述目標原創文件所包含的預設長度的目標文件單元而產生;所述執行所述智慧合約聲明的文件相似性檢測邏輯包括: 為所述至少一個第一文件單元產生至少一個第一文件向量; 計算所述至少一個第一文件向量與每個目標文件向量的距離; 對比所述距離與預設的距離閾值;當所述距離小於預設的距離閾值時,所述至少一個第一文件單元的相似性檢測結果為相似;所述第一文件與所述目標原創文件的相似性檢測結果包括所述至少一個第一文件單元的相似性檢測結果。
- 根據請求項2所述的方法,所述智慧合約為所述若干個目標文件向量產生有目標文件向量索引。
- 根據請求項2或3所述的方法,還包括: 獲取包含至少一個相似的第一文件單元的第二文件,所述相似的第一文件單元為所述相似性檢測結果為相似的第一文件單元; 將所述第二文件劃分為多個所述預設長度的第二文件單元; 向所述區塊鏈發送包含所述第二文件單元的第二交易,以呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述每個第二文件與所述目標原創文件的相似性檢測結果; 基於相似性檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度。
- 根據請求項4所述的方法,基於相似度檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度,包括: 計算所述相似度檢測結果為相似的第二文件單元的內容總和與所述第二文件的全部內容的比值,或所述相似度檢測結果為相似的第二文件單元的內容總和與所述目標原創文件的全部內容的比值,以作為所述第二文件與所述目標原創文件的相似度。
- 根據請求項4所述的方法,當所述第二文件與目標原創文件的相似度大於預設的相似度閾值時,所述方法還包括: 向所述區塊鏈發送存證交易,所述存證交易包括所述第二文件和所述第二文件的來源資訊。
- 一種基於區塊鏈的文件相似性檢測裝置,應用於部署有用於檢測與目標原創文件相似度的智慧合約的區塊鏈網路,所述裝置應用於所述區塊鏈網路的節點設備端,包括: 接收單元,接收包含第一文件的第一交易,所述第一文件為待檢測與所述目標原創文件的相似度的文件; 執行單元,呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述第一文件與所述目標原創文件的相似性檢測結果。
- 根據請求項7所述的裝置,所述第一文件包括至少一個預設長度的第一文件單元;所述智慧合約儲存有若干個目標文件向量,每個目標文件向量基於所述目標原創文件所包含的預設長度的目標文件單元而產生;所述執行所述智慧合約聲明的文件相似性檢測邏輯包括: 為所述至少一個第一文件單元產生至少一個第一文件向量; 計算所述至少一個第一文件向量與每個目標文件向量的距離; 對比所述距離與預設的距離閾值;當所述距離小於預設的距離閾值時,所述至少一個第一文件單元的相似性檢測結果為相似;所述第一文件與所述目標原創文件的相似性檢測結果包括所述至少一個第一文件單元的相似性檢測結果。
- 根據請求項8所述的裝置,所述智慧合約為所述若干個目標文件向量產生有目標文件向量索引。
- 根據請求項8或9所述的裝置,還包括: 獲取單元,獲取包含至少一個相似的第一文件單元的第二文件,所述相似的第一文件單元為所述相似性檢測結果為相似的第一文件單元; 劃分單元,將所述第二文件劃分為多個所述預設長度的第二文件單元; 發送單元,向所述區塊鏈發送包含所述第二文件單元的第二交易,以呼叫所述智慧合約,執行所述智慧合約聲明的文件相似性檢測邏輯,獲得所述每個第二文件與所述目標原創文件的相似性檢測結果; 計算單元,基於相似性檢測結果為相似的第二文件單元,計算所述第二文件與所述目標原創文件的相似度。
- 根據請求項10所述的裝置,所述計算單元,進一步用於: 計算所述相似度檢測結果為相似的第二文件單元的內容總和與所述第二文件的全部內容的比值,或所述相似度檢測結果為相似的第二文件單元的內容總和與所述目標原創文件的全部內容的比值,以作為所述第二文件與所述目標原創文件的相似度。
- 根據請求項10所述的裝置,當所述第二文件與目標原創文件的相似度大於預設的相似度閾值時,所述發送單元,進一步用於: 向所述區塊鏈發送存證交易,所述存證交易包括所述第二文件和所述第二文件的來源資訊。
- 一種電腦設備,包括:儲存器和處理器;所述儲存器上儲存有可由所述處理器運行的電腦程式;所述處理器運行所述電腦程式時,執行如請求項1至6任意一項所述的方法。
- 一種電腦可讀儲存媒體,其上儲存有電腦程式,其特徵在於,該電腦程式被處理器執行時實現如請求項1至6中任一項所述方法的步驟。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910683370.2A CN110472201B (zh) | 2019-07-26 | 2019-07-26 | 基于区块链的文本相似性检测方法及装置、电子设备 |
CN201910683370.2 | 2019-07-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202105372A true TW202105372A (zh) | 2021-02-01 |
TWI737183B TWI737183B (zh) | 2021-08-21 |
Family
ID=68508366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109105435A TWI737183B (zh) | 2019-07-26 | 2020-02-20 | 基於區塊鏈的文件相似性檢測方法、系統及非暫態電腦可讀媒體 |
Country Status (3)
Country | Link |
---|---|
CN (2) | CN111898360B (zh) |
TW (1) | TWI737183B (zh) |
WO (1) | WO2021017440A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898360B (zh) * | 2019-07-26 | 2023-09-26 | 创新先进技术有限公司 | 基于区块链的文本相似性检测方法及装置、电子设备 |
US10909317B2 (en) | 2019-07-26 | 2021-02-02 | Advanced New Technologies Co., Ltd. | Blockchain-based text similarity detection method, apparatus and electronic device |
CN110991358B (zh) * | 2019-12-06 | 2024-03-19 | 腾讯科技(深圳)有限公司 | 一种基于区块链的文本比对方法及装置 |
CN110851761A (zh) * | 2020-01-15 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 基于区块链的侵权检测方法、装置、设备及存储介质 |
CN111414589B (zh) * | 2020-03-20 | 2021-11-16 | 支付宝(杭州)信息技术有限公司 | 基于区块链的作品原创审核方法、装置及设备 |
CN113553839B (zh) * | 2020-04-26 | 2024-05-10 | 北京中科闻歌科技股份有限公司 | 一种文本原创识别方法、装置、电子设备及存储介质 |
CN111539853B (zh) * | 2020-06-19 | 2020-11-06 | 支付宝(杭州)信息技术有限公司 | 标准案由确定方法、装置和设备 |
CN112819616A (zh) * | 2020-06-24 | 2021-05-18 | 支付宝(杭州)信息技术有限公司 | 基于区块链的原创作品交易方法及装置和电子设备 |
CN111917859B (zh) * | 2020-07-28 | 2022-08-12 | 腾讯科技(深圳)有限公司 | 数据传输方法、装置、计算机设备以及存储介质 |
CN111930809A (zh) | 2020-09-17 | 2020-11-13 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
CN113128592B (zh) * | 2021-04-20 | 2022-10-18 | 重庆邮电大学 | 一种用于异构的医疗器械标识解析方法、系统及存储介质 |
CN113177107B (zh) * | 2021-05-25 | 2022-05-27 | 浙江工商大学 | 一种基于句法树匹配的智能合约相似性检测方法 |
CN113837629B (zh) * | 2021-09-29 | 2024-06-14 | 土巴兔集团股份有限公司 | 原创内容保护方法、装置及可读存储介质 |
CN113821474A (zh) * | 2021-11-22 | 2021-12-21 | 武汉龙津科技有限公司 | 一种数据处理方法、装置、设备和存储介质 |
CN114492373A (zh) * | 2022-04-07 | 2022-05-13 | 中国信息通信研究院 | 基于区块链的作品侵权判定方法和装置 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8620872B1 (en) * | 2008-09-10 | 2013-12-31 | Amazon Technologies, Inc. | System for comparing content |
KR101577376B1 (ko) * | 2014-01-21 | 2015-12-14 | (주) 아워텍 | 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법 |
US20170075877A1 (en) * | 2015-09-16 | 2017-03-16 | Marie-Therese LEPELTIER | Methods and systems of handling patent claims |
CN106227897A (zh) * | 2016-08-31 | 2016-12-14 | 青海民族大学 | 一种基于藏文句子级别的藏文论文复制检测方法及系统 |
CN106649221A (zh) * | 2016-12-06 | 2017-05-10 | 北京锐安科技有限公司 | 重复文本的检测方法及装置 |
CN107451553B (zh) * | 2017-07-26 | 2019-08-02 | 北京大学深圳研究生院 | 一种基于超图转变的视频中暴力事件检测方法 |
CN107832384A (zh) * | 2017-10-28 | 2018-03-23 | 北京安妮全版权科技发展有限公司 | 侵权检测方法、装置、存储介质和电子设备 |
CN107992470A (zh) * | 2017-11-08 | 2018-05-04 | 中国科学院计算机网络信息中心 | 一种基于相似度的文本查重方法及系统 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN110019216B (zh) * | 2017-12-07 | 2022-10-14 | 中国科学院上海高等研究院 | 基于区块链的知识产权数据存储方法、介质及计算机设备 |
US11294943B2 (en) * | 2017-12-08 | 2022-04-05 | International Business Machines Corporation | Distributed match and association of entity key-value attribute pairs |
CN108197102A (zh) * | 2017-12-26 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 一种文本数据统计方法、装置和服务器 |
US10909150B2 (en) * | 2018-01-19 | 2021-02-02 | Hypernet Labs, Inc. | Decentralized latent semantic index using distributed average consensus |
CN108550041A (zh) * | 2018-03-20 | 2018-09-18 | 深圳市元征科技股份有限公司 | 保护原创作品的方法、装置和终端 |
KR101938878B1 (ko) * | 2018-06-14 | 2019-01-15 | 김보언 | 블록체인 기반 저작권 관리 시스템 |
CN108920633B (zh) * | 2018-07-01 | 2021-12-03 | 湖北通远格知科技有限公司 | 一种论文相似度的检测方法 |
CN109002693B (zh) * | 2018-07-17 | 2021-03-26 | 大连理工大学 | 一种基于区块链的稿件保护方法 |
CN108876560B (zh) * | 2018-07-18 | 2020-10-02 | 阿里巴巴集团控股有限公司 | 一种基于区块链对作品发布者进行信用评价的方法及装置 |
CN109086577B (zh) * | 2018-08-06 | 2022-09-09 | 深圳市迅雷网络技术有限公司 | 一种基于区块链的原创音乐作品管理方法及相关设备 |
CN109345416B (zh) * | 2018-09-12 | 2021-09-21 | 连尚(新昌)网络科技有限公司 | 一种用于记录作品间的引用关系的方法与设备 |
CN109492982B (zh) * | 2018-09-18 | 2023-07-18 | 平安科技(深圳)有限公司 | 基于区块链的协作创作方法、装置及电子设备 |
KR101981699B1 (ko) * | 2018-10-22 | 2019-05-23 | 김보언 | 블록체인 기반의 비디지털 저작물의 저작권 관리 시스템 |
CN113283905A (zh) * | 2018-10-26 | 2021-08-20 | 创新先进技术有限公司 | 基于区块链的数据存证、获取方法和装置 |
CN109597878B (zh) * | 2018-11-13 | 2020-06-05 | 北京合享智慧科技有限公司 | 一种确定文本相似度的方法及相关装置 |
CN109614775A (zh) * | 2018-11-20 | 2019-04-12 | 安徽大学 | 一种基于区块链的版权溯源的保护框架及方法 |
CN110457917B (zh) * | 2019-01-09 | 2022-12-09 | 腾讯科技(深圳)有限公司 | 滤除区块链数据中的非法内容的方法及相关装置 |
CN110046480A (zh) * | 2019-03-29 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 基于区块链的作品版权分配方法和装置 |
PL3662637T3 (pl) * | 2019-05-20 | 2021-09-20 | Advanced New Technologies Co., Ltd. | Identyfikacja materiałów chronionych prawem autorskim przy zastosowaniu osadzonych informacji o prawie autorskim |
CN111898360B (zh) * | 2019-07-26 | 2023-09-26 | 创新先进技术有限公司 | 基于区块链的文本相似性检测方法及装置、电子设备 |
-
2019
- 2019-07-26 CN CN202010752765.6A patent/CN111898360B/zh active Active
- 2019-07-26 CN CN201910683370.2A patent/CN110472201B/zh active Active
-
2020
- 2020-01-15 WO PCT/CN2020/072148 patent/WO2021017440A1/zh active Application Filing
- 2020-02-20 TW TW109105435A patent/TWI737183B/zh active
Also Published As
Publication number | Publication date |
---|---|
CN110472201A (zh) | 2019-11-19 |
CN111898360B (zh) | 2023-09-26 |
TWI737183B (zh) | 2021-08-21 |
CN111898360A (zh) | 2020-11-06 |
WO2021017440A1 (zh) | 2021-02-04 |
CN110472201B (zh) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI737183B (zh) | 基於區塊鏈的文件相似性檢測方法、系統及非暫態電腦可讀媒體 | |
US11100284B2 (en) | Blockchain-based text similarity detection method, apparatus and electronic device | |
TWI762818B (zh) | 基於區塊鏈的發票創建方法及裝置、電子設備 | |
Bai et al. | Formal modeling and verification of smart contracts | |
EP3859571B1 (en) | Method and apparatus for allocating copyrights of works based on blockchain | |
US11361054B2 (en) | Blockchain-based infringement detection method, apparatus, and electronic device | |
US11562451B1 (en) | Apparatus for proportional calculation regarding non-fungible tokens | |
CN111539731A (zh) | 基于区块链的联邦学习方法及装置和电子设备 | |
TW202022754A (zh) | 基於區塊鏈的發票創建方法及裝置、電子設備 | |
US20200193428A1 (en) | Blockchain-based payment withholding and agreement signing method, apparatus, and electronic device | |
TW202107456A (zh) | 基於區塊鏈的票據實名領取方法、裝置及電子設備 | |
WO2021120537A1 (zh) | 基于区块链的侵权取证方法及装置、电子设备、存储介质 | |
US10872170B2 (en) | Blockchain-based copyright distribution | |
CN111738724A (zh) | 跨境资源转移真实性审核方法及装置、电子设备 | |
WO2021017432A1 (zh) | 一种基于区块链的报销费用分割方法、装置及电子设备 | |
US20200193430A1 (en) | Determining generation time for blockchain data | |
CN110033367A (zh) | 基于区块链的合同记录方法及装置、电子设备 | |
Eltuhami et al. | Identity verification and document traceability in digital identity systems using non-transferable non-fungible tokens | |
US11250438B2 (en) | Blockchain-based reimbursement splitting | |
Prabhu et al. | Decentralized digital currency system using Merkle Hash trees | |
Guidi et al. | Delving NFT vulnerabilities, a sleepminting prevention system | |
CN114119046A (zh) | 基于区块链系统的商品设计的授权使用方法及装置 | |
Nagaraj et al. | Panel 3 position paper: Blockchain can be the backbone of india’s economy | |
Diadia et al. | Review of Dematerialization Models and Systems in Public Procurement | |
Lee et al. | Non-Fungible Token Fraud: Studying security issues and improvements for NFTmarketplaces using hashing techniques |