TW201500939A - 數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式 - Google Patents

數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式 Download PDF

Info

Publication number
TW201500939A
TW201500939A TW103120440A TW103120440A TW201500939A TW 201500939 A TW201500939 A TW 201500939A TW 103120440 A TW103120440 A TW 103120440A TW 103120440 A TW103120440 A TW 103120440A TW 201500939 A TW201500939 A TW 201500939A
Authority
TW
Taiwan
Prior art keywords
unit
digital information
vocabulary
information
analysis
Prior art date
Application number
TW103120440A
Other languages
English (en)
Inventor
Hideki Takeda
Kazumi Hasuko
Jakob HALSKOV
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Publication of TW201500939A publication Critical patent/TW201500939A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明之目的在於提供一種數位資訊分析系統、數位資訊分析方法以及數位資訊分析程式,其根據多個詞彙的關連性分析數位資訊。 為達成上述之目的,本發明之數位資訊分析系統包含:對象選擇部,選擇對象數位資訊;組合儲存部,分別儲存與預設之特定事項具有關連性的多個詞彙組合;檢索部,檢索對象選擇部中所選擇的對象數位資訊內,是否包含組合儲存部所儲存的多個詞彙組合;關連性判斷部,在對象數位資訊內包含組合儲存部所儲存的多個詞彙組合的情況,根據語素分析的結果,判斷對象數位資訊與預設之特定事項的關連性;判斷結果設定部,將關連性判斷部的判斷結果與對象數位資訊配對。

Description

數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式
本發明係關於一種數位資訊分析系統、數位資訊分析方法及數位資訊分析程式。本發明特別係關於一種,根據數位資訊中所包含之多個詞彙的關連性分析該數位資訊的數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式。
過去已知一種系統,其顯示所記錄的數位資訊,對於多個文件檔逐一設定表示「是否與使用者資訊所包含的使用者中任一使用者有所關連」的使用者特定資訊,並以將所設定的使用者特定資訊記錄於記憶部的方式進行設定,指定至少一人以上的使用者,接著檢索「與所指定之使用者對應且設定有使用者特定資訊」的文件檔,透過顯示部,設定表示「所檢索的文件檔是否與訴訟相關」的附加資訊,根據附加資訊,輸出與訴訟相關的文件檔,這樣的系統已為人所知(例如日本特開2012-181851號公報)。根據日本特開2012-181851號公報中所記載的系統,僅抽出與特定者相關的數位文件資訊,可謀求減輕用以製作訴訟証據資料的作業負擔。
日本特開2012-181851號公報所記載的系統中,不僅是根 據一個詞彙,而是根據多個詞彙,選定共現語素(Collocation),而被認為更能謀求減輕作業的負擔。
因此,本發明之目的,係提供一種根據多個詞彙的關連性分析數位資訊的數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式。
本發明,為了達成上述目的,提供一種數位資訊分析系統,其具備:對象選擇部,其選擇資訊處理裝置所儲存之對象數位資訊以作為調査對象;組合儲存部,分別儲存與預設之特定事項相關的多個詞彙組合;檢索部,檢索對象選擇部所選擇的對象數位資訊中,是否包含組合儲存部所儲存的多個詞彙組合;關連性判斷部,在對象數位資訊內包含組合儲存部所儲存之多個詞彙的至少一個組合的情況下,根據語素分析的結果,判斷其與對象數位資訊之預設特定事項的關連性;判斷結果設定部,將關連性判斷部的判斷結果與對象數位資訊配對。
另外,上述數位資訊分析系統中,更具備輸出部,可根據判斷結果設定部分別使多個對象數位資訊與之配對的判斷結果,輸出與預設特定資訊相關的對象數位資訊。
另外,上述數位資訊分析系統中,對象選擇部從資訊處理裝置選擇複數對象數位資訊;檢索部分別在多個對象數位資訊中,檢索是否包含多個詞彙組合;關連性判斷部,分別對於多個詞彙組合判斷關連性;判斷結果設定部,可將判斷結果分別與複數對象數位資訊配對。
另外,上述數位資訊分析系統中,關連性判斷部具有:分析部,對於對象數位資訊進行語素分析;位置資訊賦予部,根據分析部的分析結果,將其在對象數位資訊所表示之文章內的位置資訊,分別賦予構成詞彙 組合的一個詞彙與其他詞彙;距離算出部,算出位置資訊賦予部所賦予之一個詞彙的位置資訊與其他詞彙之位置資訊之間的距離;判斷部,根據該距離判斷關連性。
另外,上述數位資訊分析系統中,關連性判斷部具有:分析部,對於對象數位資訊進行語素分析;詞序判斷部,根據「構成從分析部的分析結果所得之詞彙組合」的一個詞彙與其他詞彙的詞序,判斷關連性。
另外,上述數位資訊分析系統中,關連性判斷部亦可具有:分析部,對於對象數位資訊進行語素分析;句子判斷部,根據「構成從分析部的分析結果所得到的詞彙組合」的一個詞彙與其他詞彙是否存在同一句子中的資訊,判斷關連性。
另外,上述數位資訊分析系統,亦可為顯示預設特定事項與訴訟之關係的資訊。
另外,上述數位資訊分析系統中,可更具備修正部,因應來自外部的指示,修正關連性判斷部的判斷結果。
另外,為了達成上述目的,本發明提供一種數位資訊分析方法,其具備:對象選擇階段,選擇資訊處理裝置中所儲存之對象數位資訊以作為調査對象;檢索階段,檢索對象選擇部所選擇的對象數位資訊之中,是否包含分別儲存與預設特定事項相關之多個詞彙組合的組合儲存部中所儲存的多個詞彙組合;關連性判斷階段,在對象數位資訊內包含至少一個組合儲存部所儲存之多個詞彙組合的情況下,根據語素分析的結果,判斷對象數位資訊與預設之特定事項的關連性;判斷結果設定階段,將關連性判斷階段 中的判斷結果與對象數位資訊配對。
此外,為達成上述目的,本發明提供一種數位資訊分析程式,其可在電腦中實現下述功能:對象選擇功能,選擇資訊處理裝置中所儲存的對象數位資訊以作為調査對象;檢索功能,檢索在對象選擇功能中所選擇的對象數位資訊內,是否包含分別儲存與預設特定事項相關之多個詞彙組合的組合儲存部中所儲存的多個詞彙組合;關連性判斷功能,在對象數位資訊內包含至少一個組合儲存部所儲存之多個詞彙組合的情況下,根據語素分析的結果,判斷對象數位資訊與預設之特定事項的關連性;判斷結果設定功能,將關連性判斷功能中的判斷結果與對象數位資訊配對。
根據本發明之數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式,可提供一種根據多個詞彙的關連性分析數位資訊的數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式。
1‧‧‧數位資訊分析系統
2‧‧‧資訊處理裝置
10‧‧‧輸入部
12‧‧‧對象選擇部
14‧‧‧組合儲存部
16‧‧‧檢索部
18‧‧‧關連性判斷部
20‧‧‧判斷結果設定部
22‧‧‧設定資訊儲存部
24‧‧‧輸出部
26‧‧‧修正部
28‧‧‧抽出部
30‧‧‧點數部
180‧‧‧分析部
181‧‧‧位置資訊賦予部
182‧‧‧距離算出部
183‧‧‧判斷部
184‧‧‧詞序判斷部
185‧‧‧句子判斷部
200‧‧‧數位資訊儲存部
210‧‧‧資訊輸出部
1500‧‧‧中央處理器
1510‧‧‧晶片組
1520‧‧‧圖形控制器
1530‧‧‧記憶體
1540‧‧‧記憶裝置
1545‧‧‧讀入/寫入裝置
1550‧‧‧通信介面
1560‧‧‧輸入裝置
S10~S302‧‧‧步驟流程
第1圖為本發明之數位資訊分析系統的架構示意圖。
第2圖為本發明之資訊處理裝置的架構示意圖。
第3圖為本發明之關連性判斷部的架構示意圖。
第4圖為本發明之組合儲存部的資料示意圖。
第5圖為本發明之數位資訊分析方法的流程圖。
第6圖為本發明之數位資訊分析系統的硬體架構示意圖。
如第1圖所示為本發明之數位資訊分析系統的架構示意圖。本實施例之數位資訊分析系統1,係從使用者終端或伺服器等的資訊處理裝置2中所儲存的多筆數位資訊,自動抽出與預設特定事項相關的數位資訊。此處,預設之特定事項,顯示例如,與訴訟相關之資訊。接著,本實施例之數位資訊分析系統1可應用於鑑識,作為一例,係因非法存取與機密資訊洩漏等的與電腦相關之犯罪而產生法律紛爭的情況下,收集並分析「探究犯罪及紛爭之原因」與「搜查所需之電子記錄」的數位資訊,進而使該法律上之証據性明確的技術。
數位資訊分析系統1中,具備作為資料檔的組合儲存部14,其將「與預設之特定事項相關的多個詞彙組合」和「表示與預設特定事項之關連性高低的點數」配對並加以儲存。接著,數位資訊分析系統1,在資訊處理裝置2中所儲存的任意的檔案被選擇的情況下,根據語素分析,分析該檔案內的文章,並判斷所選擇的檔案之中,是否包含組合儲存部14中所儲存的多個詞彙組合。
數位資訊分析系統1,在判斷所選擇的檔案中包含組合儲存部14中所儲存之詞彙組合的情況下,根據多個詞彙各別之間的距離、多個詞彙的詞序及/或多個詞彙是否包含於同一句子章,判斷該檔案相對於預設之特定事項的關連性高低。接著,數位資訊分析系統1,將顯示判斷結果的資訊(亦即,顯示對於預設之特定事項之關連性高低的資訊)與所選擇的檔案配對。
例如,數位資訊分析系統1,在多個詞彙包含兩個詞彙的情 況中,一詞彙與另一詞彙在句子中之距離在預設之距離以下的情況中,該詞彙組合具有特定意義的情況下,判斷所選擇之檔案與預設特定事項具有高度關連性。另外,數位資訊分析系統1,比較一詞彙的詞類與另一詞彙的詞類,在詞類於句子中以預設順序排列的情況下,該詞彙組合具有特定意義的情況中,判斷所選擇之檔案與預設之特定事項具有高度關連性。更進一步,在一詞彙與另一詞彙的距離在預設的距離以下的情況中,相較於兩詞彙互相存在於不同句子中的情況,在兩詞彙存在於相同句子中的情況下,數位資訊分析系統1則判斷該詞彙組合具有特定意義,並判斷包含該詞彙組合的檔案與預設之特定事項具有高度關連性。接著,數位資訊分析系統1,將顯示判斷結果的資訊與所選擇的檔案配對。
數位資訊分析系統1,亦可對資訊處理裝置2中所儲存的其他複數檔案進行相同處理。接著,對應來自外部的指示,數位資訊分析系統1自動從資訊處理裝置2抽出相對於預設特定事項關連性高的檔案或是關連性低的檔案。接著,數位資訊分析系統1,將抽出的檔案輸出以告知使用者。藉此,數位資訊分析系統1,可自動抽出及輸出與預設的特定資訊相關的多個檔案。
又,本實施例中伺服器,係一個以上的伺服器,可藉由包含多個伺服器的方式構成。例如,伺服器包含,郵件伺服器、檔案伺服器或是可儲存數位資訊的文件管理伺服器等的伺服器。另外,使用者終端,係一個以上的使用者終端,可以包含多個使用者終端的方式構成。例如,使用者終端包含,個人電腦、筆記型電腦、平板電腦或是行動電話等的行動通信終端等。
請參閱第2圖至第4圖,其中第2圖為本發明之資訊處理裝置的架構示意圖,第3圖為本發明之關連性判斷部的架構示意圖,第4圖為本發明之組合儲存部的資料示意圖。
數位資訊分析系統1具備:輸入部10,從外部接收「選擇資訊處理裝置2中所儲存之調査對象的數位資訊、即對象數位資訊」的指示;對象選擇部12,對應輸入部10所接受的指示,從資訊處理裝置2選擇並取得對象數位資訊;組合儲存部14,分別儲存與預設之特定事項具有關連性的多個詞彙組合。
另外,數位資訊分析系統1具備:檢索部16,檢索對象選擇部12中所選擇的對象數位資訊內,是否包含組合儲存部14所儲存的多個詞彙組合;關連性判斷部18,在對象數位資訊內包含組合儲存部14所儲存的多個詞彙組合中的至少一個的情況中,根據語素分析的結果,判斷預設之特定事項與對象數位資訊的關連性;判斷結果設定部20,將關連性判斷部18的判斷結果與對象數位資訊配對。
更進一步,數位資訊分析系統1具備:設定資訊儲存部22,儲存來自判斷結果設定部20的資訊;輸出部24,根據判斷結果設定部20的設定,或是設定資訊儲存部22所儲存的設定資訊,輸出對象數位資訊;及修正部26,可修正判斷結果設定部20的設定結果。另外,數位資訊分析系統1亦可具備:抽出部28,抽出多筆數位資訊各別包含的多個詞彙組合;點數部30,將「與預設之特定事項的關連性對應」的點數分別給予抽出部28所抽出的多個詞彙組合。
資訊處理裝置2,具有儲存多筆數位資訊的數位資訊儲存部 200,與將數位資訊輸出至外部的資訊輸出部210。數位資訊儲存部200,儲存包含文章資訊的文件檔、文字檔或是電子信件等的多筆數位資訊。數位資訊儲存部200,對應來自對象選擇部12或是抽出部28的工作指令,將既定的數位資訊提供至資訊輸出部210。資訊輸出部210,將數位資訊儲存部200所儲存的數位資訊提供至對象選擇部12或是抽出部28。又,數位資訊分析系統1與資訊處理裝置2,以可藉由網際網路等的通信網路或是LAN等的有線或無線的網路互相通信的方式連接。另外,數位資訊分析系統1,可具備資訊處理裝置2所具有的一部分或全部的功能以及構成。
輸入部10,從外部接收「選擇資訊處理裝置2的數位資訊儲存部200中所儲存之對象數位資訊」的指示。另外,輸入部10,亦可接「收修正判斷結果設定部20之判斷結果」的指示。更進一步,輸入部10,接收「輸出與預設特定資訊相關之電子檔」的指示。輸入部10,透過例如,鍵盤、滑鼠、觸控螢幕、麥克風等,處理來自使用者的指示。輸入部10,將「選擇所接收之對象數位資訊」的指示提供至對象選擇部12。另外,輸入部10,將所接收的修正指示提供至修正部26。
對象選擇部12,因應來自輸入部10的接收指示,從數位資訊儲存部200取得「在選擇數位資訊儲存部200中所儲存之對象數位資訊時一併選擇的對象數位資訊」。此處,輸入部10所接收的指示中,包含「指定對象數位資訊」的資訊。例如,對象選擇部12,從輸入部10接收指定「識別對象數位資訊的檔案名稱、對象數位資訊的製作日期、對象數位資訊的更新日期、對象數位資訊的檔案大小等」的資訊。接著,對象選擇部12,從數位資訊儲存部200選擇並取得與該指定之資訊一致的對象數位資訊。另 外,對象選擇部12,亦可從資訊處理裝置2的數位資訊儲存部200選擇複數對象數位資訊。對象選擇部12,將所取得之對象數位資訊提供至檢索部16。
組合儲存部14分別儲存「與預設之特定事項具有關連性的多個詞彙組合」或是「被賦予點數的多個詞彙組合」,該點數對應預設之特定事項,並對應與預設之特定事項的關連性。此處,詞彙係在文法上,具有特定意義及功能的最小語言單位。另外,多個詞彙,係指兩個以上的詞彙。接著,點數係指多個詞彙組合與預設之特定事項的關連性中,表示關連性高低的數值。數值越大關連性越高。
例如,組合儲存部14,以與第一詞彙及第二詞彙的組合配對的方式儲存點數。第4圖顯示預設之特定事項係與「侵害」相關之資訊的例子。此情況中,組合儲存部14中,對應作為第一詞彙之「數位相機」及作為第二詞彙之「侵害」的組合,而儲存點數「5」。另外,組合儲存部14中,對應作為第一詞彙之「緊急」及作為第二詞之「預定」之組合,而儲存點數「1」。此情況中顯示,相較於「緊急」與「預定」的詞彙組合,「數位相機」與「侵害」的詞彙組合對於侵害的關連性較高。
組合儲存部14,因應來自檢索部16的工作指令,將與工作指令對應的詞彙組合提供至檢索部16。另外,組合儲存部14,接收從點數部30所供給的詞彙組合與該詞彙組合的點數並加以儲存。
檢索部16,檢索對象選擇部12中所選擇的對象數位資訊內,是否包含組合儲存部14所儲存的多個詞彙組合。具體而言,檢索部16,檢索作為對象數位資訊的電子檔中,是否含有構成組合儲存部14所儲存之多 個詞彙組合的各詞彙。例如,在以第一詞彙與第二詞彙構成一個詞彙組合的情況中,檢索部16,檢索電子檔內是否包含第一詞彙與第二詞彙兩者。
檢索部16,在組合儲存部14中所儲存的多個詞彙組合中的至少一個詞彙組合包含於電子檔的情況,將包含該詞彙組合的電子檔提供至關連性判斷部18。另外,檢索部16,即使是電子檔中皆未包含組合儲存部14中所儲存的多個詞彙組合的情況,亦可將該電子檔提供至關連性判斷部18。
又,檢索部16,可在從對象選擇部12接收複數對象數位資訊的情況中,檢索複數對象數位資訊中是否分別包含多個詞彙組合。另外,檢索部16,可在對象數位資訊為電子信件的情況中,去除電子信件的標頭資訊,並檢所資訊中是否包含多個詞彙組合。藉此,數位資訊分析系統1,可排除實際上與預設特定事項並不相關的資訊(亦即,成為雜訊的資訊)。另外,檢索部16,亦可根據組合儲存部14所儲存之「與點數值在預設值以上的點數對應的詞彙組合」,檢索對象數位資訊內所包含的詞彙組合。
關連性判斷部18,各別分析從檢索部16接收的電子檔所包含的至少一個詞彙組合或多個詞彙組合。接著,關連性判斷部18,根據語素分析,判斷電子檔與預設特定事項的關連性,亦即,該電子檔是否與預設之特定事項相關。接著,關連性判斷部18,將顯示判斷結果的資訊提供至判斷結果設定部20。
具體而言,關連性判斷部18具有:分析部180,對於對象數位資訊進行語素分析;位置資訊賦予部181,根據分析部180的分析結果,分別賦予構成詞彙組合的一個詞彙與其他詞彙在對象數位資訊所顯示 的文章內的位置資訊;距離算出部182,算出在文章內,位置資訊賦予部181所賦予之一個詞彙的位置資訊與其他詞彙的位置資訊之間的距離;及判斷部183,根據距離算出部182所算出的距離判斷關連性。
更具體而言,分析部180具有分析用資料檔,其具有使用於語素分析的文法規則的巨集,以及包含與詞類相關之資訊的詞彙清單等。接著,分析部180,使用分析用資料檔,分析作為對象數位資訊之電子檔所包含的文章,藉此針對每一語素分割該文章。分析部180,將表示分析結果的資訊及電子檔提供至位置資訊賦予部181、詞序判斷部184、以及句子判斷部185。又,分析部180,可具有與日語、英語等的多種語言對應的分析用資料檔。
接著,位置資訊賦予部181,對於分析部180所分割的各語素,賦予各語素的文章中的位置資訊。例如,在分析部180將一篇文章分割為第一語素M與第二語素n的情況中,位置資訊賦予部181,對第一語素m賦予作為位置資訊的Pm,對於第二語素賦予作為位置資訊的Pn。位置資訊賦予部181,將分別表示賦予位置資訊的多個語素的資訊提供至距離算出部182、詞序判斷部184以及句子判斷部185。
距離算出部182,根據表示位置資訊所賦予之語素的資訊,算出在文章中各語素之間的距離。距離算出部182,藉由算出賦予各語素之位置資訊的差值,進而算出距離。例如,距離算出部182,算出第一語素的位置資訊PM與第二語素的位置資訊Pn之差值的絕對值,以作為距離dmn。亦即,距離算出部182,使用式dmn=| Pm-Pn |算出距離。距離算出部182,分別對於電子檔內的多個詞彙組合算出距離,並將表示算出之距離的複數 資訊提供至判斷部183。
判斷部183,在電子檔包含多個相同詞彙組合的情況中,從距離算出部182所接收的多個距離之中,選定表示最短距離的詞彙組合,以作為共現語素。接著,判斷部183,算出語素的出現頻率從出現頻率之期待值偏離多少程度,以對於所選定之詞彙組合的意義進行評價。具體而言,判斷部183係根據下式算出評價值。
其中,Tm,n係共現語素的評價值、即Tscore。CTFm,n,係共現語素在電子檔中的出現頻率。E(CTFm,n),係CTFm,n的期待值。TFm(n)係語素的出現頻率。Nv係電子檔內的動名詞的總數。
接著,判斷部183,逐一對於多個電子檔,判斷其相對預設之特定事項的關連性高低。亦即,判斷部183,因應以上式所得到的評價值的大小,判斷電子檔與預設之特定事項是否相關,是否具有與預設之特定事項相關的可能性,或不具有與預設之特定事項相關的可能性。
例如,判斷部183,在評價值在預設值以上的情況中,判斷選定為共現語素的詞彙組合高度具有意義。作為一例,在Tmn為「2」以上的情況下,判斷部183判斷高度具有意義。接著,判斷部183,將包含「被判斷為高度具有意義之詞彙組合」的電子檔,判斷為與預設之特定事項相關的電子檔。接著,判斷部183,將顯示判斷結果的資訊提供至判斷結果設定部20。
相同地,判斷部183,在評價值於預設值範圍內的情況中, 判斷選定為共現語素的詞彙組合具有中度意義。接著,判斷部183,將包「含被判斷為具有中度意義的詞彙組合」的電子檔,判斷為可能與預設之特定事項相關的電子檔。另外,判斷部183,在評價值小於預設值的情況下,判斷選定為共現語素的詞彙組合具有低度意義。接著,判斷部183,將包含「被判斷為具有低度意義之詞彙組合」的電子檔,判斷為不具與預設之特定事項相關之可能性的電子檔。
另外,判斷部183,可比較分別與多個詞彙組合對應的多個距離,並對應距離的長度,對於多個詞彙賦予對應的排序。例如,判斷部183,可將詞彙間的距離最短的詞彙組合選定為共現語素。更進一步,判斷部183,亦可對於「從距離算出部182接收的距離」與「對距離預設的臨界值」進行比較,並將與臨界值以下或超過臨界值之距離對應的詞彙組合選定為共現語素。例如,判斷部183,可將與臨界值以下的距離對應的詞彙組合選定為共現語素。
另外,關連性判斷部18具有詞序判斷部184,根據構成從分析部180的語素分析結果所得到的多個詞彙組合的一個詞彙與其他詞彙的詞序,及/或根據一個詞彙之詞類與其他詞彙之詞類的詞序,判斷關連性。例如,詞序判斷部184,在判斷多個詞彙分別為一般名詞或是Sa變化名詞的同時,對於從判斷結果所得到的一般名詞Gn與Sa變化連接形態Vn的位置關係進行判斷。作為一例,以下說明多個詞彙組合分別包含兩個詞彙,一方的詞彙為一般名詞,另一方的詞彙為Sa變化連接形態的情況。
此情況下,詞序判斷部184,分別對於多個詞彙組合,比較句子中一般名詞的位置PVn與Sa變化連接的位置PGn。接著,相較於「在句 子中一般名詞在Sa變化連接形態更前方之位置的情況」(亦即,PVn<PGn的情況),在句子中一般名詞的位置PVn在Sa變化連接詞的位置PGn更為後方的情況(亦即,PVN>PGN的情況),詞序判斷部184將「一般名詞的位置PVn在Sa變化連接的位置PGn更為後方」的詞彙組合選定為共現語素。藉此,關連性判斷部18,可對應日語的主語與動詞的組合,及目的語與動詞的組合,將詞彙組合選定為共現語素。
另外,關連性判斷部18具有句子判斷部185,其根據顯示「構成分析部180之語素分析結果所得到之詞彙組合的一個詞彙與其他詞彙是否存在同一句子中」的資訊,判斷關連性。首先,句子判斷部185,藉由檢測出句子的單位(即斷句),將電子檔所包含的文章分割為多個句子。例如,句子判斷部185,具有全文檢索功能(例如,以lucene-gosen實現的功能(以下稱為「lucene-gosen功能」))。句子判斷部185,利用lucene-gosen功能的句首標示,將電子檔所包含的文章分割為複數句子。
接著,句子判斷部185,判斷構成詞彙組合的各詞彙是否存在同一句子當中。接著,句子判斷部185,將存在同一句子中的詞彙組合選定為共現語素。又,句子判斷部185所具有的lucene-gosen功能,可使用句點或是逗點作為句首標示。
判斷結果設定部20,將關連性判斷部18的判斷結果與電子檔配對。判斷結果設定部20,可將判斷結果分別與複數電子檔配對。例如,判斷結果設定部20,在接收關連性判斷部18所判斷之「與預設之特定事項相關的電子檔」的判斷結果的情況下,賦予電子檔「Hot」的標籤;在接收「可能與預設之特定事項相關」之判斷結果的情況下,賦予電子檔 「Responsive」的標籤;在接收「與預設之特定事項並無關連」之判斷結果的情況下,賦予電子檔「Not Responsive」的標籤。判斷結果設定部20,將被賦予「顯示判斷結果之標籤」的電子檔提供至設定資訊儲存部22及/或是輸出部24。
設定資訊儲存部22,將「隨即可辨別的電子檔辨識符號」與電子檔配對,並儲存「與電子檔配對並表示判斷結果設定部20之判斷結果」的標籤。設定資訊儲存部22,將與電子檔辨識符號配對的標籤提供至輸出部24。又,設定資訊儲存部22,亦可在將電子檔與電子檔辨識符號配對後,將電子檔加以儲存。
輸出部24,根據判斷結果設定部20分別對於作為複數對象數位資訊之電子檔配對的判斷結果,輸出與預設之特定資訊相關的對象數位資訊。例如,輸出部24,因應來自外部的指示,輸出與預設之特定資訊相關的電子檔以告知使用者。另外,輸出部24,亦可輸出與設定資訊儲存部22所儲存之電子檔辨識符號配對的標籤。更進一步,輸出部24,在輸入部10從外部接收「輸出與預設之特定資訊相關的電子檔」的指示的情況下,輸出與顯示該特定資訊相關之內容的標籤配對的多個電子檔。
又,輸出部24,係可顯示數位資訊的顯示器等的顯示裝置,及/或將數位資訊輸出至既定媒體的列印機等的輸出裝置。更進一步,輸出部24,亦可以將所輸出之資訊記錄於磁性記錄媒體、光學記錄媒體等記錄媒體的方式來進行輸出。
修正部26,對應輸入部10從外部接收之顯示修正指示的資訊,修正關連性判斷部18的判斷結果。關連性判斷部18,將顯示「實行以 修正部26所進行之修正的判斷結果」的資訊提供至判斷結果設定部20。
抽出部28,抽出多個作為樣本檔案的多筆數位資訊中分別包含的多個詞彙組合。抽出部28,將所抽出的多個詞彙組合提供至點數部30。又,作為樣本檔案,可舉例如,預先被判斷「與特定事件相依的特定事項(作為一例,特定的訴訟)具有高度關連性」的電子檔。另外,作為樣本檔案,可舉例如,預先被判斷「與特定事件不相依之特定事項(作為一例,如智產權訴訟)具有高度關連性」的電子檔。
點數部30,分別將「從抽出部28所抽出的多個詞彙組合」與「和預設之特定事項之關連性對應的點數」配對。例如,點數部30,在預設之特定事項為「訴訟」的情況,因應與「訴訟」具有高度關連性的詞彙組合在電子檔內的出現頻率,而將點數賦予該電子檔。點數部30,將被賦予點數的詞彙組合提供至組合儲存部14並加以儲存。
如第5圖所示,為本發明之數位資訊分析方法的流程圖。
首先,對象選擇部12,從資訊處理裝置2中所儲存的複數對象數位資訊,選擇並取得與來自輸入部10的指示對應的對象數位資訊(步驟10;以下將步驟表示為「S」)。對象選擇部12,將所取得的對象數位資訊提供至檢索部16。檢索部16,在從對象選擇部12接收的對象數位資訊所包含的文章中,檢索組合儲存部14中所儲存的詞彙組合是否存在(S15)。檢索部16,將檢索結果提供至關連性判斷部18。
關連性判斷部18,從檢索部16取得檢索部16所檢索的結果,並對於對象數位資訊所包含的至少一組的詞彙組合進行分析。接著,關連性判斷部18,判斷該對象數位資訊與預設之特定事項的關連性高低(S20)。 關連性判斷部18,將顯示判斷結果的資訊提供至判斷結果設定部20。判斷結果設定部20,將作為「顯示關連性判斷部18之判斷結果的標籤」的判斷結果賦予該對象數位資訊(S25)。判斷結果設定部20,將被賦予標籤的對象數位資訊,或是辨識被賦予標籤之對象數位資訊的辨識符號提供至輸出部24。輸出部24,因應來自外部的工作指令,將被賦予既定標籤的對象數位資訊輸出至外部(S30)。
如第6圖所示,為本發明之數位資訊分析系統的硬體架構示意圖。
本實施例之數位資訊分析系統1包含:中央處理器1500、圖形控制1520、隨機存取記憶體(RAM;Random Access Memory)、唯讀記憶體(ROM;Read-Only Memory)及/或是快閃唯讀記憶體等的記憶體1530,記憶資料的記憶裝置1540、從記錄媒體讀入資料及/或將資料寫入記錄媒體的讀入/寫入裝置1545、輸出資料的輸入裝置1560、與外部通信設備傳送/接收資料的通信介面1550、使「中央處理器1500、圖形控制器1520、記憶體1530、記憶裝置1540、讀入/寫入裝置1545、輸入裝置1560、通信介面1550」以可互相通信的方式連接的晶片組1510。
晶片組1510,藉由使記憶體1530、存取記憶體1530以執行既定處理的中央處理器1500、控制外部顯示裝置之顯示的圖形控制器1520互相連接,以在各構成要件之間進行資料的傳遞。中央處理器1500,根據儲存於記憶體1530的程式運作,以控制各構成要件。圖形控制器1520,根據設於記憶體1530內、為了緩衝而暫時儲存的影像資料,將影像顯示於既定的顯示裝置。
另外,晶片組1510中,記憶裝置1540、讀入/寫入裝置1545、通信介面1550互相連接。記憶裝置1540中,儲存數位資訊分析系統1的中央處理器1500所使用的程式與資料。記憶裝置1540為例如,快閃記憶體。讀入/寫入裝置1545,從記憶程式及/或資料的記憶媒體,讀取程式及/或資料,並將所讀取的程式及/或資料儲存於記憶裝置1540。讀入/寫入裝置1545,透過例如,通信介面1550,從網際網路上的伺服器取得既定的程式,並將取得之程式儲存於記憶裝置1540。
通信介面1550,透過通信網路,與外部的裝置進行資料的收送。另外,通信介面1550,在通信網路不通的情況,可不透過通信網路,而與外部裝置進行資料的收送。接著,鍵盤、觸控面板、滑鼠等的輸入裝置1560,透過既定的界面,與晶片組1510連接。
記憶裝置1540中所儲存的數位資訊分析系統1用的數位資訊分析程式,透過網際網路等的通信網路,或是磁性記錄媒體、光學記錄媒體等的記錄媒體,被提供至記憶裝置1540。接著,記憶裝置1540中所儲存的數位資訊分析系統1用的程式,係藉由中央處理器1500所執行。
藉由本實施例之數位資訊分析系統1所執行的數位資訊分析程式,使得中央處理器1500開始運作,而使得數位資訊分析系統1具有從圖1至圖5所說明的「輸入部10、對象選擇部12、組合儲存部14、檢索部16、關連性判斷部18、判斷結果設定部20、設定資訊儲存部22、輸出部24、修正部26、抽出部28、點數部30、分析部180、位置資訊賦予部181、距離算出部182、判斷部183、詞序判斷部184及句子判斷部185」的功能。
本實施例之數位資訊分析系統1,可不僅根據相對預設之特 定事項具有高度關連性的一個詞彙與其他詞彙的組合,並根據電子檔所包含的一個詞彙與其他詞彙之間的距離、詞序及是否存在相同句子中,來選定作為對象數位資訊之電子檔所包含的共現語素。接著,數位資訊分析系統1,可使用選定的詞彙組合,輕易地從資訊處理裝置2中所儲存的複數電子檔之中,選擇與預設之特定事項相關的電子檔。因此,數位資訊分析系統1,可精準地自動抽出與預設之特定事項相關的多個電子檔。
以上,雖說明本發明的實施例,但上述所記載的實施例,並未限定專利申請範圍之發明。另外,實施例中所說明的特徵組合,並非是解決發明課題所必須的手段,此點應特別注意。更進一步,上述之實施例的技術要件,亦可單獨應用,亦可分割為如程式部分與硬體部份之類的多個部分而加以應用。
1‧‧‧數位資訊分析系統
2‧‧‧資訊處理裝置
10‧‧‧輸入部
12‧‧‧對象選擇部
14‧‧‧組合儲存部
16‧‧‧檢索部
18‧‧‧關連性判斷部
20‧‧‧判斷結果設定部
22‧‧‧設定資訊儲存部
24‧‧‧輸出部
26‧‧‧修正部
28‧‧‧抽出部
30‧‧‧點數部

Claims (10)

  1. 一種數位資訊分析系統,包含:一對象選擇部,選擇一資訊處理裝置中所儲存的任一對象數位資訊以作為調査對象;一組合儲存部,分別儲存與一預設之特定事項具有關連性的複數個詞彙組合;一檢索部,係檢索該對象選擇部中所選擇的該對象數位資訊內,是否包含該組合儲存部所儲存的複數個該詞彙組合;一關連性判斷部,在該對象數位資訊內包含該組合儲存部所儲存的複數個該詞彙組合的其中至少一個組合的情況中,根據語素分析的結果,判斷該對象數位資訊與該預設之特定事項的關連性;以及一判斷結果設定部,將該關連性判斷部的判斷結果與該對象數位資訊配對。
  2. 如申請專利範圍第1項所述之數位資訊分析系統,其中該判斷結果設定部,更具備一輸出部,該輸出部根據分別與複數個該對象數位資訊配對的判斷結果,輸出與該預設之特定事項的關連性相關的該對象數位資訊。
  3. 如申請專利範圍第2項所述之數位資訊分析系統,其中該對象選擇部,係從該資訊處理裝置選擇複數個該對象數位資訊;該檢索部,係分別檢索複數個該對象數位資訊中是否包含複數個該詞彙組合;該關連性判斷部,係分別對於複數個該詞彙組合,判斷關連性;以及該判斷結果設定部,係將該判斷結果分別與複數個該對象數位資訊配對。
  4. 如申請專利範圍第1~3項中任一項所述之數位資訊分析系統,其中,該關連性判斷部具備一分析部,對於該對象數位資訊進行語素分析;一位置資訊賦予部,根據該分析部的分析結果,將一顯示在該對象數位資訊的文章內的位置資訊分別賦予構成該詞彙組合的任一個詞彙與其他詞彙;一距離算出部,算出該位置資訊賦予部所賦予之該任一個詞彙的位置資訊與該其他詞彙的位置資訊之間的距離;以及一判斷部,根據該距離,判斷該關連性。
  5. 如申請專利範圍第1~4項中任一項所述之數位資訊分析系統,其中該關連性判斷部具備一詞序判斷部,係根據構成從該分析部的分析結果所得到的該詞彙組合之該一個詞彙與該其他詞彙的詞序,判斷該關連性。
  6. 如申請專利範圍第1~5項中任一項所述之數位資訊分析系統,其中,該關連性判斷部具備一句子判斷部,係根據顯示構成從該分析部的分析結果所得到的該詞彙組合之該一個詞彙與該其他詞彙是否存在相同句子中的資訊,判斷該關連性。
  7. 如申請專利範圍第1~6項中任一項所述之數位資訊分析系統,其中該預設之特定事項,係顯示與訴訟之關係的資訊。
  8. 如申請專利範圍第1~7項中任一項所述之數位資訊分析系統,其中更包含一修正部,係因應來自外部的指示,修正該關連性判斷部的判斷結果。
  9. 一種數位資訊分析方法,包含:對象選擇階段,一對象選擇部選擇一資訊處理裝置中所儲存的一對象數位資訊以作為調査對象; 檢索階段,檢索該對象選擇部所選擇的該對象數位資訊內,是否包含一組合儲存部中所儲存的複數個詞彙組合,該組合儲存部中,分別儲存與一預設之特定事項具有關連性之複數個該詞彙組合;關連性判斷階段,在該對象數位資訊內,包含該組合儲存部所儲存的複數個該詞彙組合的至少一個組合的情況,根據語素分析的結果,判斷該對象數位資訊與該預設之特定事項的關連性;以及判斷結果設定階段,將該關連性判斷階段中的判斷結果與該對象數位資訊配對。
  10. 一種數位資訊分析程式,係使電腦執行以下功能:對象選擇功能,一對象選擇部係選擇資訊處理裝置中所儲存的一對象數位資訊以作為調査對象;檢索功能,檢索對象選擇功能中該對象選擇部係選擇所選擇之該對象數位資訊內,是否存在一組合儲存部中所儲存的複數個詞彙組合,該組合儲存部分別儲存與一預設之特定事項具有關連性的複數個該詞彙組合;關連性判斷功能,在該對象數位資訊內包含該組合儲存部所儲存之複數個該詞彙組合的至少一個組合的情況中,根據語素分析的結果,判斷該對象數位資訊與該預設之特定事項的關連性;以及判斷結果設定功能,將該關連性判斷功能中的判斷結果與該對象數位資訊配對。
TW103120440A 2013-06-21 2014-06-13 數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式 TW201500939A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013130766A JP5687312B2 (ja) 2013-06-21 2013-06-21 デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム

Publications (1)

Publication Number Publication Date
TW201500939A true TW201500939A (zh) 2015-01-01

Family

ID=52104318

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103120440A TW201500939A (zh) 2013-06-21 2014-06-13 數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式

Country Status (4)

Country Link
US (1) US9690797B2 (zh)
JP (1) JP5687312B2 (zh)
TW (1) TW201500939A (zh)
WO (1) WO2014203573A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI550422B (zh) * 2015-04-08 2016-09-21 雲拓科技有限公司 申請專利範圍之文字歸位方法
US10515105B2 (en) 2016-05-27 2019-12-24 Integral Search Technology Ltd. Computer automatically implemented element-noun reference numeral acquiring method for acquiring element-noun reference numeral of claim-element-noun
US10535110B2 (en) 2016-12-05 2020-01-14 Integral Search Technology Ltd. Method and device for automatic computer translation of patent claims

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
US11334608B2 (en) * 2017-11-23 2022-05-17 Infosys Limited Method and system for key phrase extraction and generation from text

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3960530B2 (ja) * 2002-06-19 2007-08-15 株式会社日立製作所 テキストマイニングプログラム、方法、及び装置
JP4640591B2 (ja) * 2005-06-09 2011-03-02 富士ゼロックス株式会社 文書検索装置
US7627562B2 (en) * 2006-06-13 2009-12-01 Microsoft Corporation Obfuscating document stylometry
JP4979528B2 (ja) * 2007-09-28 2012-07-18 日本電信電話株式会社 コンテンツ表示装置、コンテンツ表示方法、プログラムおよび記録媒体
WO2011094128A2 (en) * 2010-01-27 2011-08-04 26-F, Llc Computerized system and method for assisting in resolution of litigation discovery in conjunction with the federal rules of practice and procedure and other jurisdictions
JP5286317B2 (ja) * 2010-03-26 2013-09-11 株式会社野村総合研究所 リスク情報提供システム及びプログラム
TWI427494B (zh) 2010-06-07 2014-02-21 Chao Chin Chang 雲端架構的專利文件檢索平台、處理方法及其檢索方法
JP4995950B2 (ja) * 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP5477910B2 (ja) * 2010-08-20 2014-04-23 Kddi株式会社 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法
KR101407060B1 (ko) * 2010-10-27 2014-06-13 한국전자통신연구원 인터넷을 통해 수집한 데이터의 분석과 증거화 방법 및 이를 이용한 데이터 분석과 증거화 시스템
US8375022B2 (en) * 2010-11-02 2013-02-12 Hewlett-Packard Development Company, L.P. Keyword determination based on a weight of meaningfulness
TWI457767B (zh) 2010-12-02 2014-10-21 Univ Nat Taiwan Science Tech 一種分辨垃圾郵件之方法
WO2012162405A1 (en) * 2011-05-24 2012-11-29 Namesforlife, Llc Semiotic indexing of digital resources
JP5669785B2 (ja) 2012-04-18 2015-02-18 株式会社Ubic フォレンジックシステム
US20130305149A1 (en) * 2012-05-10 2013-11-14 SEC Live, LLC Document reader and system for extraction of structural and semantic information from documents

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI550422B (zh) * 2015-04-08 2016-09-21 雲拓科技有限公司 申請專利範圍之文字歸位方法
US10515105B2 (en) 2016-05-27 2019-12-24 Integral Search Technology Ltd. Computer automatically implemented element-noun reference numeral acquiring method for acquiring element-noun reference numeral of claim-element-noun
US10535110B2 (en) 2016-12-05 2020-01-14 Integral Search Technology Ltd. Method and device for automatic computer translation of patent claims

Also Published As

Publication number Publication date
US20150293932A1 (en) 2015-10-15
US9690797B2 (en) 2017-06-27
JP2015018290A (ja) 2015-01-29
WO2014203573A1 (ja) 2014-12-24
JP5687312B2 (ja) 2015-03-18

Similar Documents

Publication Publication Date Title
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
US10311113B2 (en) System and method of sentiment data use
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
TW201500939A (zh) 數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式
US11651147B2 (en) Method and system for intelligently detecting and modifying unoriginal content
US20110202518A1 (en) Apparatus and Methods for Providing Assistance in Detecting Mistranslation
CN106663123B (zh) 以评论为中心的新闻阅读器
JP6705352B2 (ja) 言語処理装置、言語処理方法、及び言語処理プログラム
JP2011165092A (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
JP2021162917A (ja) 情報処理装置及び情報処理方法
JP2009266045A (ja) テスト仕様作成支援プログラム及びテスト仕様作成支援方法
JP2011154590A (ja) プログラムおよび情報処理装置
JP5853090B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP6114090B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP2009169761A (ja) 電子辞書システム、電子辞書の表示制御方法、コンピュータプログラムおよびデータ記憶媒体
KR100918489B1 (ko) 텍스트 비교 방법 및 텍스트 비교 시스템
JPWO2009041661A1 (ja) 情報処理装置、及びプログラム
JP2019215936A (ja) 自動翻訳装置及び自動翻訳プログラム
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP2020021455A (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
JP2005228033A (ja) 文書検索装置および方法
JP2011054006A (ja) 画像のキーワード決定システム
JP2009217367A (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
JP6598241B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP2006155529A (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム