TWI471738B

TWI471738B - Method and system for determining core geographic information in file files

Info

Publication number: TWI471738B
Application number: TW98115859A
Authority: TW
Original assignee: Alibaba Group Holding Ltd
Priority date: 2009-05-13
Filing date: 2009-05-13
Publication date: 2015-02-01
Also published as: TW201040753A

Description

確定文件檔中核心地理資訊的方法及系統

本發明涉及資料處理技術領域，特別涉及一種確定文件檔中核心地理資訊的方法及系統。

網際網路提供的按照關鍵字搜索等類似服務中，例如一些聚合類新聞、資訊的內容提供中，可以實現按照地理資訊提供文件檔內容。

上述網際網路提供的服務中，在將文件檔按照地理資訊分類的階段，現有技術僅僅是擷取出文件檔中出現的地理資訊。而同一文件檔中，可能出現多個不同的地理資訊。這時，如果僅是擷取地理資訊，則文件檔中可能擷取出若干不同的地理資訊。而一般地，同一文件檔資料中，描述的內容應當具有一個中心地理資訊。例如，在談到四川地震新聞的文件檔資料中，會擷取得到四川這一地理資訊，但是，同時該新聞中還可能談到其他省、市對四川的援助，則按照現有技術的方式，還會擷取得到例如廣東、北京這些地理資訊。這樣，按照擷取出的地理資訊，則可能將這一類的文件檔內容作為發生在北京或廣東境內的新聞(或資訊)來提供。顯然地，在所有擷取到的不同地理資訊中，應當存在一個核心地理資訊，例如上面的例子中四川應當是核心地理資訊，而不是其他地理資訊。

在對現有技術的研究和實踐過程中，發明人發現現有技術中存在以下問題：由於現有技術僅僅是擷取出文件檔中出現的地理資訊，則對於同一篇文件檔中出現的多個地理資訊，會擷取出多個地理資訊，而並不能區分這些地理資訊中適於當前文件檔內容的真正核心地理資訊。這樣會導致基於地理資訊擷取的服務，例如搜索，聚合類新聞、資訊的內容提供等，出現不準確的結果。

本發明實施例的目的是提供一種確定文件檔中核心地理資訊的方法及系統，以實現確定文件檔內容中準確的核心地理資訊。

為解決上述技術問題，本發明實施例提供一種確定文件檔中核心地理資訊的方法、系統是這樣實現的：一種確定文件檔中核心地理資訊的方法，包括：按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；根據預設的地理資料庫，計算所述各地理名詞隸屬的級別相同的行政區劃的分值；所述地理資料庫中儲存有地理名稱以及所有地理名稱間的隸屬關係；將分值最高的所述行政區劃下分值最高的地理資訊確定為所述文件檔的核心地理資訊。

較佳地，所述方法中，所述按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，包括：將文件檔各地理資訊的分值確定為該地理資訊出現頻率數與按照出現位置對應權重之和。

較佳地，所述方法中，所述按照出現位置對應權重包括：在標題中出現時權重為3，在正文第一段出現時權重為2，在正文其他部分中出現時權重為1。

較佳地，所述方法中，所述按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，還包括：對於連續出現的地理名詞，將其中每一個地理名詞對應分值增加一個預設值。

較佳地，所述方法中，所述按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，還包括：如果文件檔中的地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，則將所述地理名詞的該次出現忽略。

一種確定文件檔中核心地理資訊的方法，包括：按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；將分值最大的地理名詞確定為所述文件檔的核心地理資訊。

較佳地，所述方法中，所述按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，還包括：對於這些連續的地理名詞，將其中每一個地理名詞對應分值增加一個預設值。

一種確定文件檔中核心地理資訊的系統，包括：第一分值計算單元，用於按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；第二分值計算單元，用於根據預設的地理資料庫，計算所述各地理名詞隸屬的級別相同的行政區劃的分值；所述地理資料庫中儲存有地理名稱以及所有地理名稱間的隸屬關係；確定單元，用於將分值最高的所述行政區劃下分值最高的地理資訊確定為所述文件檔的核心地理資訊。

較佳地，所述系統中，所述第一分值計算單元包括：詞頻計算單元，用於計算地理資訊的出現頻率；位置權重計算單元，用於計算所述地理資訊按照出現位置對應的權重；求和單元，用於將所述地理資訊的出現頻率與按照位置對應權重之和確定為該地理資訊的分值。

較佳地，所述系統中，所述第一分值計算單元還包括：分值增加單元，對於連續出現的地理名詞，用於將其中每一個地理名詞對應分值增加一個預設值。

較佳地，所述系統中，所述第一分值計算單元還包括：濾除單元，用於在詞頻計算單元計算地理資訊的出現頻率過程中，如果地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，將所述地理名詞的該次出現忽略。

一種確定文件檔中核心地理資訊的系統，包括：分值計算單元，用於按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；確定單元，用於將分值最大的地理名詞確定為所述文件檔的核心地理資訊。

較佳地，所述系統中，所述分值計算單元包括：詞頻計算單元，用於計算地理資訊的出現頻率；位置權重計算單元，用於計算所述地理資訊按照出現位置對應的權重；求和單元，用於將所述地理資訊的出現頻率與按照位置對應權重之和確定為該地理資訊的分值。

較佳地，所述系統中，所述分值計算單元還包括：分值增加單元，對於連續出現的地理名詞，用於將其中每一個地理名詞對應分值增加一個預設值。

較佳地，所述系統中，所述分值計算單元還包括：濾除單元，用於在詞頻計算單元計算地理資訊的出現頻率過程中，如果地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，將所述地理名詞的該次出現忽略。

由以上本發明實施例提供的技術方案可見，按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，根據預設的地理資料庫計算所述各地理名詞隸屬的級別相同的行政區劃的分值，將分值最高的所述行政區劃下分值最高的地理資訊確定為所述文件檔的核心地理資訊，對出現在更可能為核心地理資訊位置的地理資訊進行了加強，並從隸屬的行政區劃上考慮和比較分值，從而可以更準確的確定文件檔內容中的核心地理資訊。

本發明實施例提供一種確定文件檔中核心地理資訊的方法及系統。

為了使本技術領域的人員更好地理解本發明方案，下面結合附圖和實施方式對本發明實施例作進一步的詳細說明。下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。

圖1示出了本發明確定文件檔中核心地理資訊的方法的一個實施例的流程圖，如圖1所示，該實施例包括：S101：按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值。

按照文件檔中各個地理名詞出現的頻率和預定義的位置權重計算各地理名詞的分值，這裏給出以下方式：將文件檔中某個地理資訊的分值確定為出現頻率數與按照出現位置對應權重之和。用公式可以表示如下：

分值=頻率＋位置權重

具體的，位置權重可以預定義為：在標題中出現時權重為3，在正文第一段出現時權重為2，在正文其他部分中出現時權重為1。

出現的標題中的權重預定為3，比出現在正文部分的權重高，是由於文件檔標題中出現的地理資訊成為該文件檔核心地理資訊的可能性較其他地理資訊的可能性大。

出現在正文第一段和正文中其他部分的權重不同，出現在正文第一段時權重為2，出現在正文其他部分時權重為1，這是由於，一般文件檔中，特別是新聞時事等類別的文件檔中，正文第一段往往是對該文件檔中談及的整個事件做一個概述，因此這裏涉及的地理資訊相對于在正文其他部分才出現的地理資訊，成為該文件檔核心地理資訊的可能性較大。

舉一具體例子加以說明，如一篇文件檔中出現茂縣這一地理資訊，且茂縣這一地理資訊在標題中出現1次，在正文第一段中出現3次，在正文其他部分出現7次，則按照上述規則，茂縣這一地理資訊的分值為：(1＋3＋7)＋(3＋2＋1)=17。

文件檔中出現的其他地理資訊，具體的分值計算可以按照上述過程類推，在此不再類似。

當然，將地理資訊出現的頻率和位置權重設置為其他合理的值顯然也可以實現。本發明實施例在這裏的重點是綜合考慮大量新聞、資訊等文件檔中地理資訊的出現特點後，按照地理資訊的出現頻率和位置預定分值賦予方式，從而得到一個分值，從而同一文件檔中出現不同的地理資訊按照相同的規則，如果具有不同的分值，則可以在後續步驟中根據分值確定哪一個地理資訊是該文件檔的核心地理資訊。

另外，應當注意到的是，文件檔中還經常出現連續地理名詞組合的情況。以網頁http://www.z9.cn/news/Z9/20080529/11573474856.html中的新聞為例，其中談到關於廈門市湖裏區的新聞，並且廈門市、湖裏區這兩個地理名詞連續出現“……廈門市湖裏區的兩家投注站…”，並且，事實上，該文件檔的核心地理資訊就是“廈門市湖裏區”。還有很多例子，都可以說明，對於連續出現的地理名詞，其成為核心地理資訊的可能性較大，因此，出現的連續地理名詞組合應當較高的權重，以使其更有可能在本本實施例中成為最終的核心地理資訊。

因此，這裏可以做如下處理：對於這些連續的地理名詞，將其中每一個地理名詞對應分值增加一個預設值。

例如對於上述網頁中的文件檔，各地理名詞的分值分別是：

廈門市：7

湖裏區：2

而還出現廈門市湖裏區這樣連續的地理名詞，則可以將廈門市、湖裏區的分值增加一個預定值，這裏例如預定值為1，則廈門這一地理名詞的最終分值為7+1=8，湖裏區這一地理名詞的最終分值為2+1=3。

此外，文件檔中還可能包含新聞機構的名稱，而這些機構名稱中還常包括一些地理名詞，這時，這樣的地理名詞實際上並不大可能是該文件檔內容中談及事件的核心地理資訊，因此，需要將新聞機構中的地理名詞濾除，且該操作可以在S101之前或之後進行。例如，北京日報、廣州日報等，其中包含的北京、廣州屬於新聞機構名稱的一部分，不應當被參與到前述分值的計算當中。

具體的，可以預設一個新聞機構名稱表，該新聞機構名稱表中包括新聞機構名稱，例如新華社，日報，新聞網等，稱為新聞機構名稱表。如果文件檔中的地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，則將該地理名詞的這一次出現忽略。例如，網頁中的文件檔內出現“新華社北京電”，儘管“北京”為地理名詞，但是由於其前面緊鄰的文字“新華社”為新聞機構名稱表中的辭彙，因此，“新華社北京電”中的“北京”將不被計為正常地理名詞出現的頻率，而是被忽略。

需要說明的是，上述地理名詞還可以包括任何表示地理資訊的詞，例如高校名稱、興趣點資料(Point Of Interest，POI)名稱、企業名稱、特產名稱、社區名稱、景點名稱等，因為這些詞也都可以代表地理資訊。例如高校，清華大學可以代表北京市海澱區五道口地區這一地理資訊；例如興趣點資料，毛家飯店藍堡店可以代表北京市西大望路藍堡國際中心這一地理資訊；例如企業名稱，淘寶網可以代表浙江省杭州市文二路391號這一地理資訊；例如特產名稱，西湖龍井可以代表浙江省杭州市西湖區這一地理資訊；例如景點名稱，頤和園可以代表北京市海澱區這一地理資訊；例如社區名稱，陽光100可以代表北京市朝陽區西大望路這一地理資訊；等等。

S102：根據預設的地理資料庫計算所述各地理名詞隸屬的級別相同的行政區劃的分值。

這裏首先介紹所述地理資料庫。

該地理資料庫中儲存有地理名稱。例如省級行政區類的省、直轄市、自治區、特別行政區，地區級行政區類的地區市、地區、自治州、盟名稱等，縣級行政區類的市轄區、縣級市、縣、自治縣、旗、自治旗、特區、林區名稱等，鄉級行政區類的鎮、鄉、街道、蘇木名稱等，村級行政區類的社區、居委會、村名稱等。

該地理資料庫中，除了具備前述預設的全部地理名稱，還有所有地理名稱之間的隸屬關係。例如，該地理資料庫中包括四川這一省級區劃，四川之下包括所有市級的行政區劃，每個市下面包括縣級的行政區劃，每個縣下面包括區給的行政區劃，依次類推，並且其他省級行政區劃也類似。當然，所述地理資料庫中還可以包括國家級別的地理資訊，並且，不同國家之下包括各自的州、省等行政區劃，在此不再贅述。

圖2示出了預設的地理資料庫的結構圖。上述地理資料庫中的地理名稱與行政區劃的隸屬關係可以如圖2中組織。

這樣，按照預設的地理資料庫，可以得到出現的地理資訊隸屬的或包括的行政區劃的地理名稱。例如，朝陽區隸屬於北京市，而朝陽區下包括建國門外大街、大望路等地理資訊。

S102中，即是根據預設的地理資料庫，計算所述各地理名詞隸屬的級別相同的行政區劃的分值。

以下通過一例子說明S102的一種實現方式。

例如S101中，得到一篇文件檔中承德的分值為7，秦皇島的分值為3，北京的分值為9，香港島的分值為3。而事實上承德為該文件檔中的核心地理資訊。

該情況下，根據預設的地理資料庫可知，承德和秦皇島都隸屬于河北這一行政區劃，則可以將承德的分值7與秦皇島的分值3之和作為河北的分值，即為10。北京隸屬於北京市，香港島屬於香港，北京市與香港、河北的級別相同，都屬於是省級行政區劃。北京市的分值這裏可以為北京的分值，即為9；香港的分值這裏可以與香港島的分值相同，即為3。

這樣，S102中，得到了各地理名詞隸屬的級別相同的行政區劃的分值。根據級別相同的行政區劃的分值，通過後續步驟，可以確定文件檔中的核心地理資訊。

S103：將分值最高的所述行政區劃下分值最高的地理資訊確定為所述文件檔的核心地理資訊。

仍然如S102中的例子，一篇文件檔中承德的分值為7，秦皇島的分值為3，北京的分值為9，香港島的分值為3。根據S102，承德和秦皇島隸屬的河北的分值為10，北京市的分值為9；香港的分值為3。如圖3所示的該例子的行政區劃圖，按照S103，分值最高的行政區劃為河北，分值為10，則將河北下的分值最高的承德(分之為7)作為該文件檔的核心地理資訊。

這樣，在該文件檔中，儘管北京的分值(9)較承德(7)、秦皇島(3)高，但是，按照上述步驟，最終將河北下的承德確定為該文件檔的核心地理資訊，得到正確結果。

以下例舉一個具體實施例加以說明。

對於URL為http://news.sohu.com/20080529/n257144994.shtml的網頁，該網頁中的文件檔內容介紹了全國各地對四川地震災情的援助情況，談到了很多地方，如濟南市、綿陽市、游仙區、汶川、北京市、西城區、河南、湖北、棗陽、清鎮、劍河、河北省、營山縣、永德、盤龍、全州、浙江、三門、甌海、富平、景縣、臥龍、映秀、綿陽市游仙區，但是核心地域是四川省綿陽市。

按照S101中，分值=頻率＋位置權重，且位置權重可以預定義為在標題中出現時權重為3，在正文第一段出現時權重為2，在正文其他部分中出現時權重為1，則得到各個地理名詞的分值分別是：

濟南市：5

綿陽市：9

游仙區：5

汶川：8

北京市：2

西城區：2

河南：2

湖北：3

棗陽：2

清鎮：2

劍河：2

河北省：4

營山縣：2

永德：2

盤龍：2

全州：2

浙江：2

三門：2

甌海：2

富平：2

景縣：2

臥龍：9

映秀：5

需要說明的是，上述地理資訊中的汶川，由於不僅在正文中出現3次，還在標題中出現1次，因此汶川的分值是：(3+1)+(1+3)=8，汶川得到了加強，其他的類似。

另外，上述地理名詞中，在文件檔中存在連續的“綿陽市游仙區”，按照前述S101，上述分值計算中，對綿陽市、游仙區這兩個地理名詞的分值分別增加了1(設預設值為1)。類似的，所述文件檔中頁存在“北京市西城區”、“湖北棗陽”、“浙江三門”這樣的連續地理名詞，對於每一地理名詞，也都為相應分值增加了預設值。

按照S102，根據預設的地理資料庫計算所述各地理名詞隸屬的級別相同的行政區劃的分值，則四川省有映秀，汶川，游仙區，綿陽市，劍河，盤龍，營山縣，這些地理資訊的分值總和為34，浙江省出現了三門，甌海，分值總和為7，北京分值總和為4。

按照S103，四川的分值為四川、浙江和北京這三個同一級別行政區劃中最高。在四川省內，各個地理名詞的分值依次是：

映秀：5

汶川：8

游仙區：6

綿陽市：9

劍河：2

盤龍：2

營山縣：2

可見，綿陽市的分值為四川下的最高，因此，最終得到該文件檔的核心地理資訊為“四川省-綿陽市”。

由上述實施例可見，按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，根據預設的地理資料庫計算所述各地理名詞隸屬的級別相同的行政區劃的分值，將分值最高的所述行政區劃下分值最高的地理資訊確定為所述文件檔的核心地理資訊，對出現在更可能為核心地理資訊位置的地理資訊進行了加強，並從隸屬的行政區劃上考慮和比較分值，從而可以更準確的確定文件檔內容中的核心地理資訊。

圖4示出了本發明確定文件檔中核心地理資訊的方法的另一實施例的流程圖，如圖4所示，該實施例包括：S401：按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值。

該步驟與前述S101類似，在此不再贅述。

另外，與前面類似的，連續出現的地理名詞，其成為核心地理資訊的可能性較大。因此，出現的連續地理名詞組合應當較高的權重，以使其更有可能在本實施例中成為最終的核心地理資訊。

具體的，可以預設一個新聞機構名稱表，該新聞機構名稱表中包括新聞機構名稱，例如新華社，日報，新聞網等，稱為新聞機構名稱表。如果文件檔中的地理名詞的前後緊鄰的文字中存在新聞機構名稱表中的辭彙，則將該地理名詞的這一次出現忽略。例如，網頁中的文件檔內出現“新華社北京電”，儘管“北京”為地理名詞，但是由於其前面緊鄰的文字“新華社”為新聞機構名稱表中的辭彙，因此，“新華社北京電”中的“北京”將不被計為正常地理名詞出現的頻率，而是被忽略。

S402：將分值最大的地理名詞確定為所述文件檔的核心地理資訊。

該實施例與前述實施例不同，這裏並不根據預設的地理資料庫計算各地理名詞隸屬的級別相同的行政區劃的分值，而是直接比較S401中各地理名詞計算得到分分值。這是因為，對於一些文件檔，其內容中出現的地理名詞按照S401計算分值後，不同地理名詞的分值存在較明顯的差別，因此可以直接比較得出核心地理資訊，而不必再根據地理資料庫計算。

以下舉一具體例子加以說明。

URL為http://china.zjol.com.cn/05china/system/2008/05/28/009565074.shtml的網頁，該網頁中的文件檔內容出現了茂縣、汶川、土門、岷江這幾個地理名詞，按照S401，可以得到各地理名詞的分值如下：

茂縣：17

汶川：4

土門：2

岷江：2

而且，這幾個地理名詞都在四川省內，則按照S402，最大分值的地理名詞確定核心地理資訊，結果為茂縣，其完整的地理資訊為“中國.四川省.阿壩藏族羌族自治州.茂縣”。

以下介紹本發明確定文件檔中核心地理資訊的第一系統實施例，圖5示出了該系統實施例的框圖，如圖5所示，該系統實施例包括：第一分值計算單元51，用於按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；第二分值計算單元52，用於根據預設的地理資料庫，計算所述各地理名詞隸屬的級別相同的行政區劃的分值；所述地理資料庫中儲存有地理名稱以及所有地理名稱間的隸屬關係；確定單元53，用於將分值最高的所述行政區劃下分值最高的地理資訊確定為所述文件檔的核心地理資訊。

較佳地，所述系統可以進一步如圖6所示，其中，所述第一分值計算單元51可以包括：詞頻計算單元61，用於計算地理資訊的出現頻率；位置權重計算單元62，用於計算所述地理資訊按照出現位置對應的權重；求和單元63，用於將所述地理資訊的出現頻率與按照位置對應權重之和確定為該地理資訊的分值。

較佳地，所述第一分值計算單元還可以包括：分值增加單元64，對於連續出現的地理名詞，用於將其中每一個地理名詞對應分值增加一個預設值。

較佳地，所述第一分值計算單元還可以包括：濾除單元65，用於在詞頻計算單元計算地理資訊的出現頻率過程中，如果地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，將所述地理名詞的該次出現忽略。

以下介紹本發明確定文件檔中核心地理資訊的第二系統實施例，圖7示出了該系統實施例的框圖，如圖7所示，該系統實施例包括：分值計算單元71，用於按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；確定單元72，用於將分值最大的地理名詞確定為所述文件檔的核心地理資訊。

較佳地，所述系統可以進一步如圖8所示，其中，所述第一分值計算單元71可以包括：詞頻計算單元81，用於計算地理資訊的出現頻率；位置權重計算單元82，用於計算所述地理資訊按照出現位置對應的權重；求和單元83，用於將所述地理資訊的出現頻率與按照位置對應權重之和確定為該地理資訊的分值。

較佳地，所述分值計算單元還可以包括：分值增加單元84，對於連續出現的地理名詞，用於將其中每一個地理名詞對應分值增加一個預設值。

較佳地，所述分值計算單元還可以包括：濾除單元85，用於在詞頻計算單元計算地理資訊的出現頻率過程中，如果地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，將所述地理名詞的該次出現忽略。

雖然通過上述實施例描繪了本發明，本領域普通技術人員知道，本發明有許多變形和變化而不脫離本發明的精神，希望所附的申請專利範圍包括這些變形和變化而不脫離本發明的精神。

通過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本發明可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解，本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品可以儲存在儲存介質中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)執行本發明各個實施例或者實施例的某些部分所述的方法。

此外，文件檔中還可能包含新聞機構的名稱，而這些機構名稱中還常包括一些地理名詞，這時，這樣的地理名詞實際上並不大可能是該文件檔內容中談及事件的核心地理資訊，因此，需要將新聞機構中的地理名詞濾除，且該操作可以在S401之前或之後進行。例如，北京日報、廣州日報等，其中包含的北京、廣州屬於新聞機構名稱的一部分，不應當被參與到前述分值的計算當中。

51．．．第一分值計算單元

52．．．第二分值計算單元

53．．．確定單元

61．．．詞頻計算單元

62．．．位置權重計算單元

63．．．求和單元

64．．．分值增加單元

65．．．詞頻計算單元

71．．．分值計算單元

72．．．確定單元

81．．．詞頻計算單元

82．．．位置權重計算單元

83．．．求和單元

84．．．分值增加單元

85．．．詞頻計算單元

為了更清楚地說明本發明實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。

圖1為本發明第一方法實施例的流程圖；

圖2為本發明預設的地理資料庫的組織結構示意圖；

圖3為本發明第一方法實施例中一具體例子的分值情況圖；

圖4為本發明第二方法實施例的流程圖；

圖5為本發明第一系統實施例的框圖；

圖6為本發明第一系統實施例的另一框圖

圖7為本發明第二系統實施例的框圖；

圖8為本發明第二系統實施例的另一框圖。

Claims

一種確定文件檔中核心地理資訊的方法，其特徵在於，包括：按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；根據預設的地理資料庫，計算該各地理名詞隸屬的級別相同的行政區劃的分值；該地理資料庫中儲存有地理名稱以及所有地理名稱間的隸屬關係；將分值最高的所述行政區劃下分值最高的地理資訊確定為該文件檔的核心地理資訊；其中，該按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，還包括：如果文件檔中的地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，則將該地理名詞的該次出現忽略。
如申請專利範圍第1項所述的方法，其中，該按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，包括：將文件檔各地理資訊的分值確定為該地理資訊出現頻率數與按照出現位置對應權重之和。
如申請專利範圍第2項所述的方法，其中，該按照出現位置對應權重包括：在標題中出現時權重為3，在正文第一段出現時權重為2，在正文其他部分中出現時權重為1。
如申請專利範圍第1項所述的方法，其中，該按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，還包括：對於連續出現的地理名詞，將其中每一個地理名詞對應分值增加一個預設值。
一種確定文件檔中核心地理資訊的方法，其特徵在於，包括：按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；將分值最大的地理名詞確定為該文件檔的核心地理資訊；其中，該按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，還包括：如果文件檔中的地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，則將該地理名詞的該次出現忽略。
如申請專利範圍第5項所述的方法，其中，該按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，包括：將文件檔各地理資訊的分值確定為該地理資訊出現頻率數與按照出現位置對應權重之和。
如申請專利範圍第6項所述的方法，其中，該按照出現位置對應權重包括：在標題中出現時權重為3，在正文第一段出現時權重為2，在正文其他部分中出現時權重為1。
如申請專利範圍第5項所述的方法，其中，該按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值，還包括：對於這些連續的地理名詞，將其中每一個地理名詞對應分值增加一個預設值。
一種確定文件檔中核心地理資訊的系統，其特徵在於，包括：第一分值計算單元，用於按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；第二分值計算單元，用於根據預設的地理資料庫，計算該各地理名詞隸屬的級別相同的行政區劃的分值；該地理資料庫中儲存有地理名稱以及所有地理名稱間的隸屬關係；確定單元，用於將分值最高的該行政區劃下分值最高的地理資訊確定為該文件檔的核心地理資訊；其中，該第一分值計算單元還包括：濾除單元，用於在詞頻計算單元計算地理資訊的出現頻率過程中，如果地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，將該地理名詞的該次出現忽略。
如申請專利範圍第9項所述的系統，其中，該第一分值計算單元包括：詞頻計算單元，用於計算地理資訊的出現頻率；位置權重計算單元，用於計算該地理資訊按照出現位置對應的權重；求和單元，用於將該地理資訊的出現頻率與按照位置對應權重之和確定為該地理資訊的分值。
如申請專利範圍第10項所述的系統，其中，該第一分值計算單元還包括：分值增加單元，對於連續出現的地理名詞，用於將其中每一個地理名詞對應分值增加一個預設值。
一種確定文件檔中核心地理資訊的系統，其特徵在於，包括：分值計算單元，用於按照文件檔中各地理名詞出現的頻率，並根據預定義的位置權重計算各地理名詞的分值；確定單元，用於將分值最大的地理名詞確定為該文件檔的核心地理資訊；其中，該分值計算單元還包括：濾除單元，用於在詞頻計算單元計算地理資訊的出現頻率過程中，如果地理名詞的前後緊鄰的文字中存在預設的新聞機構名稱表中的辭彙，將該地理名詞的該次出現忽略。
如申請專利範圍第12項所述的系統，其中，該分值計算單元包括：詞頻計算單元，用於計算地理資訊的出現頻率；位置權重計算單元，用於計算該地理資訊按照出現位置對應的權重；求和單元，用於將該地理資訊的出現頻率與按照位置對應權重之和確定為該地理資訊的分值。
如申請專利範圍第12項所述的系統，其中，該分值計算單元還包括：分值增加單元，對於連續出現的地理名詞，用於將其中每一個地理名詞對應分值增加一個預設值。