TWI599894B - 資料文件的地域標記方法以及裝置 - Google Patents

資料文件的地域標記方法以及裝置 Download PDF

Info

Publication number
TWI599894B
TWI599894B TW102125769A TW102125769A TWI599894B TW I599894 B TWI599894 B TW I599894B TW 102125769 A TW102125769 A TW 102125769A TW 102125769 A TW102125769 A TW 102125769A TW I599894 B TWI599894 B TW I599894B
Authority
TW
Taiwan
Prior art keywords
keyword
node
tree structure
data file
unit
Prior art date
Application number
TW102125769A
Other languages
English (en)
Other versions
TW201502809A (zh
Inventor
張國峰
朱逸斐
Original Assignee
威盛電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 威盛電子股份有限公司 filed Critical 威盛電子股份有限公司
Publication of TW201502809A publication Critical patent/TW201502809A/zh
Application granted granted Critical
Publication of TWI599894B publication Critical patent/TWI599894B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

資料文件的地域標記方法以及裝置
本發明是有關於一種文件的分類技術,且特別是有關於一種資料文件的地域標記方法以及裝置。
藉由科技的發展,網路已成為現代人生活中不可或缺的資訊取得媒介,尤其是網路新聞的發展與普及,不僅可取代紙張來符合現今環保的潮流,更可因應瞬息萬變的時事而立即更新新聞訊息。
為了讓使用者能快速搜尋到所需的網路新聞,對網路新聞進行分類乃是十分重要的工作,特別是有關於網路新聞的地域性分類。其原因在於,使用者經常希望了解位於鄰近地點或是特定地點、特定城市的新聞。
然而,一般而言,門戶網站對於網路新聞的地域性分類乃是使用較概略性的作法,尤其是對於幅員廣大以及人口眾多的國家(如中國),其作法例如是僅採用大都市的網路新聞,而較少採 用小地方的網路新聞。此外,網路新聞業者通常是藉由編輯來人工進行網路新聞的地域性分類,此舉非常費時費力。另外,新聞內容本身乃具有複雜的資料訊息,因此藉由機器來對新聞進行地域性分類的自動化並非一件容易的事情。
本發明提供一種資料文件的地域標記方法以及裝置,其藉由特定階層式地域資料來對資料文件進行比對,藉以標記出資料文件的對應地域性特徵,從而減輕資料文件編輯者對.資料文件進行地域性分類的負擔,以及增進資料文件閱讀者在搜尋資料文件時的方便性。
本發明提供一種資料文件的地域標記方法,地域標記方法包括:獲得樹狀結構,樹狀結構具備多個節點,多個節點包括多個行政區名稱及標誌性名稱,多個行政區名稱及標誌性名稱之間具有階層關係;接收資料文件,並從資料文件擷取至少一關鍵字;比對至少一關鍵字與多個節點,以找出和至少一關鍵字匹配的第一節點;以及標記第一節點與第一節點相關的至少一父節點於資料文件。
本發明提供一種資料文件的地域標記裝置,包括分類單元、擷取單元、比對單元、標記單元及儲存資料庫。分類單元透過網路獲得樹狀結構,樹狀結構具備多個節點,多個節點包括多個行政區名稱及標誌性名稱,多個地域及標誌性名稱之間具有階 層關係。擷取單元透過網路接收資料文件,並從資料文件擷取至少一關鍵字。比對單元耦接於擷取單元,比對單元比對至少一關鍵字與多個節點,以找出和至少一關鍵字匹配的第一節點;標記單元耦接於比對單元。標記單元標記第一節點與第一節點相關的至少一父節點於資料文件。儲存資料庫耦接於分類單元、擷取單元、比對單元與標記單元,儲存資料庫用以儲存樹狀結構與資料文件。
基於上述,本發明的實施例藉由樹狀結構中包括有行政區名稱及標誌性名稱的多個節點來比對資料文件中所擷取出的關鍵字,從而標記所匹配的第一節點與相關的父節點於資料文件中,以使資料文件具有對應的地域性特徵。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
101‧‧‧電子裝置
103‧‧‧伺服器
200‧‧‧訊息通知裝置
210‧‧‧通訊單元
230‧‧‧儲存單元
250‧‧‧播放單元
270‧‧‧陀螺儀
290‧‧‧控制單元
S310~S330‧‧‧訊息通知方法的步驟
S401、S402、S410~S430‧‧‧訊息通知方法的步驟
S510~S550、S541~S542、S710~S740、S731~S733‧‧‧地標資料的顯示方法的步驟
900‧‧‧地域標記裝置
910‧‧‧分類單元
930‧‧‧擷取單元
950‧‧‧比對單元
970‧‧‧標記單元
990‧‧‧儲存資料庫
S1010~S1040‧‧‧地域標記方法的步驟
S1011~S1014、S1021~S1022、S1031~S1033及S1041~S1042‧‧‧地域標記方法的步驟
1301~1304‧‧‧第二節點
S1410~S1430、S1440、S1441、S1442及S1450‧‧‧資料文件的排序方法的步驟
圖1為根據本發明的多個實施例的電子裝置以及伺服器的方塊圖。
圖2為根據本發明的一實施例的訊息通知裝置的方塊圖。
圖3為根據本發明的一實施例的訊息通知方法的流程圖。
圖4為根據本發明的另一實施例的訊息通知方法的流程圖。
圖5是根據本發明的一實施例的地標資料的顯示方法的流程圖。
圖6是根據本發明之另一實施例的地標資料的顯示方法的流程圖。
圖7為根據本發明的另一實施例的地標資料的顯示方法的流程圖。
圖8為根據本發明的另一實施例的地標資料的顯示方法的流程圖。
圖9為根據本發明的一實施例的資料文件的地域標記裝置的方塊圖。
圖10為根據本發明的一實施例的資料文件的地域標記方法的流程圖。
圖11為根據本發明的一實施例的樹狀結構的示意圖。
圖12為根據本發明的另一實施例的資料文件的地域標記方法的流程圖。
圖13A~圖13D為根據本發明的一實施例的樹狀結構的建構過程的示意圖。
圖14為根據本發明的一實施例的資料文件的排序方法的流程圖。
圖15為根據本發明的一實施例的資料文件的排序方法的流程圖。
圖1為根據本發明的一實施例的電子裝置101以及伺服器103的方塊圖。伺服器103可以是個人電腦、工作站、主機電腦或是各種其他類型的電腦或處理器。電子裝置101可以是筆記型電腦、平板電腦、個人數位助理、智慧型手機或是各種其他類型的可攜式電子裝置。電子裝置101可透過網路來與伺服器103通訊。在本實施例的敘述中,將以訊息通知裝置200來代表電子裝置101的舉例。換句話說,電子裝置101與訊息通知裝置200可為實質上相等同並可互換的裝置。
當使用者欲對訊息通知裝置200設定所欲關注的資訊種類時,使用者可先藉由訊息通知裝置200來發出請求信息。例如,"如果有最新的日本核事故新聞,馬上告訴我"、"如果我的自選股中有股票漲跌超過2%,就馬上通知我"或者是"如果第三十六期彩卷開出來了馬上通知我"等。在本發明實施例中,使用者可藉由語音說話的方式來輸入請求信息至訊息通知裝置200。訊息通知裝置200可透過各種類型的自然語言處理模組來判別請求信息的可能意圖,或者是可更進一步藉由對儲存有大量字詞的結構化資料庫進行檢索以判別所擷取出的關鍵字詞的屬性,藉以對此請求信息進行分析與理解後,可得知對應的命令條件,並將此命令條件傳送至伺服器103。舉例來說,命令條件可以是"有最新的日本核事故新聞產生"、"特定股票漲幅超過2%"或者是"第三十六期彩卷開獎"。伺服器103即可根據此命令條件,來查詢是否具備對應的提 示訊息,例如,"最新的日本核事故新聞的內容"、"特定股票的股價"或者是"第三十六期彩卷的中獎號碼"。在本發明實施例中,可藉由訊息通知裝置200來對請求信息進行分析與理解。在本發明的另一實施例中,訊息通知裝置200亦可將請求信息傳送至伺服器103以藉由伺服器103中的各種類型的自然語言處理模組來判別請求信息的可能意圖。或者是,可更進一步藉由對儲存有大量字詞的結構化資料庫進行檢索以判別所擷取出的關鍵字詞的屬性,藉以對所擷取出的關鍵字詞進行分析及理解。伺服器103在查詢是否具備滿足命令條件的對應提示訊息之後,若判斷有具備滿足命令的相關條件時,訊息通知裝置200可接著將對應提示訊息下載並儲存,接者可將其播放出來。在本發明實施例的概念中,由於是藉由伺服器103來定期(或即時)記錄使用者所設定其欲關注的資訊種類的最新資訊,藉以在接收到命令條件時查詢對應的提示訊息,因此,相對於藉由訊息通知裝置200來定期(或即時)記錄使用者所設定其欲關注的資訊種類的最新資訊而言,本發明可進一步降低訊息通知裝置200的耗電量與工作量。
在本發明實施例中,伺服器103可查詢在特定時間間隔內滿足命令條件的對應提示訊息。此特定時間間隔可以是使用者設定的某一段時間間隔,也可以是在使用者離開訊息通知裝置200其間的時間間隔。舉例來說,使用者可因洗澡或忘了帶出門等因素,而將訊息通知裝置200留在桌上;在經過了特定時間間隔後,使用者又再度回到桌邊而拿起了訊息通知裝置200。此時,由於在 離開訊息通知裝置200其間可能有使用者所關注的資訊種類的最新消息發生,因此訊息通知裝置200可對應此特定時間間隔的起始時間與終止時間,來將其對應的提示訊息從伺服器103下載並儲存,並接著播放出來以提醒使用者。下列將對此進一步詳述。
圖2為根據本發明的一實施例的訊息通知裝置的方塊圖。如圖2所示,訊息通知裝置200包括通訊單元210、儲存單元230、播放單元250、陀螺儀270以及控制單元290。控制單元290耦接於通訊單元210、儲存單元230、播放單元250以及陀螺儀270。通訊單元210用以和伺服器103通訊,儲存單元230用以儲存資料,播放單元250用以播放訊息,陀螺儀270用以偵測訊息通知裝置200的角速度。通訊單元210可以是無線通訊晶片或模組,或是其他具有網路連線功能的晶片或模組。儲存單元230可以是各種類型的資料儲存媒介。播放單元250可以是各種類型的資料播放裝置,例如揚聲器、顯示器或是其他的資料輸出裝置。控制單元290可以是各種類型的功能模組、晶片或微處理器。圖3為根據本發明的一實施例的訊息通知方法的流程圖。如圖3所示,根據本發明實施例的訊息通知方法包括步驟S310~S330。請同時參照圖2及圖3。
在步驟S310中,控制單元290判斷是否具備訊息通知裝置200開始進入靜止狀態的第一時間點(即上述的起始時間)以及終止靜止狀態的第二時間點(即上述的終止時間)。舉例來說,使用者可因洗澡或忘了帶出門等因素,而將訊息通知裝置200留在桌 上,因而訊息通知裝置200在第一時間點進入了靜止狀態,此時,控制單元290可將第一時間點記錄於儲存單元230中。過了特定時間間隔後,使用者又再度回到桌邊而拿起了訊息通知裝置200,因而訊息通知裝置200在第二時間點終止了靜止狀態,此時,控制單元290亦可將第二時間點記錄於儲存單元230中。控制單元290可藉由查詢儲存單元230來判斷是否具備第一時間點與第二時間點。
在步驟S320中,若控制單元290判斷其具備第一時間點以及第二時間點,則伺服器103查詢是否具備第一時間點至第二時間點之間的至少一提示訊息。舉例來說,若控制單元290判斷其具備第一時間點以及第二時間點,此即代表使用者可能離開了訊息通知裝置200一段時間,此時控制單元290將所得知的第一時間點與第二時間點傳送至伺服器103做查詢,判斷在這段時間內是否有提示訊息產生。例如,若這段時間內使用者有未接來電或是有未讀訊息,則其提示訊息可以是"您有一通未接來電"或是"您有一則未讀訊息"。所述提示訊息還可以是使用者設定的關注資訊,比如,熱點新聞、股票或彩券等。
在步驟S330中,若伺服器103具備至少一提示訊息,則訊息通知裝置200下載此至少一提示訊息並儲存至儲存單元230,且透過播放單元250來播放此至少一提示訊息。舉例來說,若在使用者所離開的第一時間點以及第二時間點之間,使用者有未接來電或是有未讀訊息,或者是有產生了股票、彩券或熱點新 聞的關注資訊,則訊息通知裝置200可將提示訊息"您有一通未接來電"或是"您有一則未讀訊息",或者是對應所產生的股票、彩券或熱點新聞的具體資訊下載並儲存至儲存單元230,並透過播放單元250來播放。在本發明實施例中,播放單元250播放提示訊息的方式可以是播放文字或是播放影像,在此不加以限制。
圖4為根據本發明的另一實施例的訊息通知方法的流程圖。如圖4所示,根據本發明實施例的訊息通知方法包括步驟S401、S402、S410、S420及S430。請同時參照圖2及圖4。
在步驟S401中,使用者可藉由訊息通知裝置200接收請求信息。舉例來說,使用者的請求信息可以是"如果有最新的日本核事故新聞,馬上告訴我"、"如果我的自選股中有股票漲跌超過2%,就馬上通知我"或者是"如果第三十六期彩卷開出來了馬上通知我"。如上所述,在本發明實施例中,使用者可藉由語音說話的方式來輸入請求信息至訊息通知裝置200。在本發明的另一實施例中,使用者亦可藉由特定軟體介面或是其他各種方式來輸入請求信息,在此不加以限制。
在步驟S402中,擷取請求信息中的至少一關鍵字詞,以判別請求信息的命令條件以及設定臨界值。在本發明實施例中,可藉由控制單元290來擷取請求信息中的關鍵字詞以進行分析及理解。在本發明的另一實施例中,亦可將請求信息傳送到伺服器103,接著於伺服器103中擷取請求信息中的關鍵字詞以進行分析及理解。關鍵字詞可以是使用者的關注資訊的種類、用以表達命 令的字詞、或是其他可用以分析及理解的預定義字詞。在本發明實施例中,控制單元290可透過各種類型的自然語言處理模組來判別請求信息的可能意圖,或者是可更進一步藉由對儲存有大量字詞的結構化資料庫進行檢索以判別所擷取出的關鍵字詞的屬性,藉以對所擷取出的關鍵字詞進行分析及理解,以求得請求信息中的對應的命令條件,例如,是否有最新的日本核事故新聞產生,特定股票漲幅是否超過2%,或者是第三十六期彩卷是否開獎。此外,控制單元290亦可藉由關鍵字詞的分析及理解結果來求得臨界值以在步驟S410中使用。
在步驟S410中,控制單元290根據臨界值來判斷是否具備訊息通知裝置200進入靜止狀態後的第一時間點,以及終止靜止狀態的第二時間點。臨界值可以是時間臨界值或是角速度臨界值。在本發明實施例中,控制單元290可藉由陀螺儀270來偵測訊息通知裝置200的角速度,以判別訊息通知裝置200是否進入靜止狀態以及是否終止靜止狀態,從而取得第一時間點與第二時間點。舉例來說,當訊息通知裝置200的角速度小於角速度臨界值,則控制單元290可判定訊息通知裝置200進入靜止狀態,而當訊息通知裝置200的角速度小於角速度臨界值且其所持續的時間超過時間臨界值,則控制單元290可判定使用者已離開了訊息通知裝置200,從而將此時間點設定為第一時間點。若又再過了一段時間,當訊息通知裝置200的角速度大於或等於角速度臨界值時,則控制單元290可判定訊息通知裝置200終止了靜止狀態(即 進入了移動狀態),換句話說,控制單元290可判定使用者再度拿起了訊息通知裝置200,從而將此時間點設定為第二時間點。如上所述,第一時間點及第二時間點可記錄於儲存單元230中。在本發明實施例中,若訊息通知裝置200本身具有震動模式(例如,在有來電或有簡訊時,則訊息通知裝置200會進入震動模式),則角速度臨界值可大於訊息通知裝置200在震動模式下所造成的角速度,藉此,則控制單元290便不會將在震動模式下的訊息通知裝置200判定為進入了移動狀態。在本發明的另一實施例中,控制單元290可藉由偵測訊息通知裝置200是否進入休眠模式或者是藉由偵測訊息通知裝置200是否接收觸控輸入訊號,來判斷訊息通知裝置200是否進入或終止了靜止狀態。
在步驟S420中,若控制單元290判斷其具備第一時間點以及第二時間點,則伺服器103查詢其是否具備第一時間點至第二時間點之間滿足命令條件的至少一提示訊息。舉例來說,若在第一時間點與第二時間點之間的特定時間間隔內,發生了"最新的日本核事故新聞產生"、"特定股票漲幅超過2%"或者是"第三十六期彩卷開獎",則伺服器103可具備有提示訊息。在本發明實施例中,提示訊息可以是對應使用者所關注資訊種類的最新消息的內容本身,例如,"最新的日本核事故新聞的報導內容"、"特定股票的股價"或者是"第三十六期彩卷的中獎號碼"。在本發明的另一實施例中,提示訊息亦可以是用以提示使用者已產生有其所關注資訊種類的最新消息內容的訊息,例如,"提醒您,現有最新日本核 事故新聞"、"親愛的使用者,您的XXX股票已大漲"或者是"第三十六期彩卷已經開獎囉"。
在步驟S430中,若伺服器103具備至少一提示訊息,則訊息通知裝置200下載此至少一提示訊息並儲存至儲存單元230,且透過播放單元250來播放對應此至少一提示訊息的語音。舉例來說,若在使用者所離開的第一時間點以及第二時間點之間,控制單元290透過伺服器103來判斷其具備有提示訊息"最新的日本核事故新聞的報導內容"、"特定股票的股價"或者是"第三十六期彩卷的中獎號碼",則將此提示訊息下載並儲存至儲存單元230,並透過播放單元250來播放。在本發明實施例中,播放單元250可將提示訊息的內容以語音方式播放出來。
綜上所述,本發明可接收使用者以語音方式輸入的請求信息,並擷取其關鍵字詞以進行判別命令條件以及設定臨界值之用,在使用者離開訊息通知裝置其間,可根據此臨界值(時間臨界值或者角速度臨界值)來偵測訊息通知裝置開始進入靜止狀態的第一時間點以及終止靜止狀態的第二時間點,進而在使用者拿回訊息通知裝置時,可在伺服器中查詢滿足命令條件的提示訊息,並將提示訊息下載及儲存至訊息通知裝置,來藉由語音方式播放提示訊息以提醒使用者,從而減少其忽略重要訊息的機率。
下列將從另一個技術觀點以及實現此技術觀點的實施例,來描述電子裝置101以及伺服器103之間的運作。如圖1所示,在本發明的另一實施例中,電子裝置101以及伺服器103亦 可用於執行地標資料的顯示方法。
在本發明實施例中,當使用者藉由電子裝置101來執行特定地標的搜尋時,可輸入地名關鍵字,而電子裝置101便可將所輸入的地名關鍵字傳送至伺服器103中,伺服器103對此地名關鍵字執行搜尋,並接著對所搜尋到的地標資料進行排序,以使較有可能符合使用者的尋找需求的地標資料具有較高的排序順位。最後,伺服器再將地標資料的排序結果傳送回電子裝置101來顯示,使用者便得以從中找尋最有益的訊息。接著,在本發明實施例中,電子裝置101可透過地圖應用程式來將排序結果中的地標資料的各自的地標名稱顯示出來。在本發明的另一實施例中,電子裝置101本身即具有對特定地名的搜尋功能以及對所搜尋到的地標資料進行排序的功能,因此電子裝置101便無需再透過伺服器103即可對使用者顯示出地標資料的排序結果。
地標資料可具有特定的特徵化參數。舉例來說,不同的地標資料可具有不同的知名度。因此,在地標資料的排序的過程中便可產生對應的順位關係。因此,在本發明實施例中,在使用者藉由電子裝置101輸入地名關鍵字來執行特定地標的搜尋之前,伺服器103可對現有的地標資料進行知名度的計算。下列將對此加以詳述。
圖5是根據本發明的一實施例的地標資料的顯示方法的流程圖。表1是根據本發明的一實施例的地標資料的示意圖。如圖5所示,根據本發明實施例的地標資料的顯示方法的步驟包括 S510~S550。如表1所示,地標資料可具有地標名稱、客觀層級類別、地址、地指引用次數以及對應所計算出的知名度。下列請同時參照圖5及表1。
在步驟S510中,獲得多個地標資料。舉例來說,伺服器103可藉由資料庫或是搜尋引擎來獲取多個地標資料,在此不加以限制。所獲取的多個地標資料可儲存在特定的儲存媒介以做為地標資料庫。
在步驟S520中,統計多個地標資料各自的地址在網際網 路上的地址引用次數。舉例來說,伺服器103可藉由搜尋引擎來統計出"東方明珠"的地址"上海市浦東新區世紀大道1號"在網際網路上一共被引用了852318次。由於地標名稱的本身具有高度的隨意性,若並非使用地址引用次數做為對應的知名度的特徵化參數,反而是使用地標資料的地標名稱的引用次數的話,將有可能產生極大的誤差。舉例來說,在計算地址為"南京市玄武區北京東路31號工藝美術大樓9層"的商家"東方明珠"的知名度的特徵化參數時,若選擇使用地標名稱"東方明珠"的引用次數,則將因為景點"東方明珠"的存在而產生極大的誤差。反之,由於地標資料所對應的地址通常是唯一,因而在此步驟中以地址引用次數做為知名度的特徵化參數乃是相當客觀的標準。
在步驟S530中,搜尋多個地標資料各自的客觀層級類別。在本發明實施例中,客觀層級類別可以是公認景點評等(例如,1A級~5A級)或是公認店家評等(例如,一星級~六星級)。舉例來說,伺服器103搜尋出"上海野生動物園"為"3A級"的景點,"壺口瀑布"為"4A級"的景點,"壺口瀑布大酒店"為"三星級"的店家,以及"俏江南餐飲"為"二星級"的店家。在本發明實施例中,客觀層級類別也可以是階層區分屬性。舉例來說,"俏江南工業"以及"俏佳人傳媒"皆為"商家"的規模,而"北京華聯綜合超市"則是"商場"的規模;"217"道路是屬於"國道","373"是屬於"省道","048"是屬於"縣道"。上述的客觀層級類別可以有各種不同的其他客觀定義,在此不加以限制。
在步驟S540中,根據多個地標資料各自的客觀層級類別以及地址引用次數來計算多個地標資料各自的知名度。根據本發明實施例,地址引用次數越高,則伺服器103所計算出其對應的地標資料的知名度可越高。舉例來說,同樣為商家的"俏江南裝飾設計"與"俏江南工業"的地址引用次數分別為"293"與"531",因此"俏江南工業"所對應計算出的知名度可大於"俏江南裝飾設計"。根據本發明實施例,客觀層級類別的級別越高,則伺服器103所計算出其對應的地標資料的知名度可越高。舉例來說,地址同樣為"北京市西城區阜外大街1號四川大廈東塔樓5層515號"以及地址引用次數同樣為"5236"的"北京華聯綜合超市"與"麥當勞",由於"北京華聯綜合超市"是"商場",而"麥當勞"是此商場中的"商家",因此"北京華聯綜合超市"所對應計算出的知名度可大於"麥當勞"。同樣地,若為道路,則"217國道"的知名度可大於"373省道"以及"048縣道"。
在步驟S550中,根據多個地標資料各自知名度,來將多個地標資料顯示於電子裝置101。舉例來說,在伺服器103將地標資料以及對應的知名度計算完成後,可將結果傳送回電子裝置101,接著電子裝置101可再根據知名度的高低順序來顯示出地標資料。
根據本發明的另一實施例,步驟S510~S550可皆執行於電子裝置101中,或是步驟S510~S550中的部分步驟可執行於電子裝置101中,而其他部分步驟可執行於伺服器103中,其間兩 者可透過網際網路來達成彼此間的通訊及協調,在此不加以限制。
圖6是根據本發明的一實施例的地標資料的顯示方法的流程圖。如圖6所示,根據本發明實施例的地標資料的顯示方法的步驟包括S510~S530、S541、S542及S550。下列將針對與上述的差異來做說明。下列在計算地標資料的知名度時,可更進一步執行步驟S541及S542。
在步驟S541中,將多個地標資料各自的客觀層級類別以及地址引用次數轉換為對應的轉換值。舉例來說,在本發明之實施例中,若客觀層級類別是公認景點評等,則"1A級"、"2A級"、"3A級"、"4A級"及"5A級"對應的轉換值可以分別為20、40、60、80及100;若客觀層級類別是公認店家評等,則"一星級"、"二星級"、"三星級"、"四星級"、"五星級"及"六星級"對應的轉換值可以分別為20、40、60、80、100及120。若客觀層級類別是階層區分屬性,則"商家"及"商場"對應的轉換值可以分別為20及80;"國道"、"省道"及"縣道"對應的轉換值可以分別為30、60及90。在本發明之實施例中,地址引用次數轉換為對應的轉換值可藉由自然對數函數(ln x)×10來做運算。舉例來說,"4A級"景點"東方明珠"的地址引用次數為852318,則其對應的轉換值可以是(ln 852318)×10=136.56;若無地址資料,則其對應的轉換至可以是0。上述的對應值以及對應值的計算方式可依照各種情況來調整及變動,在此不加以限制。
在步驟S542中,根據客觀層級類別以及地址引用次數對 應的轉換值以及權重值,來計算地標資料的知名度。在本發明之實施例中,客觀層級類別對應的權重值可以是0.4,地址引用次數對應的權重值可以是0.6,而地標資料的知名度的計算公式可為:(客觀層級類別的轉換值)×0.4+(地址引用次數的轉換值)×0.6。舉例來說,"4A級"景點"東方明珠"的知名度為(80)×0.4+((ln 852318)×10)×0.6=113.94,"商家"規模的"俏江南工業"的知名度為(20)×0.4+((ln 531)×10)×0.6=45.66。
如上所述,當電子裝置101或是伺服器103內的地標資料庫建構完成之後,使用者即可執行特定地標的搜尋。下列將對此加以詳述。
圖7為根據本發明的一實施例的地標資料的顯示方法的流程圖。如圖7所示,根據本發明實施例的地標資料的顯示方法包括步驟S710~S740。
在步驟S710中,接收地名關鍵字。舉例來說,當使用者欲搜尋特定地標時,便可藉由電子裝置101以語音或手動方式來輸入地名關鍵字。
在步驟S720中,搜尋是否有對應地名關鍵字的至少一地標資料。舉例來說,此時電子裝置101可藉由內建的地標資料庫來搜尋是否有相關的地標資料,或者是將地名關鍵字傳送至伺服器103來搜尋是否有相關的地標資料。若有搜尋到,則接著執行步驟S730,若未搜尋到,則繼續等待接收另一地名關鍵字。
在步驟S730中,若有搜尋到至少一地標資料,則根據至 少一地標資料各自的知名度、匹配度以及距離分數,來排序至少一地標資料。舉例來說,當搜尋到相關地標資料時,由於相關地標資料數量可能非常的多,因此為了貼近使用者對於地標的一般感觀或是認知習慣,可藉由相關地標資料所對應的特徵化參數來做排序,以節省使用者查詢所花費的心力。在本發明實施例中,相關地標資料所對應的特徵化參數除了上述的知名度(相關於客觀層級類別以及在網際網路上所統計的地址引用次數),還可更進一步有相關地標資料的匹配度(例如,文字的匹配程度)以及距離分數(例如,地標與使用者的距離遠近程度)。然而,在本發明的另一實施例中,地標資料所對應的特徵化參數可以是知名度、匹配度及距離分數中的其中之一者,在此不加以限制。
在步驟S740中,將所排序的至少一地標資料顯示於電子裝置101。此時,使用者可藉由電子裝置101來在多個相關於所輸入的地名關鍵字的排序後的地標資料中,查詢最有益的地標資料。
圖8為根據本發明的另一實施例的地標資料的顯示方法的流程圖。如圖8所示,根據本發明實施例的地標資料的顯示方法包括步驟S710、S720、S731~S733及S740。下列將針對與上述的差異來做說明。下列在排序所搜尋出的對應地名關鍵字的地標資料時,可更進一步執行步驟S731~S733。
在步驟S731中,根據至少一地標資料各自的地標名稱以及地名關鍵字,來計算出至少一地標資料各自的匹配度。換句話說,即根據所搜尋出的地標資料對地名關鍵字的符合程度來計算 其匹配度。舉例來說,若使用者輸入的地名關鍵字為"俏江南",則"俏江南餐飲"、"俏江南裝飾設計"及"俏江南工業"的匹配度,皆可高於"俏佳人傳媒"的匹配度。
在步驟S732中,根據至少一地標資料各自的位置以及電子裝置101的位置,來計算出至少一地標資料各自的距離分數。換句話說,即根據所搜尋出的地標資料對電子裝置101的相對位置來計算其距離分數。舉例來說,若使用者位於北京市而對電子裝置101輸入地名關鍵字"俏江南",則位於北京市的"俏江南餐飲"及"俏江南裝飾設計"的距離分數,皆可高於位於蘇州市的"俏江南工業"的距離分數。
在步驟S733中,根據知名度、匹配度及距離分數以及其對應的權重值,來排序至少一地標資料。舉例來說,電子裝置101可根據不同的需求,來定義知名度、匹配度及距離分數所對應的權重值,藉以決定知名度、匹配度及距離分數分別對於排序結果的影響程度。
藉此,經特徵化後的地標資料可讓使用者在查詢特定地標時,其顯示的搜尋結果是依照使用者的一般感觀或是認知習慣來排序,從而節省使用者的查詢時間。
綜上所述,本發明根據多個地標資料的地址引用次數以及客觀層級類別所對應的轉換值與權重值來計算其知名度,在接收地名關鍵字之後,根據所搜尋出的相關地標資料對地名關鍵字的符合程度來計算其匹配度,根據所搜尋出的相關地標資料對電 子裝置的相對位置來計算其距離分數,並藉由知名度、匹配度以及距離分數來排序所搜尋到的相關地標資料,以將排序後的相關地標資料顯示於電子裝置。
下列將從另一個技術觀點,來描述電子裝置101以及伺服器103之間的運作。如圖1所示,在本發明的另一實施例中,電子裝置101以及伺服器103亦可用於執行資料文件的地域標記方法。此外,在本實施例的敘述中,將以地域標記裝置900來代表電子裝置101的舉例。換句話說,電子裝置101與地域標記裝置900可為實質上相等同並可互換的裝置。
使用者可藉由地域標記裝置900透過網路來與伺服器103通訊,藉以取得資料文件或是用以標記資料文件的參考資訊。在本發明實施例中,資料文件可以是網路新聞。舉例來說,首先,在網路新聞編輯者取得大量的網路新聞後,對網路新聞進行地域性的分類,接著可對網路新聞進行地域性的標記。在本發明實施例中,網路新聞編輯者可藉由地域標記裝置900來從伺服器103獲得地域性名稱的參考資訊以建構出特定樹狀結構,藉以做為分析網路新聞的內容屬性以及對其標記之用。在本發明的另一實施例中,網路新聞編輯者亦可藉由地域標記裝置900來直接從伺服器103獲得已建構完成的特定樹狀結構。此樹狀結構中的各節點即代表各特定地域性名稱,而透過此樹狀結構可得知各特定地域性名稱其上所有階層的行政區名稱。地域性名稱可包括行政區名稱以及標誌性名稱,而標誌性名稱所屬的節點可以是在樹狀結構 的最末階層,其中標誌性名稱可以是地名或景點名稱,或是任何具有地域性的人名、社會團體名稱或是其他名稱等,在此不加以限制。藉此,舉例來說,可以得知樹狀結構中任一景點或社會團體所屬的地區為何(即其各父節點)。接著,地域標記裝置900可分析各網路新聞是否具有地域性的內容(如地名的關鍵字),若此地域性內容可符合樹狀結構中的任一節點,則地域標記裝置900可藉由所符合的節點,來對其網路新聞進行標記。換句話說,網路新聞編輯者可藉由地域標記裝置900來使具有地域性內容的網路新聞具有對應的地域性特徵,以便完成對各網路新聞的標記或地域性分類,例如,某個網路新聞是屬於哪個地區的分類。下列將對此來進一步說明。
圖9為根據本發明的一實施例的資料文件的地域標記裝置的方塊圖。如圖9所示,地域標記裝置900包括分類單元910、擷取單元930、比對單元950、標記單元970以及儲存資料庫990。比對單元950耦接於擷取單元930,標記單元970耦接於比對單元950,儲存資料庫990耦接於分類單元910、擷取單元930、比對單元950與標記單元970。分類單元910、擷取單元930、比對單元950、標記單元970可以是各種形式的功能模組或微處理器,儲存資料庫990可以是各種形式的儲存媒介。圖10為根據本發明的一實施例的資料文件的地域標記方法的流程圖。如圖10所示,根據本發明實施例的地域標記方法包括步驟S1010~S1040。圖11為根據本發明的一實施例的樹狀結構的示意圖。下列請同時參照 圖9、圖10及圖11。
在步驟S1010中,分類單元910可透過網路獲得樹狀結構。在本發明實施例中,此樹狀結構可具備多個節點,此多個節點可包括多個行政區名稱及標誌性名稱,並且此多個行政區名稱及標誌性名稱之間可具有階層關係,此外,分類單元910可將所獲得的樹狀結構儲存於儲存資料庫990中。舉例來說,如圖11所示,此樹狀結構的各節點可包括中國各階層的行政區名稱以及其內的景點名稱,而樹狀結構的上下節點之間可對應其行政區或景點之間的階層關係,例如,在節點"中國"底下可包括其各省或直轄市(如上海、江蘇省以及安徽省等)的子節點,在節點"上海"底下可包括其各分區(如浦東新區、黃埔區以及靜安區等)的子節點,在節點"浦東新區"底下可包括其各景點(如世紀公園、東方明珠以及金茂大廈等)的子節點。此外,如上所述,標誌性名稱可是具有地域性的人名以及社會團體名稱,如圖11所示,節點"上海"可更進一步包括其職籃球隊"上海大鯊魚"的子節點以及其市長"楊雄"的子節點。
在步驟S1020中,擷取單元930可透過網路接收資料文件,並從資料文件擷取至少一關鍵字。舉例來說,擷取單元930可透過網路以從伺服器103接收大量的網路新聞並儲存至儲存資料庫990,而所接收的網路新聞的內容中可包括各種地域性的關鍵字,例如"江蘇省"或"東方明珠"等,擷取單元930便可分析其內容以將此關鍵字擷取出來。
在步驟S1030中,比對單元950可比對至少一關鍵字與多個節點,以找出和至少一關鍵字匹配的第一節點。舉例來說,在上述的樹狀結構中已包括有已知的中國各階層的行政區名稱以及其內的地名或景點名稱,若從網路新聞的內容中擷取出關鍵字"東方明珠",則接著可對樹狀結構進行搜尋,並找到了同為"東方明珠"的第一節點。此即代表此關鍵字"東方明珠"所屬的網路新聞對於此樹狀結構而言,是具有地域性的特徵且為可分類的。在本發明實施例中,比對單元950可藉由各種樹狀結構的演算法來找到符合的第一節點,在此不加以限制。
在步驟S1040中,標記單元970可標記第一節點與第一節點相關的至少一父節點於資料文件。舉例來說,若可從樹狀結構中,搜尋到符合網路新聞中的關鍵字"東方明珠"的第一節點,則其相關的父節點為"浦東新區"、"上海"及"中國"。因此,關鍵字"東方明珠"所屬的網路新聞除了可標記有第一節點"東方明珠"外,亦可標記有"東方明珠"之上的各階層的行政區,也就是第一節點"東方明珠"之上的各父節點"浦東新區"、"上海"及"中國"。
圖12為根據本發明的另一實施例的資料文件的地域標記方法的流程圖。如圖12所示,根據本發明實施例的地域標記方法包括步驟S1011~S1014、S1021~S1022、S1031~S1033及S1041~S1042。圖13A~圖13D為根據本發明的一實施例的樹狀結構的建構過程的示意圖。
在步驟S1011中,分類單元910取得地域性名稱。舉例 來說,分類單元910可透過網路從伺服器103獲得有關中國的各階層行政區以及其內的景點的參考資訊,此參考資訊可以是以各種分類單元910可辨識的格式來呈現,在此不加以限制。分類單元910可根據此參考資訊來逐一取得各地域性名稱,如圖13A所示,當樹狀結構中具有節點"中國"時,分類單元910取得了行政區名稱"上海"。
在步驟S1012中,分類單元910判斷地域性名稱是否從屬於樹狀結構中的第二節點。若分類單元910判斷為是,則可接著執行步驟S1013。第二節點可以是所取得的地域性名稱在樹狀結構中最小階層的所屬地區的節點。舉例來說,如圖13A所示,當樹狀結構中已具有節點"中國"時,分類單元910取得了行政區名稱"上海",此時分類單元910可判斷行政區名稱"上海"所從屬的第二節點可以是圖13A中的虛線節點1301。
在步驟S1013中,分類單元910將地域性名稱加入樹狀結構。舉例來說,如圖13A所示,接著分類單元910便可在樹狀結構中建構出節點"上海"來對應所取得的行政區名稱。
在步驟S1014中,分類單元910判斷樹狀結構是否建構完成。若樹狀結構建構完成,則執行步驟S1021。若樹狀結構未建構完成,則上述步驟S1011~步驟S1013可以不斷的循環執行。舉例來說,在圖13B中分類單元910可判斷出行政區名稱"浦東新區"所屬的第二節點為虛線節點1302並將其加入,在圖13C中分類單元910可判斷出景點名稱"世紀公園"所屬的第二節點為虛線節 點1303並將其加入,在圖13D中分類單元910可判斷出景點名稱"東方明珠"所屬的第二節點為虛線節點1304並將其加入,上述過程將不斷地重複,直到分類單元910將所獲得的有關中國的各階層行政區以及其內的景點的資訊,逐一地建構成樹狀結構中的各節點,如圖11所示。上述樹狀結構的建構過程可藉由各種樹狀結構的相關演算法來達成,在此不加以限制。如上所述,如圖11所示,當樹狀結構建構完成之後,樹狀結構的各節點即包括有中國各階層的行政區名稱以及其內的景點名稱,而樹狀結構的上下節點之間可對應其行政區或景點之間的階層關係。
在步驟S1021中,擷取單元930由資料文件的標題或正文擷取至少一關鍵字。舉例來說,由於網路新聞的內容可包括標題的內容以及正文的內容,因此擷取單元930可從標題的內容以及正文的內容來擷取關鍵字,藉以做為判別其網路新聞的地域性特徵的依據。
在步驟S1022中,擷取單元930由資料文件的來源擷取至少一關鍵字。在本發明實施例中,資料文件的來源可包括資料文件相關的發生地點和資料文件提供者的所在地點。舉例來說,由於網路新聞的標題及正文的內容可不包括有任何的地域性的關鍵字,因此擷取單元930可進一步從網路新聞的相關的發生地點來擷取出關鍵字,例如,若網路新聞是發布於特定門戶網站的"黃埔區地方新聞"的欄位中,則擷取單元930可藉以擷取出關鍵字"黃埔區",或者是,擷取單元930可進一步從網路新聞提供者的所 在地點來擷取出關鍵字,例如,若網路新聞是由報社"上海日報"所發布,則擷取單元930可藉以擷取出關鍵字"上海",或者是,若網路新聞是由報社"新民晚報"所發布,而報社"新民晚報"的所在地在上海,因此擷取單元930仍可藉由查表或是根據相關資訊,來取得關鍵字"上海"。
在步驟S1031中,比對單元950分別對至少一關鍵字定義對應的權重。此權重可代表其對應關鍵字對於所屬的資料文件的地域性特徵的影響程度。換句話說,關鍵字所對應的權重越高,則比對單元950以此關鍵字來做為判別所屬資料文件的地域性特徵的可能性就越高。舉例來說,如上所述,網路新聞所對應的關鍵字可以從網路新聞的正文、標題或是根據其相關的發生地點及其提供者的所在地點而取得,而不同出處所取得的關鍵字可對應不同的權重,例如,若根據網路新聞的發生地點所擷取出的關鍵字的權重為A,從網路新聞的標題所擷取出的關鍵字的權重為B,從網路新聞的正文所擷取出的關鍵字的權重為C,根據網路新聞的提供者的所在地點所擷取的關鍵字的權重為D,則其相對關係可以是A>B>C>D。然而,上述權重的相對關係可以有其他的安排及變動,在此不加以限制。
在步驟S1032中,比對單元950搜尋樹狀結構,以比對樹狀結構中是否存在有第一節點,且其第一節點所包括的行政區名稱或標誌性名稱和至少一關鍵字的其中之一相同。若比對單元950判斷樹狀結構中存在有第一節點,則接著執行步驟S1033。如 在步驟S1031中所述,由於所計算出的權重可代表其對應關鍵字對於所屬的資料文件的地域性特徵的影響程度,因而在本發明實施例中,比對單元950可更進一步根據關鍵字相對應的權重來做為比對關鍵字與節點的順位參考。舉例來說,如上所述,同一網路新聞可同時具有根據網路新聞的發生地點所擷取出的關鍵字以及從網路新聞的正文所擷取出的關鍵字,此時,由於根據網路新聞的發生地點所擷取出的關鍵字的權重可大於從網路新聞的正文所擷取出的關鍵字的權重,因此,比對單元950將優先使用根據網路新聞的發生地點所擷取出的關鍵字,藉以搜尋樹狀結構。接者,比對單元950可藉由樹狀結構的搜尋演算法來找到的第一節點,且此第一節點所包括的行政區名稱或標誌性名稱和所優先使用來搜尋的關鍵字相同。在本發明實施例中,上述樹狀結構的搜尋演算法可以藉由各種應用來達成,在此不加以限制。
在步驟S1033中,比對單元950找出樹狀結構中與第一節點相關的至少一父節點。藉由樹狀結構本身所具有的階層特性,比對單元950可從第一節點的各上階層來找其各父節點。舉例來說,如圖11所示,若第一節點為"東方明珠",則其相關的父節點為"浦東新區"、"上海"及"中國"。
在步驟S1041中,標記單元970根據第一節點與第一節點相關的至少一父節點,建立對應的多個標籤。舉例來說,當比對單元950找到了包括有關鍵字"東方明珠"的網路新聞的第一節點,則標記單元970除了可將"東方明珠"設定為此網路新聞的多個 標籤的其中之一外,可更一步將"浦東新區"、"上海"及"中國"也設定為此網路新聞的標籤。建立標籤的方式可以是記錄其對應第一節點與相關父節點的名稱,或者是擷取出其對應第一節點與相關父節點的連結,在此不加以限制。
在步驟S1042中,標記單元970連結多個標籤與資料文件以完成標記並儲存資料文件於儲存資料庫990。舉例來說,當包括有關鍵字"東方明珠"的網路新聞的各標籤"東方明珠"、"浦東新區"、"上海"及"中國"皆建立完成後,標記單元970則將這些標籤連結至對應的網路新聞。連結標籤的方式可以是在網路新聞中增加其對應第一節點與相關父節點的名稱的內容,或者是在網路新聞中附加其對應第一節點與相關父節點的連結,在此不加以限制。
綜上所述,本發明藉由逐一加入對應地域性名稱的第二節點來建構出具有多個節點的樹狀結構,以使多個節點所包括的行政區名稱及標誌性名稱之間具有階層關係,並且根據資料文件的標題內容、正文內容、相關發生地點以及資料文件提供者的所在地點,來獲得地域性的關鍵字,並在定義各關鍵字所對應的權重以做為比對關鍵字與樹狀結構的順位參考之後,找出所匹配的第一節點與其父節點來標記於對應的資料文件,以使資料文件具有對應的地域性特徵。
下列將從另一個技術觀點,來描述電子裝置101以及伺服器103之間的運作。如圖1所示,在本發明的另一實施例中,電子裝置101以及伺服器103亦可用於執行資料文件的排序方法。
在本發明實施例中,當電子裝置101中具有未知目前排名的資料文件時,可將未知目前排名的資料文件上傳至伺服器103來對其做內容的分析,接著藉由排序演算法來產生出未知目前排名的資料文件的預測排名並排序,最後再將其結果傳送回電子裝置101中。在本發明實施例中,若未知目前排名的資料文件的預測排名在100名之前,則此資料文件為重要,若未知目前排名的資料文件的預測排名在100名之後,則此資料文件為不重要。在本發明實施例中,在伺服器103接收未知目前排名的資料文件之前,伺服器103可藉由多個已知目前排名的資料文件來產生排序演算法。在本發明的另一實施例中,電子裝置101本身可藉由多個已知目前排名的資料文件來產生排序演算法,因此,電子裝置101不需要透過伺服器103便可得到未知目前排名的資料文件的預測排名。下列將詳述產生排序演算法以及產生資料文件的預測排名的細節。
圖14為根據本發明的一實施例的資料文件的排序方法的流程圖。如圖14所示,根據本發明實施例的資料文件的排序方法的步驟包括S1410~S1450。表2為根據本發明實施例的已知目前排名的資料文件的示意圖。表3為根據本發明實施例的未知目前排名的資料文件的示意圖。在本發明實施例中,資料文件可以是新聞文件。如表2及表3所示,資料文件的內容可包括標題內容以及正文內容。下列請同時參照圖14、表2及表3。
[表2]
在步驟S1410中,從多個資料文件的內容中擷取多個關鍵詞。舉例來說,可在資料文件1~4的內容中擷取出各自的關鍵詞。例如,在資料文件1的標題內容中可擷取出關鍵詞"兩會",以及在,在資料文件1的正文內容中可擷取出關鍵詞"人大"、"政協"、"習近平"、"胡錦濤"及"兩岸"。
在步驟S1420中,透過搜尋引擎檢索多個關鍵詞所對應的關鍵詞排名。舉例來說,透過搜尋引擎在資料文件1的關鍵詞"兩會"、"人大"、"政協"、"習近平"、"胡錦濤"及"兩岸"所對應的關鍵詞排名可分別為"152"、"96"、"135"、"33"、"47"及"95"。在本發明實施例中,關鍵詞排名可以是藉由google搜尋引擎所查詢出的當日、當週或當月的關鍵詞排名,在此不加以限制。
在步驟S1430中,搜尋多個關鍵詞所對應的關鍵詞類別。舉例來說,資料文件1的關鍵詞"兩會"、"人大"、"政協"、"習近平"、"胡錦濤"及"兩岸"所對應搜尋到的關鍵詞類別可分別為"政治 會議"、"政治會議"、"政治會議"、"政治人物"、"政治人物"及"國際關係"。在本發明實施例中,可透過百科資料庫(例如,維基百科)或是其他具有分類機制的資料庫來搜尋其對應的關鍵詞類別,在此不加以限制。
在步驟S1440中,依據多個關鍵詞、多個關鍵詞各自的關鍵詞排名與關鍵詞類別以及多個資料文件各自的目前排名,以產生排序演算法。舉例來說,藉由表2中的資料文件1~4各自所具有的關鍵詞、其關鍵詞的關鍵詞排名與關鍵詞類別以及資料文件1~4的目前排名(25、38、67及184),來產生能用以預測另一資料文件的預測排名的排序演算法。在本發明實施例中,可將多個關鍵詞、多個關鍵詞各自的關鍵詞排名與關鍵詞類別設定為排序演算法的輸入,並將多個資料文件各自的目前排名設定為排序演算法的輸出,以產生排序演算法。由於與資料文件所具有的關鍵詞的關鍵詞排名與資料文件本身的目前排名具有相關性,因此在具有足夠數量的資料文件的情況下,即可存在有排序演算法來對應其關係。此外,關鍵詞類別可對應其關鍵詞的權重值,換句話說,可藉由關鍵詞的關鍵詞類別,來決定出關鍵詞對於資料文件的目前排名的影響程度。在本發明實施例中,當產生排序演算法時,可預先定義出關鍵詞類別的類別權重參數以及關鍵詞排名的排名權重參數,並在大量測試結果中,從中調整及改變類別權重參數及排名權重參數,直到排序演算法的輸入值及輸出值的結果在準確度容許範圍內為止。在本發明的另一實施例中,當產生 排序演算法時,可藉由曲線擬合方法來推求通過或近似通過有限序列的資料點(例如,排序演算法的輸入值及輸出值)的模擬函數(例如,解析函數),而曲線擬合方法可以是最小二乘法,在此不加以限制。
在步驟S1450中,藉由排序演算法用來計算另一資料文件的預測排名。舉例來說,由於資料文件5的目前排名為未知,當藉由上述的資料文件1~4求得排序演算法後,可接著擷取出資料文件5的關鍵詞以及查詢文件5的關鍵詞的關鍵詞排名與關鍵詞類型並輸入此排序演算法,即可計算出資料文件5的預測排名為360,並可藉此排序資料文件5。
如上所述,在本發明實施例中,電子裝置101可將未知目前排名的資料文件5傳送至伺服器103,藉由伺服器103執行步驟S1410~S1440來產生排序演算法以及執行步驟S1450來產生資料文件5的預測排名以對其排序,最後再將其結果傳送回電子裝置101中。而在本發明的另一實施例中,步驟S1410~S1450皆可執行於電子裝置101中,在此不加以限制。
圖15為根據本發明的一實施例的資料文件的排序方法的流程圖。如圖3所示,根據本發明實施例的資料文件的排序方法的步驟包括S1410~S1430、S1441、S1442及S1450。下列將針對與上述的差異來做說明。在本發明實施例中,可更進一步執行步驟S1441、S1442來產生排序演算法。
在步驟S1441中,將多個關鍵詞各自的關鍵詞類別轉換 為多個關鍵詞類別轉換值。舉例來說,可藉由查表或是特定公式計算的方式,來將資料文件1的關鍵詞類別"政治會議"、"政治人物"及"國際關係"轉換為關鍵詞類別轉換值10、20及30,將資料文件2的關鍵詞類別"智慧型手機"、"科技公司"、"科技人物"及"國家"轉換為關鍵詞類別轉換值40、50、60及70,將資料文件3的關鍵詞類別"節目"及"歌手"轉換為關鍵詞類別轉換值80及90,將資料文件4的關鍵詞類別"球隊"、"球員"及"城市"轉換為關鍵詞類別轉換值100、110及120。上述所舉的關鍵詞類別轉換值乃是做為說明的用途,在此不加以限制。
在步驟S1442中,將多個關鍵詞各自的關鍵詞排名以及關鍵詞類別轉換值設定為模擬函數的定義域,將多個資料文件的目前排名設定為模擬函數的值域,藉以產生用以執行排序演算法的模擬函數。舉例來說,若關鍵詞排名對應的變數為x0、x1、x2、x3、x4及x5,關鍵詞類別對應的變數為y0、y1、y2、y3、y4及y5,以及模擬函數為f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5),則對照表1中的資料文件,對於模擬函數f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5)而言,x0定義域分別包括152、21、17及139,x1定義域分別包括96、57、53及87,x2定義域分別包括135、42、66及106,x3定義域分別包括33、108、0及127,x4定義域分別包括47、317、0及0,x5定義域分別包括95、96、0及0,y0定義域分別包括10、40、80及100,y1定義域分別包括10、50、90及110,y2定義域分別包括10、60、90及120,y3定義域分別包括20、60、0及120, y4定義域分別包括20、70、0及0,y5定義域分別包括30、50、0及0,模擬函數f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5)的值域分別包括25、38、67及184,接著可藉由大量的測試結果來產生模擬函數f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5),或是可藉由曲線擬合方法來推求模擬函數f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5)。在本發明實施例中,模擬函數可以是線性函數以及非線性函數的其中之一。
在步驟S1450中,藉由排序演算法用來計算另一資料文件的預測排名。舉例來說,如上所述,產生出用以執行排序演算法的模擬函數之後,即可藉以計算出資料文件5的預測排名。例如,先擷取出資料文件5的關鍵詞的關鍵詞排名分別為262、396、137及192(其分別對應x0、x1、x2及x3,而x4=x5=0),再搜尋資料文件5的關鍵詞的關鍵詞類別分別為"科技人物"、"創投公司"、"科技公司"及"科技公司",且其關鍵詞類別對應值分別可為60、130、50及50(其分別對應y0、y1、y2及y3,而y4=y5=0),將其輸入上述所求得的模擬函數f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5)之後,即可求得資料文件5的預測排名為f(262,396,137,192,0,0,60,130,50,50,0,0)=360,並可藉此排序資料文件5。
如上所述,在本發明實施例中,電子裝置101可將未知目前排名的資料文件5傳送至伺服器103,藉由伺服器103執行步驟S1410~S1430、S1441及S1442來產生排序演算法以及執行步驟S1450來產生資料文件5的預測排名以對其排序,最後再將其 結果傳送回電子裝置101中。而在本發明的另一實施例中,步驟S1410~S1430、S1441~S1442及S1450皆可執行於電子裝置101中,在此不加以限制。
綜上所述,本發明藉由擷取多個資料文件中的關鍵詞,並將關鍵詞、所檢索出的關鍵詞排名以及所搜尋出的關鍵詞類別所對應的轉換值設定為模擬函數的定義域,將多個資料文件的已知目前排名設定為模擬函數的值域之後,接著可藉由定義的類別權重參數以及排名權重參數來在大量測試結果中產生模擬函數,或是可藉由曲線擬合方法來推求模擬函數,最後再利用模擬函數執行排序演算法來計算另一資料文件的預測排名,以排序另一資料文件。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S1010~S1040‧‧‧地域標記方法的步驟

Claims (10)

  1. 一種資料文件的地域標記方法,該地域標記方法包括:獲得一樹狀結構,該樹狀結構具備多個節點,該些節點包括多個行政區名稱及標誌性名稱,該些行政區名稱及標誌性名稱之間具有階層關係;接收資料文件,並從該資料文件擷取至少一關鍵字;比對該至少一關鍵字與該些節點,以找出和該至少一關鍵字匹配的一第一節點;以及標記該第一節點與該第一節點相關的至少一父節點於該資料文件,其中獲得該樹狀結構包括下列步驟:取得一地域性名稱;判斷該地域性名稱是否從屬於該樹狀結構中的一第二節點;以及將該地域性名稱當作該第二節點的其一加入該樹狀結構,並且標記加入的該第二節點之上各階層的該至少一父結點,其中,該地域性名稱包括行政區名稱及標誌性名稱,其中從該資料文件擷取該至少一關鍵字更包括:由該資料文件的一標題或一正文擷取該至少一關鍵字;以及由該資料文件的一來源擷取該至少一關鍵字,其中,該資料文件的該來源包括該資料文件相關的一發生地點和一資料文件提供者所在地點。
  2. 如申請專利範圍第1項所述的地域標記方法,其中比對該至少一關鍵字與該些節點,以找出和該至少一關鍵字匹配的該第一節點更包括:分別對該至少一關鍵字定義對應的一權重。
  3. 如申請專利範圍第2項所述的地域標記方法,其中比對該至少一關鍵字與該些節點,以找出和該至少一關鍵字匹配的該第一節點更包括:根據該至少一關鍵字相對應的該權重作為比對該至少一關鍵字與該些節點的順位參考。
  4. 如申請專利範圍第1項所述的地域標記方法,其中比對該至少一關鍵字與該些節點,以找出和該至少一關鍵字匹配的該第一節點更包括:搜尋該樹狀結構以比對該樹狀結構中是否存在該第一節點,該第一節點所包括的該行政區名稱或該標誌性名稱和該至少一關鍵字的其中之一相同;以及找出該樹狀結構中與該第一節點相關的該至少一父節點。
  5. 如申請專利範圍第1項所述的地域標記方法,其中標記該第一節點與該第一節點相關的該至少一父節點於該資料文件更包括:根據該第一節點與該第一節點相關的該至少一父節點,建立對應的多個標籤;以及連結該些標籤與該資料文件以完成標記並儲存該資料文件於 一儲存資料庫。
  6. 一種資料文件的地域標記裝置,包括:一分類單元,透過一網路獲得一樹狀結構,該樹狀結構具備多個節點,該些節點包括多個行政區名稱及標誌性名稱,該些地域及標誌性名稱之間具有階層關係;一擷取單元,透過該網路接收該資料文件,並從該資料文件擷取至少一關鍵字;一比對單元,耦接於該擷取單元,比對該至少一關鍵字與該些節點,以找出和該至少一關鍵字匹配的一第一節點;一標記單元,耦接於該比對單元,標記該第一節點與該第一節點相關的該至少一父節點於該資料文件;以及一儲存資料庫,耦接於該分類單元、該擷取單元、該比對單元與該標記單元,用以儲存該樹狀結構與該資料文件,其中該分類單元獲得該樹狀結構包括下列步驟:取得一地域性名稱;判斷該地域性名稱是否從屬於該樹狀結構中的一第二節點;以及將該地域性名稱當作該第二節點的其一加入該樹狀結構,其中,並且標記加入的該第二節點之上各階層的該至少一父結點,該地域性名稱包括行政區名稱以及標誌性名稱,其中該擷取單元從該資料文件擷取該至少一關鍵字更包括:由該資料文件的一標題或一正文擷取該至少一關鍵字;以及 由該資料文件的一來源擷取該至少一關鍵字,其中該資料文件的該來源包括該資料文件相關的一發生地點和一資料文件提供者所在地點。
  7. 如申請專利範圍第6項所述的地域標記裝置,其中該比對單元分別對該至少一關鍵字定義對應的一權重。
  8. 如申請專利範圍第7項所述的地域標記裝置,其中該比對單元根據該至少一關鍵字相對應的該權重作為比對該至少一關鍵字與該些節點的順位參考。
  9. 如申請專利範圍第6項所述的地域標記裝置,其中該比對單元更執行:搜尋該樹狀結構以比對該樹狀結構中是否存在該第一節點,該第一節點所包括的該行政區名稱或該標誌性名稱和該至少一關鍵字的其中之一相同;以及找出該樹狀結構中與該第一節點相關的該至少一父節點。
  10. 如申請專利範圍第6項所述的地域標記裝置,其中該標記單元更執行:根據該第一節點與該第一節點相關的該至少一父節點,建立對應的多個標籤;以及連結該些標籤與該資料文件以完成標記並儲存該資料文件於該儲存資料庫。
TW102125769A 2013-07-02 2013-07-18 資料文件的地域標記方法以及裝置 TWI599894B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310273265.4A CN104281578B (zh) 2013-07-02 2013-07-02 数据文件的地域标记方法以及装置

Publications (2)

Publication Number Publication Date
TW201502809A TW201502809A (zh) 2015-01-16
TWI599894B true TWI599894B (zh) 2017-09-21

Family

ID=52133538

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102125769A TWI599894B (zh) 2013-07-02 2013-07-18 資料文件的地域標記方法以及裝置

Country Status (3)

Country Link
US (2) US20150012543A1 (zh)
CN (1) CN104281578B (zh)
TW (1) TWI599894B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275086A1 (en) * 2015-03-17 2016-09-22 NewsByMe, LLC News publishing system and method
CN106610998A (zh) * 2015-10-26 2017-05-03 烽火通信科技股份有限公司 一种新型的网页数据基于地区噪音过滤方法
CN106886512B (zh) * 2015-12-15 2020-11-17 腾讯科技(深圳)有限公司 文章分类方法和装置
CN106021336A (zh) * 2016-05-09 2016-10-12 厦门四方中信科技有限公司 一种对批量地址信息进行自动行政区划划分的方法
CN112399943B (zh) * 2018-06-12 2022-12-30 西门子交通有限公司 用于记录与轨道车辆相关的信息的方法和设备
CN113076389A (zh) * 2021-03-16 2021-07-06 百度在线网络技术(北京)有限公司 文章地域识别方法、装置、电子设备及可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100538695C (zh) * 2004-07-22 2009-09-09 国际商业机器公司 构造、维护个性化分类树的方法及系统
US20140053053A1 (en) * 2005-03-31 2014-02-20 Google Inc. Methods and systems for real-time extraction of user-specified information
US7933897B2 (en) * 2005-10-12 2011-04-26 Google Inc. Entity display priority in a distributed geographic information system
US7814112B2 (en) * 2006-06-09 2010-10-12 Ebay Inc. Determining relevancy and desirability of terms
US8041730B1 (en) * 2006-10-24 2011-10-18 Google Inc. Using geographic data to identify correlated geographic synonyms
US7792846B1 (en) * 2007-07-27 2010-09-07 Sonicwall, Inc. Training procedure for N-gram-based statistical content classification
US8209338B2 (en) * 2009-01-08 2012-06-26 David Robert Wallace Interest-group discovery system
US9390136B2 (en) * 2009-02-12 2016-07-12 1020, Inc. System and method of identifying relevance of electronic content to location or place
CN101996215B (zh) * 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
US8285716B1 (en) * 2009-12-21 2012-10-09 Google Inc. Identifying and ranking digital resources relating to places
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN102999490A (zh) * 2011-09-08 2013-03-27 北京无限讯奇信息技术有限公司 商户文档权重评价方法
US8620917B2 (en) * 2011-12-22 2013-12-31 Telefonaktiebolaget L M Ericsson (Publ) Symantic framework for dynamically creating a program guide
US20130218864A1 (en) * 2012-02-18 2013-08-22 Harrison Gregory Hong Real Estate Search Engine
US20140344259A1 (en) * 2013-05-15 2014-11-20 Google Inc. Answering people-related questions

Also Published As

Publication number Publication date
US11093529B2 (en) 2021-08-17
US20180225305A1 (en) 2018-08-09
US20150012543A1 (en) 2015-01-08
TW201502809A (zh) 2015-01-16
CN104281578A (zh) 2015-01-14
CN104281578B (zh) 2017-11-03

Similar Documents

Publication Publication Date Title
TWI599894B (zh) 資料文件的地域標記方法以及裝置
WO2018072071A1 (zh) 知识图谱构建系统及方法
JP2015524962A (ja) 各マイクロブログがスパースな情報だけを含む多数のマイクロブログから情報に富んだ内容を自動生成するためのシステム及び方法
CN110059177B (zh) 一种基于用户画像的活动推荐方法及装置
KR20130090612A (ko) 소셜 네트워크 서비스의 키워드 분석을 통한 위치기반 콘텐츠 제공 방법 및 시스템
US10769196B2 (en) Method and apparatus for displaying electronic photo, and mobile device
CN110019645A (zh) 索引库构建方法、搜索方法及装置
JP5725619B2 (ja) 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法
Chua et al. Next: Nus-tsinghua center for extreme search of user-generated content
TWI610257B (zh) 資料文件的排序方法及地標資料排序後進行顯示的方法
CN103886020A (zh) 一种房地产信息快速搜索方法
Song et al. Detecting dynamic association among Twitter topics
Van Canneyt et al. Detecting places of interest using social media
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
JP2012256176A (ja) 情報提示装置
CN101836209A (zh) 管理信息地图的系统和方法
TWI532358B (zh) 訊息通知方法以及裝置
US10083241B2 (en) Sorting method of data documents and display method for sorting landmark data
TWI633508B (zh) 地標資料的顯示方法
Shen et al. Predicting named entity location using Twitter
JP2014010513A (ja) イベント位置に地理的な特徴物の識別名称をタグ付けする装置、プログラム及び方法
CN108846103A (zh) 一种数据查询方法及装置
CN103455568B (zh) 通过搜索引擎获取通信联系人的方法及终端
Cano et al. Topica: A tool for visualising emerging semantics of pois based on social awareness streams
Montanelli et al. Multi-Web, event-centric urban information integration