TWI252987B - Information analyzing method and system and recording medium - Google Patents

Information analyzing method and system and recording medium Download PDF

Info

Publication number
TWI252987B
TWI252987B TW091132513A TW91132513A TWI252987B TW I252987 B TWI252987 B TW I252987B TW 091132513 A TW091132513 A TW 091132513A TW 91132513 A TW91132513 A TW 91132513A TW I252987 B TWI252987 B TW I252987B
Authority
TW
Taiwan
Prior art keywords
information
search
content
opinion
dictionary
Prior art date
Application number
TW091132513A
Other languages
English (en)
Other versions
TW200300532A (en
Inventor
Kanji Uchino
Yuki Kume
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of TW200300532A publication Critical patent/TW200300532A/zh
Application granted granted Critical
Publication of TWI252987B publication Critical patent/TWI252987B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

1252987 玫發明 δ兌明: . 【發明所屬^技術領域】 技術領域 本發明係有關於一種可從大量資訊之中自動抽出指定 之資訊的技術。 背景技術 以前就已可利用文書檢索工具從公開於網際網路之資 訊中自動抽出對企業的中傷誹謗。然而,其係採用指定關 鍵字之後再檢視網(Web )頁並抽出的方法,或事前先指 1〇定檢索對象之URL(-致資源定址器;網址)再抽出的方 法。即,無法判斷所收集到之資訊是好評價之資訊或壞評 價之資訊。又,也無法獲得關於所收集到之資訊之影響力 的資訊。因此,不適合用在找尋意圖操作股價之「散佈流 言」。 15 又,美國專利第6438632號中揭示有一電子佈告攔系 統,其係具有可自動檢查從使用者電腦傳送來之希望刊登 於電子佈告欄之訊息内容的機能者。即,對照登錄有事前 選出之不適合刊登於電子佈告攔之用語的刊登禁止用語集 ,對於從使用者電腦傳送來之希望刊登於電子佈告攔之訊 2〇息進行仏查。當希望刊登之訊息中並未包含有刊登禁止用 語集中的用語時,可將該訊息登錄於電子佈告攔。另一方 面,當包含有刊登禁止用語集中的用語時,則對使用者電 月岛通知無法刊登说息之主旨。又’此時亦通知經營管理人 電腦拒絕訊息刊登之現象。此種技術雖可判斷可否刊登於 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 1252987 發明說明,續頁 玖、發明說明(1 ) 佈告攔’但無法就已判斷是可刊登者之内容^ C 明内容】 發明揭示 a id者冑可利用習知技術從龐大之資訊中抽出業經具體 指定之資訊,但無法自動抽出應注意之資訊,且業經抽出之資訊 的解釋和分析也須經人手。因此使用者在沒有進—步作業下是無 法獲得業經抽出之資訊的特性和資訊來源等。 , 口此本么明之目的係提供一種用以從大量資訊中,自動抽 出應庄思資訊的新穎技術。 10 15 本U之丨目的係提供_種用以從大量資訊中,抽出 指定之資訊,且可提供業經抽出之資訊之特性的技術。 更進-步’本發明之另_目的係提供一種用以從大量資訊中 ,抽出指定之資訊,且可提供紫缺 ^ 、 ,、業、、、二抽出之貢訊之可靠度和影響度 的技術。 更進-步,本發明之另一目的係提供一種用以從大量"中 ’抽出指定之資訊,且可探索業經抽出之資訊之來源的技術。 本發明之内容資訊分析方法包含有抽出步驟,係從已收华到 之内容資訊中抽出個人意見之 ^ 開早位(例如個人Web頁、個 人或小規模組織所作之網站、佈主 …… D欄中之發言等),並將用以指 ^ _ 、° (例如URL或發言號碼等)儲 存於記憶裝置,·對象指定步驟 寻)储 公司》η * 係礼疋该個人意見之對象(例如 〜牛3 丁^ ” 口名等)’並將其儲存於記憶裝置;及評價指 疋步驟,係藉分析該個人意見之 侗χ ΑΑ 么開内容而指定關於該對象之該 们人的评價(例如好評價或壞評價 陶次頁^、料於記憶震置。 20 1252987 玖、發明說明(2 ) 藉此可提供作為業經抽出之個人意見之特性的 舉例言之’可從個人意見之對於對象之評價中,僅抽出例如壞評 價。 5 10 15
又’前述抽出步驟之結構亦可包含有衫具有個人意見之内 容資訊之單位(例如1W 頁)的拍疋步驟;及從業經指定之内 容資訊之單位中抽出個人意見之公開單位的抽出步驟。舉例言之 ,抽㈣告欄之Web站或個人首頁後,分離出作為個人意見之 公開單位的發言等。 一又,前述指定步驟亦可依照各内容資訊之單位之被參考度的 冋偏員序來^。因為被參考度高即為可能愈多人看到且影響程 度高之内容資訊,所以較優先處理影響度高之内容資訊。又,亦 可以衫響度本身作為是否是應注意之情報的指標。 又,前述抽出步驟之結構亦可包含有藉追縱前述個人意見之 參考源:檢測出前述個人意見之公開單位之群組(例如實施形態 f順串並將用以指㈣群組之資訊儲存於記憶裝置的步 由於不僅有個人發言,亦存在有應注意之發言匯集 故。 又’刖述抽出步驟之結構亦可包含有指定關於前述個人意見 之=象的類別(例如行業),並將其儲存於記憶裳置之類別指定 八藉此可提供作為業經抽出之個人意見之特性的類別。舉例 口之’母-行業應注意之資訊或評價之表達或差異是不同的,因 而按每-行業之分類等是有用的。 又本發明之結構亦可更具有判斷可成為前述個人意見之證 =:身訊(例如所參考之發W站、報紙和雜^内容等 •人頁(發明說明頁不敷使觸,請註記並使臓頁) 20 1252987 坎、發明說明(3 ) 翻說明續頁 )、是否包含於前述個人意見之公開單位,並在有包含時,將該可 、為也據之貝δκ儲存於記憶裝置的步驟。藉此可提供作為業經抽 出之個人思見之特性的情報來源。當須要調查資訊之出處時,是 非常有用的。 本發明之結構亦可更具有決定前述個人意見之公開單位 之可靠度’並將其儲存於記憶裝置的可靠度決❹驟。藉此可提 供作為業經抽出之個人意見之特性的可靠度。亦可獲得可靠之資 訊和不可靠之資訊的標準。亦可抽出可靠度高者料應注意之資 訊。 、 此外,刖述可靠度決定步驟之結構亦可具有判斷可顯示前述 個人身份(例如郵件位址、帳號)之資訊是否包含於前述個人意 見之公開早位的步驟。此乃由於對於即使表明身分亦可公佈的資 訊,係可判斷為可靠者之故。 又,別述可罪度決定步驟之結構亦可具有判斷可成為前述個 15人意見之證據之資訊^否包含於前述個人意見之公開單位的步驟 。此乃由於若證據明顯,便可判斷為可靠之資訊之故。 又,本發明第1態樣之結構亦可更具有分別分析多數包含有 檢索關鍵字及跳躍目的地URL之對内容資訊的檢索錄諸,並依 存取數及檢索關鍵字之種類數指定階層下包含有個人首頁之網站 20的步驟,及抽出包含於業經指定之該網站之階層下的個人首頁作 為前述個人意見之公開單位的步驟。 又,本發明第1態樣之結構亦可更進一步執行分別分析多數 包含有檢索關鍵字及跳躍目的地URL之對内容資訊的檢索錄誌 ,並依存取數及檢索關鍵字之種類數抽出個人或小規模組織的網 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 1252987 發明說明續頁 玖、發明說明(4 ) 站作為前述個人意見之公開單位的步驟。 本發明之第2態樣之内容資訊分析方法包含有抽出步驟,係 從已收集到之内容資訊中抽出個人意見之公開單位,並將用以指 疋该個人意見之公開單位之資訊儲存於記憶裝置;對象指定步驟 ’係指定該個人意見之對象,並將其料於記憶裳置;及可靠度 決定步驟,係決定該個人意見之公開單位的可靠度,並將其儲存 於記憶裝置。藉此可抽出例如可靠度高之個人意見。$,亦可係 以個人意見或包含有個人意見之内容資訊的被參考度為影響度, 且處理其為自動抽出之參數的結構。 10 15 本發明之第3 ϋ樣之内容資訊分析方法具有分卿得多數包 含有檢索關鍵字及跳躍目的地URL之對内容資訊的檢索錄諸, 並將其儲存於記憶體的步驟;遵循預定規則對各跳躍目的地 URL心存取數及檢㈣財之種紐,並料算結果儲存於 記憶體的步驟;對依狐構造所指定之各網站,總計包含於令 網站之階層下之_目的地URL的存取數及檢㈣鍵字之種類 數’並將料結果儲存於記憶體的㈣;及依對前相站所總計 之存取數及檢索關鍵字之種紐,敢前述網站之種類的步驟°。 藉此,可判別例如網際網路服務提供者之網站、企業之網個 人或小規模組織之網站等。若可檢測出網際網路服務提供者之網 站,也就可檢測出個人首頁(亦稱為個人Web頁)。 又,亦可利用關於URL、企業名 '簡稱及行業的辭典和包 含有關於各行業之特徵語的辭典以決定前述個人意見之對象(例 如企業)和對象之類目(例如行業和商品名等)。關於該等辭典 ,亦可藉分析已收集到之内容資訊等而自動建構。 0齡頁(廻說頓不_觸’ _記雖臓頁) 10 20 1252987 玖、發明說明(5 ) 此外’前述之方法可於電腦中實施,而用^7771— 存於諸如軟碟、CD_R0M ^ g式可儲 7 硬料記憶媒 ,己=又,該程式亦可作為數位信號而經 。另’中述之處理結果可暫時保管於記憶 圖式簡單說明 —實崎之她略的圖示。 Γ圖係顯!資訊收集分析系統之處理流程之-例的圖示。 第3A圖及第3B圖係顯示儲存於佈告攔要素儲存部之資料 之一例的圖示。 、 10 一第4A圖弟4B圖及第4C圖係顯示儲存於分析資料儲存部 之資料之狀恶變化之一例的圖示。 示 第5圖係顯示儲存於行業用語辭典儲存部之資料之—例的圖 第6圖係顯示關於發言抽出處理之處理流程之—例的圖示。 第7圖係顯示關於討論串抽出處理之處理流程之—例的圖示 第8A圖及第8B圖係顯示儲存於企業名辭典儲存部之資料 之一例的圖示。 第9圖係顯示關於出處探索處理之處理流程之一例的圖示。 第10圖係顯示關於發言及討論串之分析處理之處理流程之 一例的圖示。 第11圖係顯示規則集之產生處理流程之一例的圖示。 第12圖係顯示統計處理部之處理結果之一例的圖示。 第13圖係顯示統計處理部之處理結果之一例的圖示。 0續次頁(發明說頓不雖鱗,請註記雌麵頁) 1252987 玖、發明說明(6 ) 發明說明續頁 第14圖係顯示辭典產生部之機能區塊之一例的圖示。 第15圖係顯示辭典產生部之處理流程之一例的圖示。 第16圖係顯示檢索錄德分析部之處理流程之一例的圖示。 第17圖係顯示檢索錄誌分析部之第1錄誌正規化處理之一 5 例的圖示。 第18圖係顯示檢索錄諸分析部之第2錄誌正規化處理之一 例的圖示。 第19圖係顯示檢索錄諸分析部之總計處理之一例的圖示。 第20圖係顯示檢索錄誌分析部之網站種類判定處理及登錄 10 處理之一例的圖示。 第21圖係顯示檢索錄誌分析部之處理流程之一例的圖示。 第22圖係顯示統計處理部等之處理結果之一例的圖示。 【實施方式3 用以實施本發明之最佳形態 15 第1圖係顯示本發明一實施形態之系統概略。於電腦網路之 網際網路1連結有多數Web伺服器7,且Web伺服器7公開有 大量之資訊。又,於網際網路丨連結有多數具備Web瀏覽器之 用戶終端3,且用戶操作用戶終端3瀏覽以Web伺服器7所公 開之Web胃。更進-步,於網際網路丨亦連結有提供使操作用 2〇戶終鳊3之用戶可有效率地存取以Web伺服器7所公開之大量 Web頁之服務的-❹數檢㈣舰器9,且該檢索站舰器9 具有用以儲存對應由好終端3所命令之檢索要求之檢索賴的 檢索錄誌儲存部91。又,企業等設有用以連結網際網路i之一 或多數代理飼服器8,且該代理祠服器8經由公司内之lan (區 _次頁(侧說頓不赚麟’ if_纖用顧) I252987 玖、發明說明(7 ) 域網路)81連結至公司内終端82 ^7- 你 3 4。该代理伺服器8係 /、般之代理伺服器相同,不過J:呈有用 八/、有用以储存公司内終端82 及83對網際網路丨所作之存取之 。 匦坏°心的代理錄誌儲存部84 又,用以實施本實施形態之主要處 ^ ^ 文夂里的貝矾收集分析系統5 亦連結至網際網路1 0唁眘隹 亥貝況收集分析系統5係針對指定用戶提 /、刀析結果’同時亦進行所收隼 木之^ ^的歸檔並對用戶提供關於 :、:歸檔之資訊的檢索機能。即,用戶終端3經由網際網路丨存 10 貝《集分析純5而可取得町將說明之分析結果,且亦可 取得對於業經歸檔之資訊之檢孛 U另,亦可不設置檢索機能 15 20 、貧訊收集分析系統5係包含有内容收集分析部5〇1、廳頁 I類部繼、行業判定部如、發言與討論串抽出部公司 曰^部奶、出處探索部_、發言與討論串分析部聊、統計 处里口Ρ 508、用戶介面部5〇9、辭典產生部52〇及檢索部切。 次“内容收集分析部洲係將依據所收集之内容資訊及關於内容 H鏈結㈣之讀絲的被參考度,财於㈣庫512作為 处貝〇fL 1將為參考關係之分析結果的鏈結佈局資訊健存於鏈 =佈局则19。細頁分類部502係使用儲存於播案庫512之 :汎’且麥考儲存於佈告攔要素儲存部513之佈告欄要素資料以 仃處理’並將處理結果輸出至例如行業判定部5〇3,同時儲存 於分析資料儲存部51G。行業判定部5G3係使用例如湯頁分 類部撕之輸出詩,且參考儲存於行業用語辭典儲存部514之 仃業用謂典以進行處理,並將處理結果輸出至例鄉”对私 繪次頁(發明說明頁不敷使觸’請註記並使用續頁) " 13 1252987
玫、發明說明(8 ) 串抽出部辦,同時儲存於分析資料儲存部51L 資二與Γ504係使用例如行業判定部5。3之輸出 :=分析資料儲存部51。。公_ 二串抽出部-之輪出資料,且參考儲存 存: =之企業名辭典以進行處理,並將處理 := 索部咖,同時儲存於分析資料儲 J出^ 传用八— A t I 出處铋索部506係 业儲二^ΓΓ之輸出資料,且參考儲存於大轉播媒體辭 10 = 之大眾傳播媒體辭典以進行處理,並將處理結果幹 训例如發言與討論串分析部507,同時儲存於分析資料儲存部 15 ,二2=串分析部5〇7係使用出處探索部506之輸出資料 則隸=存於企業名辭典儲存部川之企業名辭典;儲存於規 “在佑:邛517之關於個人意見之類目和評價之規則的資料;及 ::=等有使用帳號時之帳號…進行處理,並料 出至例如統計處理部观,同時儲存於分析資料儲存部 、核理部508係使时自發言與討論_分析部 f儲存於分析資料儲存部51〇之資訊以進行統計處理,= 处私果輸出至例如用戶介面部5〇9或分析資料儲存部训。 、用戶介面部509係對應於來自用戶終端3之存取而將儲存於 为析資料館存部51〇之資料或統計處理部规之輸出資料傳送至 用戶終端3。X ’檢索部521係回應來自用戶終端3之檢索要长 而對儲存於„庫512之資料進行檢索,並將檢索結果傳送至用 儲存於—部 20 1252987 發明說明$賣胃 玖、發明說明(9 ) 川。辭典產生部別係參考檢索錄⑽存部^ 及鏈結佈局DB5I9以產生行業用語辭並 田木庫 血蚀左都+ 、 亚儲存於行業用語辭 ,、儲存邛514,同時產生企業名辭血, ^ 51, v ^ ^並储存於企業名辭典儲存 5 10 α / 產生部52G亦可取得儲存於代理飼服器8之代 理錄痣儲存部84的資料和儲存於 〇1 A . 家占伺服裔9之檢索錄誌儲 存邛91的貧料後儲存於檢索 次立丨^ 。褚存邛511,並使用該取得之 «料進行處理。即,產生行業用語 -、之貝料項目並儲存於行章 用語辭典儲存部5 14,同時產生企筆 八 八 系名辭典之貧料項目並儲存於 止業名辭典儲存部515。又,亦可竇妳扣― 、 J J只轭指定應分析之URL的處 理,並將處理結果輸出至Web頁分 51〇等。 …以如或分析資料錯存部 内容收集分析部501係收集與網際網路i連結之多數Web 飼服器7所公開之Web頁之資料,並分析鏈結之參考關係,藉 此由各Web頁之被參考度計算出排序值。然後,將所收集之 15 Web頁之資料及被參考度排序值儲存於檔案庫512。又,將鍵結 之參考關儲存於鏈結佈局DB519作為鏈結佈局資料。由於該内 谷收集分析部501之處理係使用習知技術,例如美國專利公開公 報2001-0020238_A1和日本專利公開公報特開2〇〇〇1〇996號中 所揭示者,所以不再詳述。 2〇 Web頁分類部502係實施用以從儲存於檔案庫512之Web 頁中自動判別個人首頁和佈告欄Web頁的處理。個人首頁和佈 告攔Web頁是公開有個人意見之内容資訊,雖然瀏覽者未必一 定报多,但從「散佈流言」之觀點來看也是不可忽略的,應該事 先儲存其存在和出處之相關資訊。在該處理中係參考佈告欄要素 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 1252987 玖、發明說明(10 ) 儲存部513,錢儲存有心—人首頁^^7 之慨或URL -部份關鍵字的佈告棚要素資料。又,㈣頁分 類部⑽不僅制佈告攔要素資料,還判別指定之 道介面)之使用等,檢測出Web頁之HTML(超文件標;;語言 )原始檔之佈告攔特有的樣式。 行業判定部5〇3係對於已判定為個人首頁或佈告搁懸頁 之鶴頁,參考儲存於行業用語辭典儲存部川之行業用纽辭 典以判斷與哪-行業之關鍵字有較多吻合,藉此判別行業。 10 發言和討論串抽出部504係抽出包含於佈告欄Web頁的一 則發言,同時亦抽出好幾則發言匯集而構成關於指定話題之議論 =串。在該處理中係從町紙原始檔之預定標籤之重複樣 式娜兔言。X,關於討論串,係從包含於發言標題之% . 」和前或後之發言的鏈結等抽出。關於個人首頁,係處理一 15 web頁作為_則發言,例如#|取預定大小之段落作為—=發士 。另,亦可處理一 Web頁作為討論串。 公司指定部505係利用儲存於企業名辭典儲存部515之企業 名辭典以婦言和討論串巾所“之文字财衫成為話題之企 業名。企業名辭典中包含有URL企業名辭典與簡稱名辭血。亦 Μ ^用侃^企業名辭典以事先指定成為話題之企業之證券碼和 出處探索部係從發言和個人首頁中抽出可成為發言證據 之慨或報紙減等大眾傳播媒體”訊。在該處理中係利用 包含有與報紙雜料大眾傳播制相關之企業名和報紙雜社名等 的^眾傳播媒體辭典。該大眾傳播媒體辭典係儲存於大眾傳拔 0續次頁(發明麵頁不敷使用時’請註記並使用續頁) 某 16 1252987 玖、發明說明(11 ) 發明說明續頁 體辭典儲存部516。 發言與討論串分析部507係分析發言與討論串之内容,並取 得發言與討論串之話題的類目(例如產品資訊、企業資訊、股價 資訊、環保活動資訊等),和關於發言與討論串中成為話題之企 5業等的評價資訊。對於評價,係例如判斷其為好評價亦或壞評價 °為了類目和評價’藉利用預先依每—業界所準備之類目和好評 價及壞評價之正碟解釋集的學習而產生規則集,並㈣存於規則 集儲存部517。發言與討論串分析部5G7係使用該規則集以進行 處理。X,發言與討論串分析部507係判斷郵件位址和帳號之可 H)顯示發言者身分之資訊和㈣URL #證據之資訊是否包含於發 言中,並依該等資訊決定發言之可靠度。發言與討論串分析部 對於URL,係存取企業名辭典儲存部515以確認是否包含於 企業名辭典,對於帳號,則係參考帳號DB518之資料。發言與 討論串分析部507之處理結果係儲存於分析資料儲存部51〇。/' 15 統計處理部谓係實施各種統計處理者。可懿實施預定之 統計處理,亦可實施由操作用戶終端3之用戶所指定之統計處理 。例如,統計處理部5〇8既可總計關於衫企業之各評價,亦可 總计母-企業之發言數,亦可產生關於時間上之變化的資料。關 於統計處理之結果,亦可先儲存於分析資料儲存部51〇。 2〇 用戶介面部509係對應於來自用戶終端3之要求而對用戶終 端3傳送儲存於分析資料儲存部51〇之資料。&,用户介面部 5〇9係實施例如依被參考度之排序和可靠度而將發言與討論串排 序’並傳达至用戶終端3的處理。又,若需有統計處理,用戶介 面部5〇9 t令統計處理部508使用儲存於分析資料儲存部51〇之 _次頁(發明說明頁不敷使觸,請註記並麵顏) 1252987 發明說明ϋ: 玖、發明說明(12 ) 貧料以實施預定之統計處理,並^~--- 如,將資—輸出。傳W戶終端3。例 檢索部521係對應於來自操作用戶終端3 行儲存於檔案庫512之内容資 之要求而只 諸係儲⑽峨物:Γ ㈣之峨檢索錄 10 15 生部52。係利用儲存於標案庫512之内容資Μ Ζ、、、。㈣聰19之鏈結佈局資訊料、儲存於檢索錄諸儲存部 料’以產生行業用語辭典並儲存於行業用語辭典 子部514,同時亦產生包含有正規及非正規版之觀企業名 辭典及簡稱名辭典的企業錢典並儲存於企業名辭典儲存部515 。更進一步’辭典產生部520取得儲存於代理伺服器8之代理錄 =存部84的料資料㈣存於檢索_鞋9之檢索錄諸儲 子邛91的錄誌資料,並儲存於檢索錄誌儲存部Η〗,且利用该 錄諸資料以產生辭典。即,產生行業聽辭典之資料項目並儲: 於行業用語辭典儲存部514,同時亦產生企業錢典之資料項目 並儲存於企業錢典儲存部515。又,利賤存於檢索錄諸儲存 部川之資料以指定應分析之URL,並將處理結果儲存於分析 資料儲存部510。 接著,利用第2圖至第22圖說明第!圖所示之系統的處理 2〇内容。第2圖係顯示本實施形態之處理概略。首先,由内容收集 分析部5〇1實施内容收集及分析處理(步驟S1)。如前所述般, 在步驟S1中,收集與網際網路丨連結之多數冒虬伺服器7所公 開的Web頁資料,並分析鏈結之參考關係,藉此算出各web頁 之破參考度,再由該被參考度計算出排序值。然後,内容收集分 _次頁(翻國頁不驗麟,證記搬臓頁) 18 1252987 玖、發明說明(13 ) 析部別將所收集之Web頁資料及被參考度 庫幻2 ’且將鏈結之參考關係儲存於鏈結佈局db5i9作為鍵社 佈局資料。 m 5 10 15 20 其次,懸頁分類部502從由内容收集分㈣5〇ι所收集 且儲存於播案庫512之内容資訊中,抽出佈告攔及個人首頁(步 驟S3)。在該處理中係使用儲存於佈告欄要素儲存部⑴之佈土 攔要«料。佈告欄要素資料係包含有如第3A圖所示之常靜 佈告欄及個人首頁之狐之*、崎咖〇柯如卿的 關鍵字,及如第3B圖所示之—般眾所周知的佈告攔及個人首頁 的觀。又,佈告攔要素資料亦可包含有用以指定常用於佈告 欄和個人首頁中之CGI的資料、常出現於佈告欄和個人首頁中 之Μ頁HTML原始檀之樣式的資料等。即,μ頁分類部 5〇2係對於處理對象Web胃,判斷其败或其一部份是否與儲 存於佈告攔要素儲存部513之佈告欄要素資料(第Μ圖及第 3B圖)所包含之URL或關鍵字一致。又,亦判斷處理對象黯 頁中所使用之CGI是否為常用於佈告欄和個人首頁中之⑽。 更進—步’ ^頁分類部502分析處理對象懸頁之HTML原 始檔1檢查是否存在有㈣於佈告欄和個人首頁之衫之標藏 複樣式冑„亥等處理係依照Web頁之被參考度排序值的高 低順序來進行。又,該等處理之結祕例如第4A圖所示般,將 已判斷是佈告欄及個人首頁之Web頁的觀、種類(例如,若 是佈告攔則儲存%,若是個人„_存%,若是其他則儲 」)及作為Web頁之排序的被參考度,儲存於例如分析 資料儲存部51°。另’之後再就第从圖之存取數加以說明。 0繪次頁(發明說類不敷使觸,請註記雌用續頁) 19 1252987 玫、發明說明(]4 ) I μ — 乃I Μ ) 發明說明|賣§* 然後,行業判定部503對於 L__1_
Web頁,參考儲存 疋佈告欄或個人首頁之 ϋ子方'仃業用语辭典儲存部 以判定該Web頁作為話題 切業用語辭典 於行聿用㈣並“ 業(步驟S5)。如第5圖所示, 5 仃業用辭典中對應於行業名登錄有 “個(η為整數))。從而,行業—夕_字(圖示中
Web頁之用这企成## ’、邛503將包含於處理對象 、之用δσ與登錄於行業用語 定吻入之β 之關鐽字進行比對,並判 。之闕鍵予數多的行業為處理對 理之結果係例如第4Β圖所 、之行業。如此處 之Web百“ 又將已判斷是佈告欄或個人首頁 10 15
^ 種類(例如,若是佈告_—「kP 個人首頁則儲存「2」,若是 右疋 J碎仔 3」。)、該Web百 分作為該μ頁之排序的被參考度,儲存於❹ 刀析貝枓儲存部510。。另,之德ϋ结 ㈣。 之後再就第4Β圖中之存取數加以 然後,發言與討論串抽出部504抽出包含於佈告搁㈣頁 的一則發言,同時亦抽出當好幾則發言匯集議論指定話題時之發 0的討論串(步驟S7)。在此,利用第6圖及第7圖分別說明 抽出發言的處理與抽出討論串的處理。 首先利用第6圖說明發言之抽出處理。發言與討論串抽出部 504對於已判斷是佈告攔之佩頁,分析其連結,並抽出以諸 如「前往-覽表」#「佈告欄-覽表」之文字列所鏈結之黯 頁的URL,且取得該URL之Web頁資料作為發言_覽頁之資料 並儲存於記憶裝置(步驟S21)。又,發言與討論串抽出部貝5〇4 分析該發言一覽頁之内容,並指定所列舉出之前往各發言頁的鏈 結,且取得該發言頁之資料並儲存於記憶裝置(步驟SU)。發 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 又 20 20 1252987 玖、發明說明(15 ) 言頁亦可包含有多數發言。從而,發言與討論串抽出部504分析 發言頁之HTML原始檔以抽出發言之重複樣式,並儲存於記憶 裝置(步驟S25 )。舉例言之,當於各發言之標頭重複出現如「 30 : 01/10/20 22 : 46 ID : QpKkFIhK」之發言號碼、時間及帳號 5 等時,抽出該重複樣式。又,範圍亦可包括各發言。此時,由於 在指定樣式中TABLE標籤重複,故發言與討論串抽出部504會 抽出該TABLE標籤之重複樣式。接著,發言與討論串抽出部 504遵循所抽出之重複樣式,擷取一則發言並儲存於記憶裝置( 步驟S27)。然而,若發言之長度在預定長度以下時,亦可取消 10 ° 接著,利用第7圖說明討論串之抽出處理。依不同佈告攔, 有時如
「 Re : XX AAAA 的發言 Monday October 15,@01 ·· 42PM
Re : XX AAAA 的發言 Monday October 15,@01 : 45PM 15 Re : XX AAAA 的發言 Monday October 15, @03 : 01PM
Re : XX BBBB 的發言(分數:1 ) Tuesday October 16, @07 : 16AM」 所述般,由「Re:」之文字清楚可知是與先前發言「XX」 相關之發言群。另一方面,有時如 20 「58 姓名:CCCC 01/10/21 21 : 11 >56 關於該發言.....」 所述般,無法僅由各發言之標頭判明先前發言和相關發言。 因此,發言與討論串抽出部504係判斷是否可利用「Re :」文 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 21 1252987 砍、發明說明(16 ) 發明說明續頁 字等而由標頭抽出先前發言(击 L ------— X。(步驟S31)。若是如前述第1 ,由標頭清楚可知先前發言時(步驟如:%路線),發士盘 討論串抽出部504可由標頭掌握—發言群作為討論串,並; 論串號碼且對應於各發言予以登錄(步驟s33)。在第丨例中。、 稱為XX之發言及前述之四則發言構成—討論串,且登錄為同一 讨論串號碼。然後返回原先之處理。之後再就登錄資料加以說明 另方面,右由標碩無法抽出先前發言時(步驟幻^ N〇 路線),發言與討論串抽出部5〇4則判斷於本文中是否存在有所0 10參考之先則發吕之發言號碼等的發言識別資訊(步驟阳)。如 果存在有發言識別資訊時(步驟S35: Yes路線),發言與討論 串抽出部504會對應處理對象之發言登錄討論串號碼(步驟= )。另,若業已實施追溯先前發言之處理,便使用追溯前所賦予 之討論串號碼,若未進行追湖處理時,發言與討論串抽出部5〇4 15重新再賦予#論串號碼。然後,發言與討論串抽出部綱追溯所 多考之先則發β的發言號碼,並遞迴實施第7圖之討論串抽出處 理(步驟S39)。另-方面,當於本文中不包含有先前發言之發 口號馬時(步驟S35 · Ν。路線),發言與討論串抽出部5〇4則判 斷疋否L溯則以上之發言(步驟S41 )。此乃由於例如有獨立 2〇之發5,亦有根源之發言之故。若是獨立之發言(步驟S41 : No 路線),則返回原先之處理。另,若判斷雖是獨立之發言,但亦 以一則發言構成討論串,發言與討論串抽出部5〇4亦可重新再賦 予討論串號碼並予以登錄。若已判斷是已追溯一則以上之發言時 (步驟S41 . Yes路線),發言與討論串抽出部5〇4則就該發言 0續;人頁(發明翻頁不敷麵時’請註記並麵續頁) 1252987
然後返回原先 玖、發明說明(17 ) ’登錄舆參考源相同之討論串號碼(步驟S43 之處理。 =前述者,當可由標頭判明時,就藉標頭指㈣言群,當不 /頭㈣時’則以存在於本文中之發言號碼遞迴地追縱發今 門错此可掌握討論串。用以達成該處理之技術係例如美國專利公 開公報2001_0018698_A1所揭示者。 10 15 20 此外,若是個人首頁時,則處理—勤頁作為—則發言。 捋,既可例如從個人首頁之頂頁開始,處理全部可參考之頁作 柄亦可處理各頁作為獨立之發言。又,—頁亦可是很長 右疋如此’亦可例如以HTML原始播之w標藏等分割,並 处理業經分割之各部份作為-則發言。 田只知步驟S7之發言及討論串的抽出處理時,便 4C圖所示之# 士 μ、 且 、°卩伤的貢料。第4C圖之例中包含用以儲存 具有發言之Web頁之URL的列則;用以儲存種類之資料的列 用以儲存發言之標題的歹丨J 303 ;討論串號碼(# )之列3〇4 /言號碼(#)之列305;行業之列鳩;關於發言對象之評 饧的歹】3〇7,用以儲存抽出資訊之列308 ;可靠度之列3〇9 ;及 類目之列310。於用以儲存種類之列3〇2巾,若是佈告搁則儲存 ?」’若是個人首頁則儲存「2」,若是其他則儲存「3」。關於標 題,可為發言之標題,亦可為TITLE標籤或hi標籤之值。評價 係例如好或壞之評價。有關於此,之後再作說明。抽出資訊中: 含有公司名、證券碼、參考發言號碼、可為發言證據之大眾傳播 媒體之貝δΤΙ和URL,及為可顯示身份之資訊的郵件位址和帳號 可罪度中包含具有發言之頁的被參考度及之後所計算出之可土 _次頁(發__不赚觸,_謎賴顯) # 23 1252987 玖、發明說明(18 ) 度之值。若可掌握存取數時, 品資訊、企業資訊、股價資訊 話題。 發明說明續頁 亦可登錄存取數。類目則係例如產 、環保活動資訊之各行業間共通的 T呃到少驟S7時,便可於田 方;用以儲存URL·之列301 ;用以儲 存種類之列302 ;標題之列303 ·α4 % +上 川3,讨淪串號碼之列304 ;及發言 號碼之列305之中儲存值。 返回弟2圖之說明,在步齊 S7之後,公司指定部505會實 施用以指定為發言對象之企孝 — 系名的處理(步驟S9)。在該用以指 10 定企業名之處財係參考儲存於企業名辭典儲存部515之企業名 料。企業名辭典中包含有耻企業名辭典及簡稱名辭典了於 第8A圖及苐8B圖中顯示有該等辭业
厅< 例弟8A圖係URL 15 20 企業名辭典之-例。在第8A圖之例中,就各企業儲存有網站 URL、企業名、證券碼(或證券編碼)、行業名、—或多數之特 徵關鍵字及網站祖之排序資訊(被參考度及存取數)。特徵關 鍵字亦可包含有相關URL。又,關於網站飢之排序資訊,若 错以下所說明之處理而可獲得時,則予以登錄。第8b圖係簡稱 名辭典之―例。在第8B圖之例中,錯存有正式企業名、其讀音 及-或多數之簡稱。公司指定部5〇5係利用該等辭典以判斷包含 於處理對象之發言的詞句是否與辭典中之企業名、簡稱及證券碼 一致’藉此指定企業名。另’不僅指^企業名,亦可指定證券碼 ^企業觀。又’關於個人首頁’公司指定部5〇5亦可同樣地 指定成為發言之對象的企業名。在此業經指定之企f名和證券碼 等係儲存於第4C圖中用以儲存抽出資訊之列3〇8。更進一步, 當-包含於發言等之詞句與URL企業名辭典中任一企業之預=個 _姻(翻說頓不驗腦’隱誠使臓頁) 24 1252987 發明說明||胃 亦可指定該企業之企業名作為成為 玖、發明說明(19 ) 數以上的特徵關鍵字一致時 該發言等之對象的企業名。 叩傻,出處採索部寫從發言和個人首頁中抽h 之證據之狐或報紙㈣名#大眾傳_體的資訊 ϋ 。另,關於大料_體之資訊,_賤麵 ) 典儲存部川之大眾傳播媒體辭典。又,雖 播媒4 出處探索部5。6參考企業名辭典, 二”亚_ h 彳一右芩考储存於企業名辭並儲 存部-之企業名辭典,且發言中包含有觀_,韻 10 :URL是否為登錄於企業名辭典中的-,並就其有無登錄: 登錄於分析資料儲存部別。又,4傳播媒體辭血中包 含有例如與大眾傳㈣體相狀企業名及關於料企業所發行之 報紙雜途、名稱的資訊。 第9圖中顯示有步驟S11之出處探索處理的詳細内容。首 先,出處探索部506判斷於發言或個人首頁中是否包含有狐 (々驟S51 )。另,亦可為如判斷是否包含有登錄於企業名辭典 中RL的處理。若於發言或個人首頁中包含有url時,出處 探索部506會將該觀登錄於分析資料儲存部51〇 (步驟S53) 。例如儲存於第4C圖中用以儲存抽出資訊之列綱。又,亦可 月J所述般’將關於是否為登錄於企業名辭典中《URL的資訊 20登錄於分析資料儲存部510。又,當在步驟S51中已判斷於發言 或個人首頁中不包含有URL時,及在步驟S53中將URL登錄於 刀析貝料儲存部51〇之後,出處探索部5〇6會判斷於發言或個人 百頁中是否包含有報紙雜誌名(步驟S55)。即,出處探索部 5〇6會判斷登錄在大眾傳播媒體辭典中之報紙雜誌名是否出現於 0$貝’人頁(翻g細頁不雜觸,識誠賴顯) 1252987 玖、發明說明(20 ) 發明說明續頁 餐3或個人首頁中。若檢測出登錄於大眾傳播媒體辭典讀紙雜 达名時,出處探索部鄕會將該報紙雜諸名登錄於分析資料儲存 部训(步驟S57)。例如儲存於第4c圖中用以儲存抽出資訊之 5 10 _ k回第2圖之况明’對於發言及討論串與個人首頁,發言與 。寸_串刀析部5〇7會利用儲存於企業名辭典儲存部川之企業名 辭典;事前產生㈣存於規則集儲存部517之用以指定發今對象 之評價和話題之類目的規則集;及關於佈告攔等中所用之帳號的 帳號咖8以實施分析處理(步驟S13)。在該分析處理中’將 發=及*㈣巾的謂與登躲規職㈣部5丨7之規則集加以 比車乂减决疋活題之類目及關於發言之對象企業等之好或壞的 評價。又,由是否記載可成為發言之證據的狐等;豸飢是 否為登錄於企業名辭典中之祖;及是否包含有可顯示發言者 之身份之郵件位址和帳號的事項決定發言之可靠度。 15 第10圖中顯示有步驟S13之詳細内容。另,第1〇圖係關 於或個人首頁之處理。首先,發言與討論串分析部507 進行發言等之話題類目的分類,並將類目登錄於分析資料健存部 51〇 (步驟SM)。例如儲存於第4C圖中的類目之列⑽。關於 發δ等之4題類目的分類’可使用美國專利公開公報 20 0069197-Α1等中所揭示之技術 又’發言與討論串分析部5〇7 進行關於發言等之對象企業等的評價分類, 分析資料儲存部510 (步驟S63 並將評價資訊登錄於 之列307。評價之分類係對企業進行好評價 類。關於該步驟S61及步驟S63之處理, _次頁(說頓不_觸,職記搬用顏) 。例如儲存於第4C圖中的評價 ,或進行壞評價之分 發言與討論串分析部 26 1252987 玖、發明說明(21 ) 係利用儲存於規則集儲存部517之關於發的 規則集’及關於好評價或壞評價的規則集以進行判斷。 集係依每行業而產生者。這是因為考慮龍不同行業,_類目1 之表達和關於評價之說法是不同的。關於類目,也有佈告棚本身 =區分好類別’亦可利用該資訊。關於評價,不僅判斷好評價、 壞汗價,亦可係觸是否為關於預定觀點之評價。 10 15 20 發言與討論串分析部507係進行例如第u圖所示之處理而 產生規則集。即’依各行業,以人工製成各類目之發言與好” 及极評價之發言的正確解料,並輸人至例如具有專㈣統機能 之發言與討論串分析部叫步驟S88)1後發言與討論串分 析部507進行正確解釋集之„以產生規則集,並儲存於規則华 储存部川(步驟S89)。另,關於發言等之對象企業等之評價 的分類,可使用美國專利公開公報2〇〇2.9197_幻和日本專利 公開公報特開2002-202984號中所揭示之技術。 …,回帛U)圖之處理,接著發言與討論串分析部5〇7判斷發 :等t否包含有郵件位址(步驟S65)。如果郵件位址包含於發 。等% (步驟S65 : Yes路線),判斷該郵件位址是否為免費信 箱之郵件位址(步驟叫是否為免費信箱之郵件位址可㈣ 件位址之網域部的樣式等判斷。如果該郵件位址為免費信箱之郵 件位址時(步.驟S 6 7 : Y e s路線),設定用以對應免費信箱之郵 的可罪度,並登錄於分析資料儲存部51 〇之可靠度之列 步驟S69)。另,將該發言等之頁的排序資訊(被參考度。 =〇掌握存取數時,亦可登錄存取數。)亦—併登錄於可靠度之 I:。另—方面,若包含於發言等之郵件位址並非是免費信箱 "九、(蝴蝴頁不驗觸’纖記並使用顧) 27 1252987 發明說明 以對應一般郵件位 玫、發明說明(22 ) 之郵件位址時(步驟S67 : No路線),設定用 址的可罪度,並登錄於分析資料儲存部510之可靠度之列309 ( 步私S71)。通常而言,由於作為表明發言者之身份之資訊,一 般之郵件位址之可靠度較免費信箱之郵件位址高,故關於可靠度 5 ’對一般之郵件位址給予較高之值。 步驟S69或步驟S71之後,發言與討論串分析部5〇7將檢 測出之郵件位址登錄於分析資料儲存部51〇 (步驟s73)。例如 儲存於分析資料儲存部510中用以儲存抽出資訊之列3〇8。然後 進移至步驟S75。 接著,發言與討論串分析部507判斷於發言等是否包含有 URL (步驟S75)e此乃由於URL常顯示作為發言之證據之故。 士果URL包含於發言等時(步驟S75 : Yes路線),判斷該 疋否包合於企業名辭典(步驟S77)。如果該url包含於企業名 辭典時’發言與討論串分析部507會將該URL為包含於企業名 辭八之URL的主曰登錄於分析資料儲存部5! 〇 (步驟)。例 如儲存於用以儲存抽出資訊之列3〇8。步驟S79之後或當步驟 奶中判斷狐不包含於企業名辭典時,發言與討論串分析部 會將鏈結目的地URL之排序值(被參考度)登錄於分析資 料儲存部510作為可靠度(步驟S81)。另,當於發言等中亦包 含有^件位址時,也可追加關於郵件位址之可靠度及關於狐 之可靠度。又,亦一併登錄關於發言等之排序資訊(被參考度。 若可掌握存取數時’亦可登錄存取數。)。㈣將前述狐登錄 :分析資料儲存部51〇 (步驟S83)。例如儲存於用以儲存抽出 資訊之列308。之後處理進移至步驟S85。 13續次頁(發明說明頁不敷使用時,請註記並使用續頁) 1252987 玫、發明說明(23 ) 發明說明續頁 接著,發言與討論串分析部507判斷於發言等是否包含有帳 號(步驟S85)。帳號係在佈告欄中常用者,雖是用以指定發言 者之資訊,但並不能藉此完全地指定發言者。因此在本實施^態 中係使用發言數作為指標。於發言等包含有帳號時,發言與討論 5串分析部507會將帳號登錄於分析資料儲存部510 (步驟S86) 。例如儲存於用以儲存抽出資訊之列308。而後,發言與討論串 分析部507於帳號DB518中檢索該帳號,並增加其計數(步驟 )^方;帳说DB518並無登錄該帳號時,發言與討論串分析 邛07會將忒帳號及计數(在此為「1」)登錄於帳號。 10然後進移至下一處理。χ,當判斷發言等中不包含有帳號時,進 移至下一處理。 此外,關於帳號之可靠度,係使用在内容收集分析部5 〇丨同 時收集之全體内容資訊之處理終止的時點所登錄於帳號DB5i8 之計數值。即,在全體内容資訊之處理終止的時點,發言與討論 15串分析部507將關於帳號ϋΒ51δ之各帳號的計數值登錄於分析 資料儲存部510。 敢終,比較可靠度時,亦需要正規化處理。舉例言之,若給 予一般郵件位址30之可靠度,給予免費信箱之郵件位址1〇之可 靠度時,對於用作URL之可靠度的鏈結目的地URl的被參考度 2〇 ’須使用以100除之的值,對於帳號之計數值,亦須使用以20 除之的值等。 藉第2圖之步驟S13之處理,可將資訊登錄於分析資料儲 存部510之可靠度之列3〇9及類目之列31〇,與用以儲存抽出資 訊之列308。 0續次頁(翻_頎不驗鹏,請註記雌用顯) 29 1252987 玖、發明說明(24 ) 在弟2圖中,接著統計處理部508實施各^統計[理(步驟」 s15)。舉例言之,統計處理部5〇8會計算各行業中各類目之好 或壤評價數的合計Μ整體所視之㈣,或於發言中出現之企業 名的總計與其好讀評價的料,何種觀點之發言多,何種評價 多的資訊。又,亦可按照發言等之可靠度和被參考度之排序的順 序,排列資料。 10 例如’統計處理部508會產生如帛12圖之資訊。在此’關 於產品資訊、企業資訊、股價資訊、環保活動資訊,分別包含有 ••十方、業"Α業界Β、企業Α及企業β之好評價(〇κ)的發言 數(NG)的發言數。向上箭頭表示數量較前一回處理 ㈣加、橫向箭頭表示與前—回處理時大致相同,向下箭頭表示 數量較剷一回處理時減少。 15 又,統計處理部508亦會產生如第13圖之資訊。即’用以 顯示㈣企業Α之發言中,好評價之比率之時間變化的圖表。 如前述之統計處理之結果係先登錄於例如分析資料儲存部 51然後’用戶介面部對應於來自用戶終端3之要求而讀 取登錄於分析資料儲存部510之資訊,並傳送至用戶終端3 (步 驟S!7)。用戶終端3從資訊收集分析系統5接收資料,並顯示 於顯示裝置。用戶介面部不僅傳送由統計處理部508所處理 2〇之資料,亦可例如以發言之可靠度和被參考度等之排序來排序資 料,並將其結果傳送至用戶終端3,且藉由用戶所指定之關鍵字 等檢索分析資料儲存部51G,並將其檢索結果傳送至用戶終端3 措用戶終端3之顯示裝置之韻千向六 只丁衣罝炙頜不内谷,用戶可取得關於何種 _次頁(翻1¾眶不敷使用時,謙記並使用續頁) 30 1252987 玖、發明說明(25 ) 行業或企業有何種評價之發言且是何種程度的 士夕Ψ _认次# 又J貝Λ,和關於其發 5 10 15 20 ^布、二,貝L票交易方面,可取得是否存在有相當於「 之該及該資訊之出處在何處的資訊。又,關於該等 所取仵之貧訊,係利用可靠度和被參考«之排序’因而用戶進 灯判斷時亦可考慮到發言之影響度。 :於前述行業用語辭典儲存部514及企業名辭典儲存部515 =枓,不論以何種方法製成皆可4過,亦刊用内容收集分 析部501所收集之内容資 旦卜主如山 在本只形怨中係利用可從大 里月報中,區別並抽出指定行業和範圍之f訊且加以分類的技術 、,,而使第1圖之辭典產生部似產生行業用語辭典,及URL企 業名辭典和簡稱名辭典。 第14圖係顯示第1圖之辭典產生部別的機能區塊圖。於 辭典產生部別包含有URL基礎行業判定部55〇、慨基礎簡 稱判定部551、鍵結佈局基礎行業判定部说、特徵語基礎行掌 判疋部553、特徵語辭典登錄部554及檢索錄諸分析部n 等處理部係可存取URL企業讀典儲存部⑽。又,狐基礎 行業判定部別及鏈結佈局基礎行業判定部切係利用鍵㈣局 加519之資料以實施處理。特徵語基礎行業判定部553、特徵^ 辭典登錄部554及檢索錄諸分析部555係可存取行業用語辭^ 存部514。又,檢索錄諸分析部555係可存取檢索錄諸儲存部 5U。又’雖然圖示中並未顯示,但檢索錄諸分析部555係可瘦 由網際網路1而存取代理伺服器8和檢索站伺服器9。又,檢索 錄鼓'分析部555之-部份處理結果是儲存於分析資料儲存部= 〇 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 31 1252987 發明說明$賣頁 玖、發明說明(26 ) 接著利用第15圖至第21圖說明第14圖所示之辭典產生部 520的處理。URL基礎行業判定部550利用由内容收集分析部 501所收集且儲存於檔案庫512之内容資訊及儲存於鏈結佈局 DB519之鏈結佈局資料而實施使用URL之行業判定和登錄處理 5 (步驟S91)。最初是利用在某程度上以人工維護之URL企業名 辭典。然後,URL基礎行業判定部550將處理對象之Web頁之 URL與登錄於URL企業名辭典之URL加以比較,藉此判定公 開處理對象之Web頁之企業的行業。 舉例言之,當於URL企業名辭典中登錄有http : 10 //www.xxx.com,X X X股份有限公司,電腦之項目時,若處理對 象之 Web 頁之 URL 為 http : //www.ist.xxx.com,由於 XXX 是共 通的,故以「電腦」作為公開處理對象之Web頁之企業的行業 候選。然後,URL基礎行業判定部550由儲存於鏈結佈局 DB519之鍵結佈局資料,判斷於http : //www.xxx.com以下之 15 Web頁與http : //www.ist.xxx.com以下之Web頁是否設置有相 互或單方向之鏈結。如果可確認設置有鏈結時,則URL基礎行 業判定部550從處理對象之Web頁之TITLE等抽出企業名,並 將企業名、http : //www.ist.XXX.com及為行業名的電腦登錄於 URL企業名辭典。 20 接著,URL基礎簡稱判定部551參考儲存於URL企業名辭 典儲存部515b之URL企業名辭典,以實施使用URL之簡稱判 定和登錄處理(步驟S93)。當於處理對象之Web頁有 < a href= " http : //www.xxx.com" > three x < /a > 之記述時,URL基礎簡稱判定部551利用http : 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 32 1252987 玖、發明說明(27) 丨發明說明續頁 //www.xxx.com以檢索URL企業名辭典。若有登錄,便可獲得 使用http//www.xxx.com之企業的正式名稱。而後,URL基礎簡 稱判定部551以正式名稱檢索儲存於簡稱名辭典儲存部515a之 簡稱名辭典,確認是否登錄有正式名稱。若有登錄,則確認是否 5 對應於正式名稱登錄有「three X」之簡稱名。若沒有登錄,則將 「three X」之簡稱名登錄於簡稱名辭典。當並無登錄有正式名稱 時,則登錄正式名稱及「three X」之簡稱名。然而,須確認所登 錄之簡稱名不是「此」等之不是簡稱之非典型的詞句。 然後,鏈結佈局基礎行業判定部552利用儲存於鏈結佈局 10 DB519之鏈結佈局資料以實施行業判定和登錄處理(步驟S95) 。鏈結佈局基礎行業判定部552判斷與登錄於URL企業名辭典 之企業網站有密切鏈結關係之頁為該行業之企業所公開的Web 頁,並將該頁之URL、利用該頁中之資訊而抽出的企業名及行 業登錄於URL企業名辭典。若URL等業已登錄完成,則登錄行 15 業。又,當由鏈結佈局資料可抽出指定行業之中樞網站時,鏈結 佈局基礎行業判定部552會判定由該中樞網站鏈結出去之頁為該 行業,並將所鏈結之頁的URL、利用該頁中之資訊而抽出的企 業名及行業登錄於URL企業名辭典。若URL等業已登錄完成, 則登錄行業。 20 又,特徵語基礎行業判定部553遵循預定之演算法而從處理 對象之Web頁抽出特徵語,並藉該特徵語檢索行業用語辭典以 實施處理對象之Web頁的行業判定和登錄處理(步驟S97)。若 從Web頁所抽出之特徵語與關於指定行業之登錄於行業用語辭 典的用語在預定基準以上一致時,判斷該指定行業為處理對象之 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 33 1252987 發明說明ϋΜ 玖、發明說明(28 )
Web頁的行業。然後,特徵語基礎行業判定部553將Web頁之 URL、利用該頁中之資訊而抽出的企業名及行業登錄於URL企 業名辭典。若URL等業已登錄完成,則登錄行業。 10 15 更進一步,特徵語辭典登錄部554從行業業經指定之頁抽出 特徵語,並將該特徵語登錄於行業用語辭典(步驟S99)。從藉 前述之處理等而指定行業之頁抽出特徵語,且就該所指定之行業 ,以業經抽出之特徵語為包含於行業用語辭典之候選。當特徵語 辭典登錄部554對很多頁實施該種處理,且就同一行業抽出指定 特徵語達預定次數以上時,於行業用語辭典對應於該行業登錄該 指定特徵語。又,視抽出頻率愈高者為愈重要之特徵語,並從抽 出頻率高之特徵語開始登錄。亦可由新出現程度判斷重要度而登 錄。又,亦可將行業用語辭典區分為正規版與非正規版。舉例言 之,若處理對象之Web頁是佈告欄和個人首頁時,則將業經抽 出之特徵語登錄於行業用語辭典的非正規版。 如此一來,辭典產生部520利用登錄於檔案庫512之内容資 訊及儲存於鏈結佈局DB519之鏈結佈局資料而整備行業用語辭 典及URL企業名辭典和簡稱名辭典。 更進一步,辭典產生部520之檢索錄誌分析部555進行如第 16圖至第21圖所示之處理。 第16圖係顯示檢索錄諸分析部5 5 5之處理概略的流程圖。 檢索錄誌分析部555經由網際網路1而存取代理伺服器8和檢索 站伺服器9,並取得儲存於代理錄誌儲存部84及檢索錄誌儲存 部91的錄誌資料,且將其儲存於檢索錄誌儲存部511 (步驟 S201)。另,該步驟亦可由檢索錄誌分析部555以外之處理部或 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 34 20 1252987 發明說明$賣;g 玖、發明說明(29 ) 資訊收集分析系統5之管理者等進行。以下顯示從檢索錄誌儲存 部91取得之檢索錄誌資料之一例。 ‘‘ 2001/09/23:00:00:1 8url=http:"mfy.mmbr· ease.com/iwte.html ref=http://para.cab.inwb.ne.jp/cgibin/para?Oiiervstring=% 8DL 5 %93%87%83%5C%81%5B%83v base=NORMAL” 在該例中,包含有時間( 2001/09/23 : 00 : 00 : 18 ) ;「url = 」之後的跳躍目的地 URL (http : //mfy.mmbr.ease.com/iwte.html );「ref=」之後的查詢;及檢索狀態(base = NORMAL )。另’ 該查詢具有以底線所標示之業經編碼的檢索關鍵字。又,在上例 10 中,於錄誌中並未包含有IP位址,不過亦可包含。 又,以下顯示從代理錄誌儲存部84取得之檢索錄誌資料之 一例。另,在此顯示兩個錄言志。
“1034817348.963 133.25.88.171 11441 GET http://para.cab.inwb.ne.jp/cgibin/para7Querystring = % 8DL% 93 % 15 87%83%5C%81%5B%83v” “1034817348.968 133.25.88.171 1441 GET http://taisen.mycom.co.jp/taisen/image/side/top01 .gjf5 在該例中,最開頭之數字是以預定形式所顯示之時刻資訊。 又,該例包含有IP位址(133.25.88.171 );物件·大小;處理形 20 態(GET );及存取目的地URL。最初之錄誌顯示有包含如以底 線所標示之業經編碼之檢索關鍵字之對檢索站的查詢(URL ) ’ 其次之錄誌則顯示有同一用戶端對另一 URL所作之存取。在本 實施形態中,係判斷同一用戶端在對檢索站之查詢之後所存取之 URL為跳躍目的地URL。即,從代理錄誌儲存部84所取得之錄 0續次頁(發明說明頁不敷使用時’請註記並使用續頁) 35 1252987 玖、發明說明( 30 ) 發明說明續頁 誌資料係以兩個錄誌構成相當於一個儲存於檢索錄誌儲存部91 之檢索錄誌。 此外,為了分散負荷’亦可以多數伺服器構成檢索站伺服器 9與代理伺服H 8。此時’由於料分散到各舰器之代理錄諸 儲存# 84或檢索錄諸儲存部9卜故須取得全部伺服器之代理錄 諸健存部84或檢⑽賊存部91的資料,並匯整成—個,且依 時間順序排序。 而後,檢索錄諸分析部555實施已收集到之錄諸的正規化處 理(步驟S203)。A 了後續處理,所以進階搜尋資料,同時亦實 施檢索關鍵字之正規化處理等。於第17圖及第18圖顯示該處理 之詳細情形。 15 20 资亂,曰文中是如將「3 y匕。 、古第17圖係顯示關於從檢索錄諸儲存部91取得之資料的處理 :私。檢索錄諸分析部555從檢索錄结儲存部⑴讀取應處理之 貪料至記㈣(步驟S211)。然後,對所讀取之資料之各錄諸, 抽出時間、關鍵字及跳躍目的地URL之資料,並儲存於記憶體 (步驟S213)。$,關於關鍵字,因為業經編瑪,所以在此解碼 二並儲存於記㈣(㈣S215)。而後,對業經解碼之關鍵字進 仃正規化處理,並儲存於記㈣(步驟S2n)。在此,正規化是 將王形央數文字轉換成半形英數文字,將大寫字轉換成小寫字, 將半形假名轉換成全形假名等調整表記纽的整理。關於表記之 夕 夕一」改成「3>匕。 之處理,英文中是如將「studiesj改成「仙办」之處理。 然後’檢索錄結分析部555判斷在預定時間内是否包含有同 —關鍵字之錄結(步驟S219)。此乃為了檢測出用戶不小心弄錯 0續次頁(發明說類不敷使觸,雛記並使雌頁) 36 1252987 --—'—-— 發明說明,續胃 玫、發明說明(31 ) 而連績好幾次指示同一關鍵 系的&形,和依序瀏覽檢旁社 果之多數URL的情形。若 見欢家、,,口 丨月小右疋依序劂覽多數之URL·時,則彳s μ # 後遷移之跳躍目的地肌為公開有真正需要之内容的 时處理。如果_包含有在預㈣間内具有同__料 日^.具有該同-關鍵字之料中除最終存取之料以外= ^ ^ S22!)。而後返回原先之處理。另_方面,若判斷在預定時 間内不包含有同-關鍵字之錄料,則返回原先之處理。 、藉此可曝不須處理之資料,減少須處理之資料量,提升處 理速度,並且亦可獲得適當之處理結果。 10 15 、古第18圖係顯示關於從代理錄諸儲存部%取得之資料的處理 流程。檢索錄諸分析部555從檢索錄諸儲存部川讀取應處理之 資料至記憶體(步驟S231)。接著,對讀取之資料中之各錄諸, 抽出4間、URL及用戶端IP位址,並儲存於記憶體(步驟咖 )。按每-用戶端^位址整理包含有依此所抽出之資料的錄認, 並依時_序财(㈣S235 )。_,抽出有對預定檢索 站之存取的料,並且從該料之URL抽出騎字,且儲存於 記憶體(步驟S237)。因此先登錄檢索站之URL,並利用該檢索 站之URL以抽出顯示有對檢索站之存取的錄誌。而後,由該錄 誌之URL的規則性擷取關鍵字。當抽出顯示有對檢索站之存取 的錄誌時,檢索錄誌分析部555便抽出緊接該業經抽出之錄誌後 的錄誌之URL作為跳躍目的地URL,並儲存於記憶體(步驟 S239 ) 〇 藉依此抽出之關鍵字及跳躍目的地URL,盥白人, /、〇 3例如關鍵 字之錄誌的時間資料以產生錄誌記錄,並儲存於記憶體(+驟 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 37 20 1252987 發明說明$賣頁 玖、發明說明(32 ) =。關於包含於峨記錄之關鍵字’因^^ =碼’麟解術__f咖(㈣咖)。而 ==、_叙_料㈣㈣3,並術記憶體(步 知伽)。該正規化處理與步驟如是同樣之處理。 然後’檢索錄諸分析部555判斷在預定時間内是否包含有同 -關鍵字之錄諸記錄(步驟S247)。如果判斷包含有在預定時間 :具有同―關鍵字之料時,刪除具有該同-_字之賴中除 取終存取之錄記錄料者(步驟S249)。而後返回料之處理 10 方面右判斷在預定時間内不包含有同_關鍵字之錄該時 ’則返回原先之處理。 藉此可刪除不須處理之㈣,減少須處理之資料量,提升處 理速度,並且亦可獲得適當之處理結果。 返回第16圖之說明,接著檢索錄誌分析部555實施總計處 理(步驟S205 )。於第19圖顯示關於總計處理之詳細情形。 15 總計處理係檢索錄誌分析部555依每一跳躍目的地URI^, 计异存取數和所使用關鍵字之種類數,並將計算結果儲存於記憶 體(步驟S251)。當同時使用兩個以上關鍵字時,亦可判斷其組 合為一種類。然後,依跳躍目的地URL之階層構造,按每一網 站整理跳躍目的地URL,並按每一網站總計存取數及所使用關 2〇鍵子之種類數,並將總計結果儲存於記憶體(步驟S253 )。在本 貫施形態中網站係指URL之網域部,或網域部及下一階層之目 錄部中的任一者。 藉此可掌握各頁之存取數及所使用關鍵字之種類數,並且亦 可掌握住支配各頁之每一網站的存取數及所使用之關鍵字之種類 >3續次頁(發曰月說明頁不敷使觸,請註記鎌用顯) 38 1252987 玖、發明說明(33 ) 發明說明續頁
數。 一-J 返回第16圖之說明,接著檢索錄誌分析部555實施網站種 颁判疋處理及登錄處理(步驟S2〇7 )。於第2〇圖顯示該網站種 類判定處理及登錄處理之詳細情形。f先,檢索料分析部555 5以存取數和所使用關鍵字之種類數而將各網站分類(步驟S261) 。藉此可知各網站之相對之存取數的多寡和所使用關鍵字之種類 數的多券。而後,選擇一個跳躍目的地網站(步驟s2M),並判 斷該跳躍目的地網站之存取數及使用_字之種類數是否在預定 基準以上(步驟S265)。更具體言之,係將該跳躍目的地網站之 10存取數與存取數之駭基準進行比較,且㈣跳躍目的地網站之 使用關鍵字之種類數與使用關鍵字之種類數的預定基準進行比較 〇 然後,當判斷該跳躍目的地網站之存取數及使用關鍵字之種 類數是在預定基準以上時(步驟S265 : Yes路線),在本實施形 15態中係判斷該跳躍目的地網站為Isp (網際網路服務提供者)網 站,且若該網站URL尚未登錄,便於URL企業名辭典中登錄網 站URL、企業名、行業名(lsp)、所使用關鍵字及排序資訊( 步驟S267)。關於企業名,係使用τπχΕ標籤之值。又,關於 排序資訊,係登錄存取數及儲存於槽案庫512之被參考度之資料 2〇依此可擴充URL企業名辭典。又,將對應於行業(isp)所使 用之關鍵字登錄於行業用語辭典(步驟㈣)。依此可擴充行業 用語辭典。 > 又抽出滿足預疋條件之該跳躍目的地網站支配下的網頁( 步驟S27l)。預定條件係指例如存取數在駭基準以上,或係 0續次頁(翻說頓不雜觸,請註記並使用麵) ’' 曰 1252987 玫、發明說明(34 )
當可獲得存取數之時間演M 。而後,將所mm之账視為個财基準以上
、行業及排序、 L,並將URL 如,在第扣闰 〃析貝_存部训(步驟S273 )。例 在弟4B圖之階段中,於分次 「2」。此8± 乂“ 、刀析貝_存部训中登錄種類為 在本Y驟中,例如特徵 業用語辭血,由$ w Η 足饤㈣疋。Ρ 553依仃 畔,、由9亥Web頁之内容判定行業。另 代替第2圖之步驟S3,則亦 ^ 料U 了“ Μ圖之階段中儲存於分析資 枓儲存# 510。又,關於排序資訊 丨尔且綠猎刖述處理所取得之 存取數和儲存於檔案庫512之被表 10 15 〃亏度之貝枓。存取數是用以補 ;茶考度之排序資訊,當被參考度相同時,則藉存取數判斷重 要度,衫響度、可靠度等。’然後處理移至步驟咖3。 士當在步驟265中判斷存取數及使用關鍵字種類數未滿預定基 準日T (步驟S 2 6 5 : N 〇路後),到η木七$ a '%)到断疋否存取數在預定範圍内且 使用關鍵字種類數未滿預定基準(步驟S275)。舉例言之,存取 數是未滿上述之預定基準,則判斷是否在第2基準以上,更進一 步判斷使用關鍵字種類數是否未滿預定基準。在本實施形態中, 係判斷滿足如此條件之網站為一般的企業網站。因此,當判斷存 取數在預定範圍内且使用關鍵字種類數未滿預定基準時(步驟 S275 : Yes路線),若該網站URL尚未登錄,便於url企業名 辭典中登錄㈣URL、企業名、行業名、排序資訊及所使用關 鍵字(步驟S277)。依此可擴充URL企業名辭典。另,關於行 業名’例如特徵語基礎行業判定部5 5 3依行業用語辭典,由該 Web頁之内容判定行業,並登錄於URL企業名辭典。關於企業 名’係使用該Web頁之TITLE標籤之值。又,登錄所使用之關 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 40 20 1252987 玖、發明說明(35 ) 發明說明續頁 5 鍵字作為特徵關鍵字。又’排序資⑽麵藉前述處理所取得之 存取數和儲存於標案庫512之被參考度之資料。如此―來,於 URL企業名辭典中亦登錄有排序資訊,而當在個人首頁等中檢 測出顯示資訊出處之資訊的URL_,可依所檢測出之觀之排 序資訊計算該個人首頁等的可靠度。然後處理移至步驟S283。 10 15 20 —在步驟S275中,當判斷存取數不在預定範圍内且使用關鍵 字種類數並非未滿狀基準時(步驟S275 : Ν。路線),判斷存 取數及使關鍵字種類數是否未滿就基準(步驟SB)。即, 判斷存取數是否未滿存取數之基準,且使㈣鍵字㈣數是否未 滿使用驗字種類數之基準。如果存取數及制關鍵字種類數未 滿預定基準時(步驟S279:Yes路線),在本實施形態中係判斷 其為與個人首頁同層級之網站。因此,將慨、行業及排序資 机登錄於分析資料儲存部51()(步驟S28i)。例如,在第4B圖 之階段中,於分析資料儲存部51〇中登錄種類為「3」。此時,在 本步驟中’例如特徵語基礎行業判定部扮依行業用語辭典,由 该Web頁之内容判定行業。另,若要以本步驟代替第2圖之步 驟S3 ’則亦可在第μ圖之階段中儲存於分析資料儲存部训。 ^ ’關於排序資訊’係登錄㈣述處輯取得之存取數和館存於 樓案庫512之被參考度之資料。藉實施前述處理,可對應個人等 小規模組織取得網域以陳述意見和散佈講傳之情形。然後處理移 至步驟S283。在步驟S279中,若判斷存取數及使用關鍵字種類 數未滿預定基準時,亦移至步驟幻83。 在步驟S283中,判斷是否已對全部之跳躍目的地網站進行 了處理。若存在有未處理之跳躍目的義站,則返时驟 ’次頁(發明說觀不敷使觸嚿註記並使纖頁) 41 1252987 發明說明 玖、發明說明(36 ) ,並對未處理之跳躍目的地網站實施處理。=^-—— 、^ 乃一方面,若可說是 已對全部之跳躍目的地網站進行處理時,則結束處理 藉實施以上所述之處理,可由檢索錄諸等擴充觀企業名 辭典及行業用語辭典,同時亦可指定應注意之網站和url=” 此外’辭典產生部520之檢索錄钱分析部w除了實施第 16圖至第20圖所示之處理外,亦利用儲存於檢索錄諸儲存部 5 11之資料實施如以下之處理。 10 15 檢索錄誌係如前所述般,至少包含有時間戳記(時間)、柃 索關鍵字及跳躍目的地URL。舉例言之,檢索錄諸分析部2 對於儲存於檢索錄誌儲存部511之檢索錄誌,實施關鍵字分組及 URL分組。關鍵字分組包含有(a) 一回之檢索中,以and條 件所輸入之多數檢索關鍵字之分組;(b)連續多回之檢索中,2 AND條件所輸入之多數檢索關鍵字之分組;及(〇包含有同一 跳躍目的地URL之多數檢索錄誌中之多數檢索關鍵字的分組。 URL分組包含有(a)包含於以AND條件所連續進行之各檢索 之檢索錄誌之跳躍目的地URL的分組;及(b)包含有同一關鍵 字之檢索錄誌中跳躍目的地URL的分組。 藉該等分組所產生之關鍵字集及跳躍目的地URL集可暫且 儲存於記憶裝置。然後,或顯示於顯示裝置,或輸出於列印裝置 20而可提供於辭典管理者。接著,辭典管理者對於各關鍵字集及跳 躍目的地URL集判定行業及企業名,並遵循判定結果之行業及 企業名,將各關鍵字集及跳躍目的地URL集登錄於行業用語辭 典及企業名辭典,或者企業名辭典。又,對應於各關鍵字集及跳 躍目的地URL集而將判定結果之行業及企業名先記錄於檔案或 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 42 1252987 發明說明$賣Μ 玖、發明說明(37 ) 表中。 5 10 15 舉例言之,若是在一回之檢索中,輸入「(Α企業名&電腦 )之檢索關鍵字,或若是以「( Α企業名)」檢索後再以AND條 件連續進行「電腦」之檢索關鍵字的檢索,則對應A企業或A 企業行業而登錄「電腦」之用語。又,在包含有「ABC」、「DEF 」等檢索關鍵字之檢索錄誌中,由於同一企業之URL為跳躍目 的地URL,因而將該檢索關鍵字分類時,則對應於該企業或該 企業行業而登錄「ABC」、「DEF」等檢索關鍵字。 又,若在「(A企業名)」之檢索後,以AND條件連續進行 「電腦」之檢索關鍵字的檢索5而所抽出作為跳躍目的地URL 集之URL中任一者是A企業URL以外的URL,且亦是網域不 同的URL時,對應於A企業或A企業行業,登錄該業經抽出之 URL作為相關URL。又,若包含有「(A企業)」之同一關鍵字 之檢索錄誌之跳躍目的地URL集中任一者是A企業URL以外 的URL,且亦是網域不同的URL時,對應於A公司或A公司行 業,登錄該跳躍目的地URL作為相關URL。 若在某程度上,辭典管理者以人工判定行業及企業名,並對 應於各關鍵字集及跳躍目的地URL集,登錄為判定結果之行業 及企業名,便可利用該等記錄並藉例如檢索錄誌分析部555,對 應於新關鍵字集或跳躍目的地URL集,判定行業及企業名。即 ,從記錄之中,抽出與新關鍵字集或跳躍目的地URL集類似之 關鍵字集或跳躍目的地URL集,並將對應於該業經抽出之關鍵 字集或跳躍目的地URL集所記錄之行業及企業名,分配至新關 鍵字集或跳躍目的地URL集。而後,遵循分配結果之行業及企 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 43 20 1252987 玖、發明說明(38 ) #名’將新關鍵字集或跳躍目的地URL集之 或跳躍目的地狐,登錄於行業用語辭典及企業名辭典,或僅 企業名辭典。 更進-步,實施如第21圖所示之處理。即,檢索錄諸分析 部555利用儲存於檢索錄諸儲存部511之檢索錄認,抽出行業業 經指定之狀態之檢索錄諸’並將該檢索錄誌中之檢索_字登錄 於行業用語辭典(步驟S1G1 )。可適用於例如於檢㈣鍵字中使 用顯示行業名之詞㈣情形’和指定行業作為除檢索_字以外 10 之檢索條件的情形。另,亦可將業經抽出之檢索錄諸之檢索關鍵 字登錄於行業用語辭典的非正規版。又,若檢索錄諸中用戶之跳 躍目的地胤已絲於URL企業錢典時,檢分析部 ⑸會對應於該URL,將㈣_字絲於飢企業名辭並作 為特徵_字(步驟動> 舉例言之,若在具有「⑽」之檢 15 20 索關鍵子之檢索錄諸、中,包含有作為跳躍目的地亂之業已於 飢企業名辭典登錄完成的職時將「GHij登錄於概企 業名辭典作為跳躍目的地URL之企業的特徵關鍵字。 藉此’可利用檢索錄諸擴充行業用語辭典。又,亦可擴充 URL企業名辭典之特徵關鍵字。 。/亡係說明本發明之一實施形態,不過本發明並不限定於此 第1圖所TF之貧訊收集分析系統5内之機能區塊分配是一 =亦可為其他之分配方法。又,第2圖之處理流程中,關於出 ^木索處理(步驟sn)之實際進行順序,亦可例如與發言及討 2之抽4 (步驟S7)同時進行或在其後進行。在第9圖中, 0續Li改步驟S51及步驟S53,和步驟S55及步驟S57之順序。 '、6 兌明頁不敷使觸,請註記並使麵頁) 44 1252987 玖、發明說明(39 ) 發明說明,續頁 在第1〇圖中,亦可更改步驟S61、步驟S63、步驟 之】丨員序。第14圖中之機能區塊分配是一例,亦可為其他之 分配方法。第15圖中之處理步驟亦可更改其實際進行順序。 珂述是說明關於企業之資訊收集及分析,不過亦可以書評等 作為對象又,於第12圖及第13圖係顯示用戶介面部Mg輪出 之資料之一例,例如不僅只抽出公司名,亦一併從例如佈告攔和 個人首頁中抽出指定公司之商品名等,並先儲存於例如用以儲存 抽出資訊之列308 (第4C圖)。而後,用戶介面部5〇9亦可輸出 例如第22圖所示之資訊至用戶終端3。即,關於各企業之各商 品,就儲存於分析資料儲存部51〇之資_,總計在各佈告搁和各 個人首頁中有大約幾次之好評價(G()()d)或大約幾次之壞評價 (BAD),並提供給用戶。 又,在第2G圖之處理流程中,更進—步適當地決定存取數 及所使用之關鍵字種類數的基準值,藉此可更壯地將網站分類 。舉例言之’若某網站之支配下並無太多使關鍵字種類數多之 頁時’亦可判斷該網站為新聞提供網站。 【圖式^簡單> 說^明】 第1圖係用以說明本發明_實施形態之系統概略的圖示。 第2圖係顯示資訊收集分析系統之處理流程之—例的圖示。 第3A圖及第3B圖係顯示儲存於佈告攔要素㈣部之資料 之一例的圖示。 第4A圖、第4B圖及第4C圖俜顯+抑六从\ L — 丄 口 1乐顯不储存於分析資料儲存部 之資料之狀態變化之一例的圖示。 弟5圖係顯不儲存於行章用^五餘 仃系用辭典儲存部之資料之-例的圖 0續次頁(發明說明頁不敷使用時,請註記並使用續頁) 1252987 玖、發明說明(40 ) 發明說明,續頁 示0 第ό圖係顯示關於發言抽出處理之處理流程之一例的圖示。 第7圖係顯示關於討論串抽出處理之處理流程之一例的圖示 第8Α圖及第8Β圖係顯示儲存於企業名辭典儲存部之資料 之一例的圖示。 第9圖係顯示關於出處探索處理之處理流程之一例的圖示。 第10圖係顯示關於發言及討論串之分析處理之處理流程之 一例的圖示。 第11圖係顯示規則集之產生處理流程之一例的圖示。 第12圖係顯示統計處理部之處理結果之一例的圖示。 第13圖係顯示統計處理部之處理結果之一例的圖示。 第14圖係顯示辭典產生部之機能區塊之一例的圖示。 第15圖係顯示辭典產生部之處理流程之一例的圖示。 第圖係顯示檢索錄誌分析部之處理流程之一例的圖示。 弟17圖係顯示檢索錄誌分析部之第丨錄誌正規化處理之一 例的圖示。 卜_係顯示檢索錄諸分析部之第2錄tfe正規化處理之一 例的圖示。 20 1圖係·…貝不檢索錄誌分析部之總計處理之一例的圖示。 一 ^ ^不檢索料分析部之網站種類判定處理及登錄 處理之一例的圖示。 ^ ',、、、不檢索錄諸分析部之處理流程之-例的圖 弟22 1Κ竭^崎處理料之處理之 2-次頁刚說贿不敷使用時,請註記雌用_、'·。 不 46 1252987 玖、發明說明 【圖式之主要元件代表符號表】 1.. .網際網路 3.. .用戶終端 5.. .資訊收集分析系統 501.. .内容收集分析部 502.. .Web頁分類部 503.. .行業判定部 504…發言與討論串抽出部 505.. .公司指定部 506…出處探索部 507.. .發言與討論串分析部 508…統計處理部 509.. .用戶介面部 510…分析資料儲存部 511,91...檢索錄誌、儲存部 512.. .檔案庫 513…佈告欄要素儲存部 514.. .行業用語辭典儲存部 515…企業名辭典儲存部 515a...簡稱名辭典儲存部 515b...URL企業名辭典儲存部 516.. .大眾傳播媒體辭典儲存部 517···規則集儲存部
518…帳號DB
519.. .鏈結佈局DB 520.. .辭典產生部 521.. .檢索部 550.. .URL基礎行業判定部 551 ...URL基礎簡稱判定部 552.. .鏈結佈局基礎行業判定部 553.. .特徵語基礎行業判定部 554…特徵語辭典登錄部 555.. .檢索錄諸分析部 7.. .Web伺服器 8.. .代理伺服器 81.. .LAN 82,83···公司内終端 84…代理錄諸儲存部 9.. .檢索站伺月艮器 47

Claims (1)

1252987
拾、申請專利範圍 匕 1·一種内容資訊分析方法,係藉電腦而執彳ϋ,包含^77 抽出步驟’係從已收集且已儲存於内容資訊記憶 部之内容資訊中抽出個人意見之公開單位,並將用以 指定該個人意見之公開單位的資訊儲存於記憶裝置. 對象指定步驟,係指定於前述抽出步驟所抽出之 公開單位之該個人意見之對象,並對於用以指定前述 個人意見之公開單位之資訊賦予對應關係而儲存於前 述記憶裝置;及 10 評價指定步驟’係藉分析於前述抽出步驟所抽出 之公開單位之該個人意見之公開内容而指定關於該對 象之個人的評價,並對於用以指定前述個人意見之公 開單位之資訊賦予制關係而儲存於前述記憶装置。 2.如申請專利範圍第i項之内容資訊分析方法,其中前 15 述抽出步驟包含有指定具有個人意見之内容資訊之單 位的步驟,及從業經指 個… …内各資訊之單位抽出該 個人意見之公開單位的步驟。 3·如申請專利範圍第2項之 次 夂二 内合貝矾分析方法,其係按 各則述内容資訊之單位的… 前述指定步驟。 ^依回低順序執行 20 4·如申請專利範圍第1 m山 、内各資訊分析方法,i中前 述抽出步驟包含有藉追㈣述個人音見之-中 測出前述個人意見之公 ";考源而檢 …請專利範圍 述抽出步驟包含有類X貝訊分析方法,其中前 ^驟,係指定關於前述個 48 1252987
拾、申請專利範圖 人意見之對象的類別。 乂申明專利乾圍第5項之内容資訊分析方法,其中在 則述〜指定步驟中,係依闕於前述個人意見之對象 的類別而分柘二、+、 對象 則述個人意見之公開内容,藉此指定闕 於則述對象之前述個人的評價。 申明專利靶圍帛1項之内容資訊分析方法,i更 具有判斷前述個人意見之公開單位是否包成 前述個人意見之證據的資訊,並在有包含時,指= 可成為證據之資訊的步驟。 10 15 20 8·如申請專利範圚筮 圍弟1項之内容資訊分析方法,並更包 含有指定關於前述個人意見之公開内容之類目的、步驟 〇 2申明專利範圍第1項之内容資訊分析方法,其更包 3有可罪度決定步驟,係決定前述個人意見之公開單 位的可靠度。 〇·如申凊專利範圍第9項之内容資訊分析方法,其中該 可靠度決定步驟具有判斷前述個人意見之公開單位是 否包含有顯示前述個人身份之資訊的步驟。 ^申:專利範圍第9項之内容資訊分析方法,其中前 ^可靠度㈣步驟具有判斷前述個人意見之公開單位 疋否包含有可成為前述個人意見之證據的資訊。 12=申請專利範圍第i項之内容資訊分析方法,其中在 Ή象扎疋步驟中’至少利用關於-致資源定址器 叫、企業名、簡稱及行業的辭典以指定前述個人 49 1252987 ϊ ^ ι ; ----— — 拾、申請專^ 申請專利範圍續頁 意見之對象。 "一 一" 13·如申請專利範圍第12項之内容資訊分析方法,其更包 含有利用已收集到之内容資訊的URL及於該辭典中業 已完成登錄之類似URL,將對應於企業名之行業之相 關資訊登錄於該辭典中的步驟。 14.如申請專利範圍第12項之内容資訊分析方法,其更包 含有利用已收集到之内容資訊之鏈結源的文字資訊及 鏈結目的地的URL,將簡稱登錄於前述辭典中的步驟 10 15 20 15_如申請專利範圍第12項之内容資訊分析方法其更包 含有利用藉分析已收集到之内容資訊之鍵結關係而獲 得的鏈結佈局資訊,將對應於企業名之行業的相關資 訊登錄於前述辭典中的步驟。 16.如申請專利範圍第12項之内容資訊分析方法,其更包 含有從内容資訊中抽出特徵語,並利用具有關於各行 業之特徵語的第2辭典以指定行業,且將對應於企業 名之仃業的相關資訊登錄於前述辭典中的步驟。 7.2申%專利祀圍第5項之内容資訊分析方法,其中在 刖述類別指定步驟中,俜 語之第2辭典,以指定Γ二應各行業之特徵 的行業。 …迷個人意見之對象之企業 18·如申請專利範圍第16頊$& 含有從"… 分析方法,其更包 了業m定之内容資訊中抽出特徵任 應於前述行業將該特徵語追加。 月JXL弟2辭典中的步 50 1252987 拾、申請專利範圍 驟。
申請專利範圍續頁 19·如申明專利範圍第16項之内容資訊分析方法,其更包 含有在對内容資訊之檢索錄誌中,辨識行業業經指定 之狀態時的檢索關鍵字,並於前述第2辭典中登錄該 關鍵字作為特徵語的步驟。 20.如申請專利範圍第12項之内容資訊分析方法,其更具 有: /、 判斷步驟’係判斷包含於對内容資訊之檢索錄誌 之檢索者的跳躍目的地URL是否包含於前述辭典;及 〇 追加步驟,係當判斷有包含時,將包含於該檢索 錄誌中的檢索關鍵字追加於前述辭典中錄誌。 21·如申請專利範圍第丨項之内容資訊分析方法,其更具 有: 分別分析多數包含有檢索關鍵字及跳躍目的地 15 URL之對内容資訊的檢索錄誌,並依存取數及檢索關 鍵子之種類數指定階層下包含有個人網頁之網站的步 驟,及 抽出包含於業經指定之該網站之階層下的個人網 頁作為前述個人意見之公開單位的步驟。 20 22·如申請專利範圍第i項之内容資訊分析方法,其更具 有分別分析多數包含有檢索關鍵字及跳躍目的地URL 之對内容資訊的檢索錄誌,並依存取數及檢索關鍵字 之種類數而抽出個人或小規模組織的網站作為前述個 人思見之公開單位的步驟。 51 1252987 拾、申請專利範圍 申請專利範圍糸賈頁 23.如申请專利範圍第丨2項之内容資訊分析方法,其更具 有: 分別分析多數包含有檢索關鍵字及跳躍目的地 URL之對内容資訊的檢索錄誌,並依存取數及檢索關 5 鍵字之種類數指定階層下包含有個人網頁之網站的步 驟;及 將關於業經指定之該網站之資訊登錄於前述辭典 中的步驟。 24·如申請專利範圍第12項之内容資訊分析方法,其更具 10 有: 分別分析多數包含有檢索關鍵字及跳躍目的地 URL之對内谷資訊的檢索錄誌,並依存取數及檢索關 鍵子之種類數而指定企業網站的步驟;及 將關於業經指定之該企業網站之資訊登錄於前述 15 辭典中的步驟。 25· —種内谷資訊分析方法,係藉電腦而執行者,包含有 抽出步驟,係從已收集且已儲存於内容資訊記憶 部之内容貧訊中抽出個人意見之公開單位,並且將用 20 心定該個人意見之公開單位的資訊儲存於記憶裝置 對象扎疋步驟,係指定於前述抽出步驟所抽出之 公開單位之該個人意見之對象,並對於用以指定前述 個人意見之公開單位之資訊賦予對應關係而儲存於前 52 1252987 拾、申請專利範圖 述記憶裝置;及 之公定步驟,係決定於前述抽出步驟所抽出 之该個人意見之公開單位之可靠 於用以指定兪、又並對 ⑴述個人意見之公開單位之資 關在而紗+ 貝0凡賦予對應 關係而儲存於前述記憶裝置。 26. —種内容資訊分析方法, 係藉電腦而執行者,包含有 仟v驟’係分別取得多數包含有檢索關鍵字及 跳躍目的地URL之對内容資訊的檢索錄諸,並储存於 檢索錄Ί志儲存部; 计异步驟,係遵循預定規則而對儲存在前述檢索 錄諸儲存部之前述多數檢索錄誌、中之各跳躍目的地 URL计算存取數及檢索關鍵字之種類數,並將計算結 果儲存於資料儲存部; 總计步驟,係對依URL之構造而於儲存在前述檢 索錄誌儲存部之前述多數檢索錄誌所指定之各網站, 使用對儲存在前述資料儲存部之前述各跳躍目的地 URL之如述存取數及前述檢索關鍵字的種類數,而總 计包含於前述網站之階層下之跳躍目的地Url的存取 數及檢索關鍵字之種類數,並將總計結果儲存於前述 資料儲存部;及 判定步驟,係依已儲存於前述資料儲存部且對前 述網站所總計之存取數及檢索關鍵字之種類數,判定 前述網站之種類。 53 1252987 拾、申請專翁麵-〜s J 27.如申請專利範圍第26項之内容資訊分 述取仔步驟具有由儲存於代理饲服器之錄諸資料中, 產生包含有檢索關鍵字及跳躍目的地URL之多數錄該 δ己錄的步驟。 28·如申請專利範圍第26項之内容資訊分析方法,其中前 述計异步驟包含有: 將檢索關鍵字正規化的步驟;及 當預定時間内包含有多數關於同一檢索關鍵字之 10 檢索錄諸時,刪除最終檢索錄諸以外之檢索錄諸的步 驟。 29· —種内容資訊分析系統,包含有: 抽出裝置,係用以從已收集到之内容資訊中抽出 個人意見之公開單位者; 對象私疋裝置,係用以指定該個人意見之對象者 -"Μ貝扎疋褎置,係用以藉分析該個人意見之公開 内容而指定關於該對象之該個人的評價者。 士申明專利圍第29項之内容資訊分析系統,其中前 述抽出裝置包含有: 才曰定没備’係用以指定包含有個人意見之内容資 讯之單位者;及 抽出设備,係用以從業經指定之該内容資訊的單 位抽出該個人意見之公開單位者。 女申明專利範圍第3〇項之内容資訊分析系統,其中前 54 1252987 申請專利範m續頁 拾、申請 述扣疋设備係依照各前述内容資訊之1 的高低順序來實施。 > ^ 士申明專利範圍第29項之内容資訊分析系統,其 述抽出破置係用以藉追縱前述個人意見之參考源 測出前述個人意見之公開單位的群組者。 ,、欢 3 3 ·如申請專利範圍第2 9項之内容資訊分析系統,1中1 =抽出袭置包含有類別指定裝置,係用以指定關於: 述個人意見之對象的類別者。 10 15 20 4·如申4專利範圍第33項之内容資訊分析系統,其中前 述貝‘疋裝置係用以依關於前述個人意見之對象的 _而分析前述個人意見之公開内容,藉此指定關於 月’J述對象之前述個人的評價者。 5·如申凊專利範圍第29項之内容資訊分析系統,其更具 有用以判斷可成為前述個人意見之證據的資訊是否包 含於前述個人音g夕八叫οσ , / ^ 人心見之公開早位,並在有包含時,指定 该可成為證據之資訊的裝置。 36.:申凊專利範圍第29項之内容資訊分析系統,其更包 3有用以私定關於前述個人意見之公開内容之類目的 裝置。 37·如申睛專利範圍第29項之内容資訊分析系統,其更包 含有可靠度決定震置’係用以決定前述個人意見之公 開單位的可靠度者。 如申明專利乾圍第37項之内容資訊分析系統,其中前 述可靠度決定裝置係用以判斷顯示前述個人身份之資 55
5 w /、 I /gy 述對象指定裝置係至少利用關於-致資源定址器( URL)、企業名、簡稱及行業的辭典以指定前述個人意 見之對象者。 41. 如申請專利範圍第4〇項之内交 10 貝m谷貝汛分析系統,其更包 含有利用已收集到之内衮眘$ & ΤΤΏτ — 禾』<円谷貝汛的卩汉1及於該辭典中業 已完成登錄之類似URL,將對廍於八香々 _ 肘對應於企業名之行業的相 關資訊登錄於該辭典中的裝置。 15 42. 如申請專利範圍第4〇項之内容資訊分析系統,盆更包 含有利用已收集到之内容資訊之鏈結源的文字資訊及 鏈結目的地的概,將簡稱登錄於前述辭典中的裝置 43.如申請專利範圍第4〇項之内容資訊分析系統,其更包 =有利用藉分析已收集到之内容資訊之鏈結關係而獲 得的鏈結佈局資訊,將對應於企業名之行業的相關資 訊登錄於前述辭典中的裝置。 攸如申請專利範圍第4()項之内容資訊分析系统,其更包 含有用以從内容資訊中抽出特徵語,並利用具有關於 t行業之特徵語的第2辭典以指^行業,且將對應於 企業名之行業的相關資訊登錄於前述辭典中的裝置。 56 1252987 拾、申請專利範圍 4 5.如申請專利範圚箆 ' ~ 、、一 圍弟33項之内容資訊分析系統,其中耵 述類別指定裝晉将用 、々 置係用以利用關於對應各行業之特徵語 的第2辭典,以指定作為前述個人意見之對象之 的行業者。 〃 ^申明專利乾圍第44項之内容資訊分析系統,其更包 3有^從仃業業經指定之内容資訊中抽出特徵語, 並對應於前述行業將該特徵語追加於前述第2辭典中 之步驟。 :申明專利乾圍第44項之内容資訊分析系統,其更包 -用^在對内谷^矾之檢索錄諸中,辨識於行業業 經指定之狀態時的檢索關鍵字,並於前述第2辭典中 登錄該關鍵字作為特徵語的裝置。 々申明專利範圍第40項之内容資訊分析系統,其更具 有: 判斷襄置’係用以判斷包含於對内容資訊之檢索 錄4之檢索者的跳躍目的地URl是否包含於前述辭典 者;及 追加裝置’係當判斷有包含時,用以將包含於該 檢索錄誌中的檢索關鍵字追加於前述辭典中者。 49·如申請專利範圍第29項之内容資訊分析系統,其更具 有: 用以分別分析多數包含有檢索關鍵字及跳躍目的 地URL之對内容資訊的檢索錄誌,並依存取數及檢索 關鍵子之種類數指定階層下包含有個人網頁之網站的 57 1252987 拾、申請專利範圍 申請專利範圍續頁 裝置;及 用以抽出包含於業經指定之該網站之階層下的個 人網頁作為前述個人意見之公開單位的裝置。 5〇·如申請專利範圍第29項之内容資訊分析系統,其更具 5 有用以分別分析多數包含有檢索關鍵字及跳躍目的地 URL之對内容資訊的檢索錄誌,並依存取數及檢索關 鍵字之種類數而抽出個人或小規模組織的網站作為前 述個人意見之公開單位的裝置。 5 1 ·如申請專利範圍第40項之内容資訊分析系統,其更具 10 有: 用以分別分析多數包含有檢索關鍵字及跳躍目的 地URL之對内容資訊的檢索錄誌,並依存取數及檢索 關鍵子之種類數指定階層下包含有個人網頁之網站的 裝置;及 15 用以將關於業經指定之該網站之資訊登錄於前述 辭典中的裝置。 52.如申請專利範圍第4〇項之内容資訊分析系統,其更具 有: 用以分別分析多數包含有檢索關鍵字及跳躍目的 Z〇 地URL之對内容資訊的檢索錄誌,並依存取數及檢索 關鍵字之種類數指定企業網站的裝置;及 用以將關於業經指定之該企業網站之資訊登錄於 前述辭典中的裝置。 53·種内谷資訊分析系統,包含有: 58 1252987 申請專利範圍續頁 出個人意見之公 拾、申請專利麵-' ‘— 用以從已收集到之内容資訊中抽 開單位的裝置; 指定該個人意見之對象的裝置;及 決定該個人意見之公開單位之可#度的裝置。 5 54. 一種内容資訊分析系統,包含有: 取付展f係用以分別取得多數包含有檢索關鍵 字及跳躍目的地URL之對内容資訊的檢索錄諸者; 計算裝置,係用以遵循預定規則而對各跳躍目的 地URL計算存取數及檢索關鍵字之種類數者; 1〇 總計裝置,係用以對依狐之構造所指定之各網 站,總計包含於前述網站之階層下之跳躍目的地url 的存取數及檢索關鍵字之種類數者;及 判定裝[係用以依對前述網站所總計出之存取 數及檢索關鍵字之種類數,判定前述網站之種類者。 15 55.如中請專利範圍第54項之内容資訊分析系統,其中前 述取得裝置具有由儲存於代理祠月艮器之錄諸資料中, 產生包含有檢索關鍵字及跳躍目的地URL之多數錄祙 記錄的裝置。 " 56.如申請專利範圍第54項之内容資訊分析系統,其中前 20 述計算裝置包含有: 用以將檢索關鍵字正規化的裝置;及 用以當預定時間内包含有多數關於同一檢索關鍵 字之檢索錄誌時,删除最終檢索錄誌以外之檢索錄社 的裝置。 、^ 59 1252987 拾 If L—免 申請專利範 57. —種記錄媒體,係儲存用以使電腦實施内容資 處理之程式者,且該程式係用以使電腦執行以下步驟 者,即: 抽出步驟,係從已收集到之内容資訊中抽出個人 意見之公開單位; 對象指定步驟,係指定該個人意見之對象;及 評價指定步驟,係藉分析該個人意見之公開内容 而指定關於該對象之該個人的評價。 58· —種記錄媒體,係儲存用以使電腦實施内容資訊分析 處理之程式者,而該程式係用以使電腦執行以下步驟 者,即: 從已收集到之内容資訊中抽出個人意見之公開單 位的步驟; 指定該個人意見之對象的步驟;及 決定該個人意見之公開單位的可靠度的步驟。 一種記錄媒體,係儲存用以使電腦實施内容資訊分析 處理之程式者,而該程式係用以使電腦執行以下步驟 者,即: 取得步驟,係分別取得多數包含有檢索關鍵字及 跳躍目的地URL之對内容資訊的檢索錄誌; 計算步驟,係遵循預定規則而對各跳躍目的地 URL計算存取數及檢索關鍵字之種類數; 總計步驟,係對依URL之構造所指定之各網站, 總計包含於前述網站之階層下之跳躍目的地鳳的存 60 1252987拾、申請專利範圍 正替換負 rK 94 all 年· >}日
取數及檢索關鍵字之種類數;及 判定步驟,係依對前述網站所總計之存取數及檢 索關鍵字之種類數,判定前述網站之種類。 61
TW091132513A 2001-11-26 2002-11-04 Information analyzing method and system and recording medium TWI252987B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001359484 2001-11-26

Publications (2)

Publication Number Publication Date
TW200300532A TW200300532A (en) 2003-06-01
TWI252987B true TWI252987B (en) 2006-04-11

Family

ID=19170483

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091132513A TWI252987B (en) 2001-11-26 2002-11-04 Information analyzing method and system and recording medium

Country Status (9)

Country Link
US (1) US20030101166A1 (zh)
EP (2) EP2506169A3 (zh)
JP (1) JP4097602B2 (zh)
KR (2) KR100883261B1 (zh)
CN (1) CN100390786C (zh)
AU (1) AU2002343775B2 (zh)
CA (2) CA2648269C (zh)
TW (1) TWI252987B (zh)
WO (1) WO2003046764A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI457773B (zh) * 2011-09-28 2014-10-21
TWI615724B (zh) * 2012-12-13 2018-02-21 Alibaba Group Services Ltd 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188117B2 (en) * 2002-05-17 2007-03-06 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US7167871B2 (en) * 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
JP2004355069A (ja) * 2003-05-27 2004-12-16 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
GB2412196A (en) * 2004-03-19 2005-09-21 Envisional Technology Ltd System for monitoring sentiment on the internet
KR100469900B1 (ko) 2004-05-27 2005-02-03 엔에이치엔(주) 네트워크를 통한 커뮤니티 검색 서비스 시스템 및 그 방법
KR100462542B1 (ko) * 2004-05-27 2004-12-17 엔에이치엔(주) 신뢰성 있는 컨텐츠를 제공하는 컨텐츠 검색 시스템 및 그방법
JP2006053616A (ja) * 2004-08-09 2006-02-23 Kddi Corp サーバ装置、webサイト推奨方法およびプログラム
JP2006065395A (ja) * 2004-08-24 2006-03-09 Fujitsu Ltd ハイパーリンク生成装置、ハイパーリンク生成方法及びハイパーリンク生成プログラム
US7546323B1 (en) * 2004-09-30 2009-06-09 Emc Corporation System and methods for managing backup status reports
JP4148522B2 (ja) * 2004-11-19 2008-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現検出システム、表現検出方法、及びプログラム
JP2006277386A (ja) * 2005-03-29 2006-10-12 Nissan Motor Co Ltd 車両用情報提示装置、情報提示方法および情報提示システム
EP1770550A1 (en) * 2005-10-03 2007-04-04 Sony Ericsson Mobile Communications AB Method and electronic device for obtaining an evaluation of an electronic document
US7356767B2 (en) * 2005-10-27 2008-04-08 International Business Machines Corporation Extensible resource resolution framework
JP4612535B2 (ja) * 2005-12-02 2011-01-12 日本電信電話株式会社 正当サイト検証手法におけるホワイトリスト収集方法および装置
JP4542993B2 (ja) * 2006-01-13 2010-09-15 株式会社東芝 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
KR100818553B1 (ko) * 2006-08-22 2008-04-01 에스케이커뮤니케이션즈 주식회사 문서랭킹 부여방법 및 이를 수행할 수 있는 프로그램이수록된 컴퓨터로 읽을 수 있는 기록 매체
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
US9076148B2 (en) * 2006-12-22 2015-07-07 Yahoo! Inc. Dynamic pricing models for digital content
JP5008024B2 (ja) * 2006-12-28 2012-08-22 独立行政法人情報通信研究機構 風評情報抽出装置及び風評情報抽出方法
JP4806644B2 (ja) * 2007-03-15 2011-11-02 富士通株式会社 ジャンプ先サイト決定プログラム、記録媒体、ジャンプ先サイト決定方法、およびジャンプ先サイト決定装置
WO2008136421A1 (ja) 2007-04-27 2008-11-13 Nec Corporation 情報分析システム、情報分析方法及び情報分析用プログラム
EP2000934A1 (en) * 2007-06-07 2008-12-10 Koninklijke Philips Electronics N.V. A reputation system for providing a measure of reliability on health data
US8479010B2 (en) * 2008-03-07 2013-07-02 Symantec Corporation Detecting, capturing and processing valid login credentials
JP5084587B2 (ja) * 2008-03-31 2012-11-28 株式会社野村総合研究所 取引先リスク管理装置
US8082248B2 (en) * 2008-05-29 2011-12-20 Rania Abouyounes Method and system for document classification based on document structure and written style
CN101661487B (zh) * 2008-08-27 2012-08-08 国际商业机器公司 对信息项进行搜索的方法和系统
JP2010066891A (ja) * 2008-09-09 2010-03-25 Kansai Electric Power Co Inc:The 文書分類方法、及びシステム
US20100077317A1 (en) * 2008-09-21 2010-03-25 International Business Machines Corporation Providing Collaboration
WO2010036012A2 (ko) * 2008-09-23 2010-04-01 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템, 의견 검색 및 광고 서비스 시스템과 그 방법
KR101007284B1 (ko) * 2008-09-23 2011-01-13 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템 및 그 방법
US20100138361A1 (en) * 2008-10-22 2010-06-03 Mk Asset, Inc. System and method of security pricing for portfolio management system
TWI497426B (zh) * 2009-01-05 2015-08-21 一種監控網際網路資訊之方法及其相關的內儲程式之電腦可讀取紀錄媒體
US8515049B2 (en) * 2009-03-26 2013-08-20 Avaya Inc. Social network urgent communication monitor and real-time call launch system
JP5462590B2 (ja) * 2009-10-30 2014-04-02 楽天株式会社 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
JP5462591B2 (ja) * 2009-10-30 2014-04-02 楽天株式会社 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium
JP5454357B2 (ja) 2010-05-31 2014-03-26 ソニー株式会社 情報処理装置および方法、並びに、プログラム
CN101917456B (zh) * 2010-07-06 2012-10-03 杭州热点信息技术有限公司 一种内容聚合无线发布系统
EP2506157A1 (en) * 2011-03-30 2012-10-03 British Telecommunications Public Limited Company Textual analysis system
JP5768517B2 (ja) 2011-06-13 2015-08-26 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN102831127B (zh) * 2011-06-17 2015-04-22 阿里巴巴集团控股有限公司 重复数据处理方法、装置及系统
TWI464700B (zh) * 2011-10-31 2014-12-11 Univ Ming Chuan 信用違約預測方法與裝置
KR101494655B1 (ko) * 2011-11-28 2015-02-25 세종대학교산학협력단 소셜 네트워크 서비스 데이터 기반 특정 기관의 순위 계산 방법 및 그 장치
CN103279275B (zh) 2012-01-20 2016-08-31 宏达国际电子股份有限公司 分析文档内容的方法及手持式电子装置
US9418389B2 (en) 2012-05-07 2016-08-16 Nasdaq, Inc. Social intelligence architecture using social media message queues
US10304036B2 (en) 2012-05-07 2019-05-28 Nasdaq, Inc. Social media profiling for one or more authors using one or more social media platforms
CN103714086A (zh) * 2012-09-29 2014-04-09 国际商业机器公司 用于生成非关系数据库的模式的方法和设备
US20140195297A1 (en) * 2013-01-04 2014-07-10 International Business Machines Corporation Analysis of usage patterns and upgrade recommendations
US20140223051A1 (en) * 2013-02-07 2014-08-07 Andes Technology Corporation Information collection system
US10529013B2 (en) * 2013-07-01 2020-01-07 Intuit Inc. Identifying business type using public information
JP5930217B2 (ja) 2013-10-03 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム
WO2015182559A1 (ja) * 2014-05-29 2015-12-03 日本電信電話株式会社 情報分析システム、情報分析方法及び情報分析プログラム
CN104778246A (zh) * 2015-04-10 2015-07-15 浪潮集团有限公司 一种网页信息获取方法和装置
JP6186519B2 (ja) * 2015-05-27 2017-08-23 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
US10409844B2 (en) * 2016-03-01 2019-09-10 Ching-Tu WANG Method for extracting maximal repeat patterns and computing frequency distribution tables
KR102138939B1 (ko) * 2020-02-24 2020-07-29 네오시스템즈(주) 빅데이터를 활용한 업체 평판 자동검증 및 평가시스템
JP2022021099A (ja) * 2020-07-21 2022-02-02 ソニーグループ株式会社 情報処理プログラム、情報処理装置および情報処理方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
JPH10289250A (ja) * 1997-04-11 1998-10-27 Nec Corp Wwwブラウザにおけるurl登録及び表示方式
US6055540A (en) 1997-06-13 2000-04-25 Sun Microsystems, Inc. Method and apparatus for creating a category hierarchy for classification of documents
US6865715B2 (en) 1997-09-08 2005-03-08 Fujitsu Limited Statistical method for extracting, and displaying keywords in forum/message board documents
JPH11143912A (ja) * 1997-09-08 1999-05-28 Fujitsu Ltd 関連文書表示装置
US5960429A (en) * 1997-10-09 1999-09-28 International Business Machines Corporation Multiple reference hotlist for identifying frequently retrieved web pages
JP2951307B1 (ja) 1998-03-10 1999-09-20 株式会社ガーラ 電子掲示板システム
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JP3665480B2 (ja) 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
JP2000028617A (ja) * 1998-07-14 2000-01-28 Horiba Ltd 分析システム
US6553347B1 (en) * 1999-01-25 2003-04-22 Active Point Ltd. Automatic virtual negotiations
AU4712601A (en) * 1999-12-08 2001-07-03 Amazon.Com, Inc. System and method for locating and displaying web-based product offerings
US7225181B2 (en) 2000-02-04 2007-05-29 Fujitsu Limited Document searching apparatus, method thereof, and record medium thereof
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
JP2001306587A (ja) * 2000-04-27 2001-11-02 Fujitsu Ltd 情報検索装置、情報検索方法、及び記憶媒体
JP2002202984A (ja) 2000-11-02 2002-07-19 Fujitsu Ltd ルールベースモデルに基づくテキスト情報自動分類装置
JP2002279047A (ja) * 2001-01-09 2002-09-27 Zuken:Kk 電子掲示板監視システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI457773B (zh) * 2011-09-28 2014-10-21
TWI615724B (zh) * 2012-12-13 2018-02-21 Alibaba Group Services Ltd 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置

Also Published As

Publication number Publication date
AU2002343775C1 (en) 2003-06-10
KR100953238B1 (ko) 2010-04-16
KR20040053369A (ko) 2004-06-23
CN100390786C (zh) 2008-05-28
CN1559044A (zh) 2004-12-29
CA2648269C (en) 2014-07-15
CA2460538A1 (en) 2003-06-05
US20030101166A1 (en) 2003-05-29
WO2003046764A1 (fr) 2003-06-05
CA2460538C (en) 2010-05-18
JPWO2003046764A1 (ja) 2005-04-14
JP4097602B2 (ja) 2008-06-11
KR20090006875A (ko) 2009-01-15
CA2648269A1 (en) 2003-06-05
EP2506169A3 (en) 2013-10-16
TW200300532A (en) 2003-06-01
EP1450268A4 (en) 2008-01-16
AU2002343775A1 (en) 2003-06-10
KR100883261B1 (ko) 2009-02-10
AU2002343775B2 (en) 2006-11-16
EP2506169A2 (en) 2012-10-03
EP1450268A1 (en) 2004-08-25

Similar Documents

Publication Publication Date Title
TWI252987B (en) Information analyzing method and system and recording medium
JP5105802B2 (ja) 情報処理装置
Adamic et al. Friends and neighbors on the web
US7814043B2 (en) Content information analyzing method and apparatus
US9779094B2 (en) Systems and methods for tagging emails by discussions
US6182067B1 (en) Methods and systems for knowledge management
JP5702555B2 (ja) デジタル資産管理、ターゲットを定めたサーチ、及びデジタル透かしを使用するデスクトップサーチ
JP5536851B2 (ja) 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム
JP5398413B2 (ja) 銘柄推奨システム及び銘柄推奨プログラム
US20100262597A1 (en) Method and system for searching information of collective emotion based on comments about contents on internet
US20080104034A1 (en) Method For Scoring Changes to a Webpage
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
CN112270579A (zh) 一种基于大数据的智能广告系统
JP5447484B2 (ja) 情報処理装置
JP2003256452A (ja) 所属情報を利用した文書の参照方法
US11593415B1 (en) Decision making analysis engine
JP3847977B2 (ja) 情報検索方法および情報検索装置および記録媒体
Ye et al. Clustering web pages about persons and organizations
JP2002007427A (ja) 検索式登録方式を備えた知的財産情報管理システムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
AU2006203729B2 (en) Information analyzing method and apparatus

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees