TWI643080B - 能對網路資料進行解析並據以模擬特定對象之方法 - Google Patents
能對網路資料進行解析並據以模擬特定對象之方法 Download PDFInfo
- Publication number
- TWI643080B TWI643080B TW106115274A TW106115274A TWI643080B TW I643080 B TWI643080 B TW I643080B TW 106115274 A TW106115274 A TW 106115274A TW 106115274 A TW106115274 A TW 106115274A TW I643080 B TWI643080 B TW I643080B
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- response
- simulation server
- comparison
- analytic
- Prior art date
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本發明係一種能對網路資料進行解析並據以模擬特定對象之方法,係應用於一模擬伺服器上,當該模擬伺服器接收到一選擇指令時,其能針對選擇指令所對應之特定對象(如:歌手伍佰),於網路上蒐集資料,並根據一解析資料庫,解析出複數個關鍵詞及對應之解析屬性,且將解析後之資料存入一回應詞庫中,分別形成一回應資料,嗣,當模擬伺服器接收到一聊天訊息時(如:「伍佰何時有演唱會?」),亦能將該聊天訊息解析成一比對資料,且比對及判斷各該回應資料中,與該比對資料相似度最高者,並據以模擬生成一回應訊息(如:「在五月三十日喔」)。
Description
本發明係一種能對網路資料進行解析並據以模擬特定對象之方法,尤指令一模擬伺服器針對特定對象,於網路上蒐集資料後,能先解析出複數個關鍵詞及對應之解析屬性,以儲存成回應詞庫內之一回應資料,嗣,在該模擬伺服器後續接收到一聊天訊息時,即可亦由該聊天訊息中解析出一比對資料,並判斷出與該比對資料相似度最高之回應資料,進而生成一回應訊息之方法。
按,在智慧型手機越來越普及的今天,「即時通訊軟體」已成為人們生活中不可或缺的重要聯絡工具,舉凡是聯絡感情、傳輸電子檔案、語音通話、多方會議等,皆能透過即時通訊軟體便利地實現,而時下的即時通訊軟體更是百家爭鳴,常見的包括Line、微信、Skype、M+、Whatsapp、WeChat…等,這類即時通訊軟體(在行動裝置上以APP稱呼)的開發業者,為了能爭取到更多用戶、提昇市占率,無不絞盡腦汁,期能開發出更多有別於其他業者的獨有技術及使用體驗,以在激烈的市場競爭中佔得先機。
發明人在長期開發雲端服務及網路交流技術的過程中,發現有越來越多的公眾人物(如:藝人、政治人物、運動員、企業家等)開始
經營個人的社群網頁(如:臉書、推特、部落格等),但由於公眾人物大多過於繁忙,難以獨立經營該社群網頁,故,必須透過一管理團隊來經營社群網頁,意即,當網友於該公眾人物的社群網頁中發送訊息時,若該公眾人物無暇回應,則該管理團隊將會使用該公眾人物的帳號,代為回覆。由於該管理團隊與公眾人物間合作密切,瞭解該公眾人物的喜好、行程與習慣,因此,網友並無法輕易地判斷出回覆者為何,而該社群網頁則能成為該公眾人物對外發聲、宣傳的另一個管道。
發明人乃進而思及,既然公眾人物能透過管理團隊經營社群網頁,那在人工智慧技術越來越發達的現今,是否能在即時通訊軟體中,設計出一種自動模擬公眾人物或特定角色(如:電玩遊戲中的虛擬角色)的功能,以增加趣味性及宣傳效果?因此,如何設計出一種嶄新流程,以實現前述功能目的,即成為本發明在此亟欲解決的重要課題。
有鑑於時下人工智慧技術的蓬勃發展,以及各公眾人物有宣傳需求、一般民眾又有著嚮往與公眾人物互動的趨勢,發明人憑藉著多年來的實務經驗,經過多次的研究、測試與改良後,終於設計出本發明之一種能對網路資料進行解析並據以模擬特定對象之方法,期能有效實現前述各種需求功能。
本發明之一目的,係提供一種能對網路資料進行解析並據以模擬特定對象之方法,係應用於一網路系統上,該網路系統包括一模擬伺服器及至少一終端裝置,該模擬伺服器內設有一解析資料庫及一回應詞庫,該解析資料庫內設有複數個解析屬性,該回應詞庫內則儲存有複數個
關鍵詞及至少一句型資料,該模擬伺服器能根據該等關鍵詞及句型資料,組合出一訊息;該終端裝置能透過網際網路,連線至該模擬伺服器,該方法係使該模擬伺服器執行下列步驟:接收該終端裝置傳來之一選擇指令,該選擇指令係對應至一特定對象(如:「歌手伍佰」);根據該特定對象,於網際網路中蒐集複數筆關於該特定對象之原始資料(如:臉書文章、推特訊息或部落格文章等),各該原始資料係對應於該特定對象,且包括至少一筆文字檔案;對該文字檔案進行解析,以從該文字檔案中解析出複數個解析詞;將各該解析詞分別對應至該解析資料庫內之各該解析屬性;將該等解析詞儲存為該回應詞庫之關鍵詞,且該等關鍵詞及其解析屬性能形成一筆回應資料;嗣,當該模擬伺服器進一步接收到該終端裝置傳來之一聊天訊息時,將能對該聊天訊息進行解析,以解析出複數個詢問詞,並判斷該等詢問詞中包括之複數個該關鍵詞及對應之解析屬性,以形成一比對資料;比對及判斷該比對資料與各該回應資料內之關鍵詞的相似度,並選擇相似度大於一設定值者,作為模擬該聊天訊息中特定對象之回應資料;根據該回應資料,產生一回應訊息,並將該回應訊息回傳給該終端裝置。如此,透過前述資料整理、解析與判斷等步驟,即能將該特定對象之資料整理為模擬其發文的語氣、風格及背景,與該終端裝置之使用者進行交流,或為該特定對象進行宣傳。
為便 貴審查委員能對本發明之技術特徵、運作方式及其目的有更進一步的認識與理解,茲舉實施例配合圖式,詳細說明如下:
無
1‧‧‧網路系統
10‧‧‧網際網路
11‧‧‧模擬伺服器
12‧‧‧終端裝置
13‧‧‧雲端解析平台
D1‧‧‧解析資料庫
D11‧‧‧解析屬性
D2‧‧‧回應詞庫
D20‧‧‧回應資料
D21‧‧‧關鍵詞
D22‧‧‧句型資料
D3‧‧‧自然語言處理模組
201~211‧‧‧步驟
第1圖係本發明之方法所應用之網路系統示意圖;第2A圖係本發明之方法「建構資料庫」之流程圖;及第2B圖係本發明之方法「產生回應訊息」之流程圖。
本發明係一種能對網路資料進行解析並據以模擬特定對象之方法,請參閱第1圖所示,係本發明所應用之網路系統1示意圖,該網路系統1包括一模擬伺服器11及至少一終端裝置12,該模擬伺服器11內至少設有一解析資料庫D1及一回應詞庫D2,其中,該解析資料庫D1與回應詞庫D2係可儲存於不同的主機中,且該回應詞庫D2尚可根據內部資料類型的差異,區分為多個子資料庫,合先陳明。
在本發明之第一較佳實施例中,該解析資料庫D1內設有複數個解析屬性D11,例如:人名、地名、時間、地點、疑問語氣、肯定語氣…等;該回應詞庫D2內則儲存有複數個關鍵詞D21(如:伍佰、歌手、專輯)及至少一句型資料D22(如:主詞+動詞+受詞、主詞+形容詞+驚嘆語氣,或者一句型模擬程式),該模擬伺服器11能根據該等關鍵詞D21及句型資料D22,組合出一訊息(如:「我是伍佰,你好!」),該關鍵詞D21的產生方式將於後文詳述。
該終端裝置12能透過網際網路10,連線至該模擬伺服器11,且能與該模擬伺服器11進行訊息傳輸,在本實施例中,該模擬伺服器11可為一即時通訊軟體的伺服器,意即,該模擬伺服器11能產生一訊息資料予該終端裝置12,使該終端裝置12上能顯示出一訊息畫面,但本發明之應用層面並不以此為限。
本發明之方法主要可分為兩大階段:「建構資料庫」及「產生回應訊息」,茲分別說明如下:(201)首先,該模擬伺服器11係先接收該終端裝置12傳來之一選擇指令,且該選擇指令係對應至一特定對象(如:知名藝人或遊戲中的虛擬角色),舉例而言:選擇模擬的特定對象為「伍佰」(歌手,本名吳俊霖);(202)該模擬伺服器11能根據該特定對象,於網際網路10中蒐集複數筆關於該特定對象之原始資料,蒐集方式可透過一爬文程式,下載該特定對象的臉書動態、對話記錄、部落格文章…等原始資料,各該原始資料係對應於該特定對象,且包括至少一筆文字檔案,以下為原始資料之一種範例:
(203)嗣,該模擬伺服器11會對蒐集到之每一筆文字檔案進行解析,以從該文字檔案中解析出複數個解析詞(例如:伍佰、五月三十號、小巨蛋、演唱會),解析方式可利用網路上現成的雲端解析平台13,或在模擬伺服器11內建一解析程式,由於文意的解析與分析皆為現有技術,故在此即不深入說明其運作原理;(204)在解析出解析詞後,該模擬伺服器11尚能將各該解析詞分別對應至該解析資料庫D1內之各該解析屬性D11,如下範例所示:
(205)該模擬伺服器11將該等解析詞儲存為該回應詞庫D2內之一筆關鍵詞D21,且該等關鍵詞D21及其解析屬性D11能形成一筆回應資料D20,在此所謂之「回應資料」,係根據同一筆原始資料解析而出,意即,不同的原始資料,解析後將會儲存為不同的回應資料D20,如下範例所示:
前述(201)~(205)即為「建構資料庫」之步驟流程,茲進一步描述「產生回應訊息」之步驟如下:(206)該模擬伺服器11接收該終端裝置12傳來之一聊天訊息,例如:
(207)嗣,該模擬伺服器11能對該聊天訊息進行解析,以解析出複數個詢問詞;(208)判斷該等詢問詞中包括之複數個該關鍵詞及對應之解析屬性D11,以形成一比對資料,其判斷方式眾多,業者可依不同應用對
象進行微調,例如:先判斷詢問詞是否對應於關鍵詞?或先判斷詢問詞是否屬於任一解析屬性D11?以關鍵詞「伍佰,對應於人名」為例,即便聊天訊息內的文字為「吳俊霖」,經比對後,仍能正確對應於解析屬性D11「人名」(此處之「人名」係指一特定人物,而非任一種姓名),舉例而言:
(209)比對及判斷該比對資料與各該回應資料內之關鍵詞的相似度,若相似度大於一設定值(如:回應資料與比對資料中關鍵詞有75%相同),則進入步驟(210),否則,顯示「無法解析」之訊息,或重新進行第二次解析(將於後文詳述);(210)選擇相似度大於設定值之回應資料(若超過一筆,則選擇相似度最高者),者,作為模擬該聊天訊息中特定對象(如:「伍佰」)之回應資料D20,並根據該回應資料D20,產生一回應訊息(如:「『伍佰』演唱會將在五月三十舉行」);及(211)將該回應訊息回傳給該終端裝置12。
如此,透過前述「建構資料庫」及「產生回應訊息」之步驟,即能不斷地在網際網路10蒐集、解析並整理該特定對象中發布的資料,作為模擬其人風格的資料庫,提供該終端裝置12之使用者一趣味的模擬功能,使其彷彿能單獨地與該特定對象對話,而對該特定對象而言,本發明之功能亦具有宣傳行銷之效果。
為了提昇模擬程度,該模擬伺服器的業者亦可主動輸入資料,儲存為該回應資料D20,且業者亦可以「問與答」的方式建立該回應資
料,例如:將「哈囉(對應於招呼語)」、「!(對應於驚嘆語氣)」、「你好啊(對應於招呼語)」、「吃飽(對應於招呼語)」等資料儲存為一筆回應資料,如此,當該終端裝置12之使用者傳送「哈囉!」時,該模擬伺服器11將能根據該筆回應資料D20及句型資料D22,產生「你好啊!吃飽了嗎?」的回應訊息。
此外,前述實施例係以公眾人物為例,但本發明亦可應用於虛擬角色上,例如遊戲角色「巫妖王」,該模擬伺服器11可於網際網路10中蒐集「巫妖王」的遊戲台詞及背景輸入(亦可由業者主動輸入),此外,該模擬伺服器11亦可將爬文程式設定為蒐集「網站討論區中,標題包括巫妖王」的文章,整理後作為原始資料。
為便於理解,茲詳細說明本發明進行解析時的幾種方式如後,在本實施例中,該模擬伺服器11在解析出比對資料後,若該回應詞庫D2內之所有回應資料D20與該比對資料間的相似度皆小於該設定值,此時,即代表該模擬伺服器11自身無法精確解析該聊天訊息,故,該模擬伺服器11能將該聊天訊息上傳至該雲端解析平台13(例如:雲端人工智能學習平台網站Microsoft Azure、api.ai、Wit.ai等),以透過該雲端解析平台13,重新進行解析,以取得另一組比對資料;嗣,該模擬伺服器11能將該另一比對資料與該回應詞庫D2進行第二次比對,並選擇相似度大於該設定值的回應資料D20,產生該回應訊息。
例如,當聊天訊息為「伍佰何時開唱?」時,由於該模擬伺服器11可能無法辨識出「開唱」一詞,而僅解析出「伍佰(對應於人名)、何時(對應於語氣)」故,此時該模擬伺服器11將能改透過雲端解析平台13,
解析出其屬性為「活動」,此時再傳到回應詞庫D2做第二次比對,生成一回應訊息「五月三十號有演唱會喔」。
承上,該模擬伺服器11內尚設有一自然語言處理(Natural Language Processing,簡稱NLP)模組D3,若在前述第二次解析後,該回應詞庫D2內之所有回應資料與該另一比對資料間的相似度仍然皆小於該設定值,此時,該模擬伺服器11將透過該自然語言處理模組D3,重新對該聊天訊息進行解析,以取得又一組比對資料;嗣,該模擬伺服器11能將該又一比對資料與該回應詞庫D2進行第三次比對,並選擇相似度大於該設定值的回應資料D20,產生該回應訊息。
舉例而言,當聊天訊息為「伍佰何時再來小巨蛋?」時,由於該模擬伺服器11及雲端解析平台13可能皆無法辨識出「再來」一詞,而僅解析出「伍佰(對應於人名)、何時(對應於語氣)、小巨蛋(地點)」,故,此時該模擬伺服器11將能改透過內部的自然語言模組,強制解析出一個可能的屬性(如:行程、活動、加強語氣),並傳到回應詞庫D2,選擇相似度最高的資料生成回應訊息。
又,該模擬伺服器11尚能在網際網路10中搜尋一對話資料,該對話資料係由至少二筆相對應之文字檔案構成(如:伍佰粉絲頁經營者與粉絲的互動對話紀錄),且其中一筆文字檔案係由該特定對象發布,該模擬伺服器11能對該對話資料進行解析,並根據解析出之關鍵詞及對應之解析屬性,儲存為該回應詞庫D2內之一筆回應資料D20。
此外,在該模擬伺服器11對該解析詞或該詢問詞進行解析時,該模擬伺服器11除會判斷該解析詞或該詢問詞所對應之解析屬性外,
尚會計算出一權重值(如:介於0~1間的數值),權重值越大,代表該模擬伺服器11判斷該解析詞或該詢問詞與解析屬性間的匹配程度越高,當該權重值小於一判斷門檻(如:0.6)的情況下,該模擬伺服器11係將該解析詞或該詢問詞視為無法解析,而不儲存為回應資料或對比資料。
在前述實施例中,該模擬伺服器11係由原始資料中取得至少一文字資料,惟,該模擬伺服器11係由原始資料中取得圖片檔案、網頁連結或影音資料,以檔案的形式存入回應詞庫D2中,或者存入該模擬伺服器11內之一推播訊息庫中,使該模擬伺服器11能不定時地將圖片檔案、網頁連結或影音資料傳送給該終端裝置12。
以上所述,僅為本發明之若干較佳實施例,惟,本發明之技術特徵並不以此為限,凡相關技術領域之人士,在參酌本發明之技術內容後,所能輕易思及之等效變化,均應不脫離本發明之保護範疇。
Claims (4)
- 一種能對網路資料進行解析並據以模擬特定對象之方法,係應用於一網路系統上,該網路系統包括一模擬伺服器及至少一終端裝置,該模擬伺服器內設有一解析資料庫及一回應詞庫,該解析資料庫內設有複數個解析屬性,該回應詞庫內則儲存有複數個關鍵詞及至少一句型資料,該模擬伺服器能根據該等關鍵詞及句型資料,組合出一訊息;該終端裝置能透過網際網路,連線至該模擬伺服器,該方法係使該模擬伺服器執行下列步驟:接收該終端裝置傳來之一選擇指令,該選擇指令係對應至一特定對象;根據該特定對象,於網際網路中蒐集複數筆關於該特定對象之原始資料與一對話資料,其中,各該原始資料係對應於該特定對象,且包括至少一筆文字檔案,該對話資料係由至少二筆相對應之文字檔案構成;對前述該等文字檔案進行解析,以從前述該等文字檔案中解析出複數個解析詞;將各該解析詞分別對應至該解析資料庫內之各該解析屬性;將該等解析詞儲存為該回應詞庫之關鍵詞,且該等關鍵詞及其解析屬性能形成一筆回應資料;接收該終端裝置傳來之一聊天訊息;對該聊天訊息進行解析,以解析出複數個詢問詞,並判斷該等詢問詞中包括之複數個該關鍵詞及對應之解析屬性,以形成一比對資料;比對及判斷該比對資料與各該回應資料內之關鍵詞的相似度,並選擇相似度大於一設定值者,作為模擬該聊天訊息中特定對象之回應資料;及根據該回應資料,產生一回應訊息,並將該回應訊息回傳給該終端裝置。
- 如請求項1所述之方法,其中,在該回應詞庫內之所有回應資料與該比對資料間的相似度皆小於該設定值的情況下,該模擬伺服器能將該聊天訊息上傳至一雲端解析平台,以透過該雲端解析平台,重新進行解析,以取得另一組比對資料;嗣,該模擬伺服器能將該另一組比對資料與該回應詞庫進行第二次比對。
- 如請求項2所述之方法,其中,該模擬伺服器內尚設有一自然語言處理模組,在該回應詞庫內之所有回應資料與該另一組比對資料間的相似度皆小於該設定值的情況下,該模擬伺服器能透過該自然語言處理模組,重新進行解析,以取得又一組比對資料;嗣,該模擬伺服器能將該又一組比對資料與該回應詞庫進行第三次比對。
- 如請求項1至3任一項所述之方法,其中,在該模擬伺服器對該解析詞或該詢問詞進行解析時,該模擬伺服器除會判斷該解析詞或該詢問詞所對應之解析屬性外,尚會計算出一權重值,且在該權重值小於一判斷門檻的情況下,該模擬伺服器係將該解析詞或該詢問詞視為無法解析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106115274A TWI643080B (zh) | 2017-05-09 | 2017-05-09 | 能對網路資料進行解析並據以模擬特定對象之方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106115274A TWI643080B (zh) | 2017-05-09 | 2017-05-09 | 能對網路資料進行解析並據以模擬特定對象之方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI643080B true TWI643080B (zh) | 2018-12-01 |
TW201901487A TW201901487A (zh) | 2019-01-01 |
Family
ID=65431895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106115274A TWI643080B (zh) | 2017-05-09 | 2017-05-09 | 能對網路資料進行解析並據以模擬特定對象之方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI643080B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100198869A1 (en) * | 2009-02-02 | 2010-08-05 | Yahoo! Inc. | System and method for communal search |
TW201433927A (zh) * | 2013-02-22 | 2014-09-01 | Microsoft Corp | 通訊式搜尋 |
CN105630917A (zh) * | 2015-12-22 | 2016-06-01 | 成都小多科技有限公司 | 智能应答方法及装置 |
CN105893465A (zh) * | 2016-03-28 | 2016-08-24 | 北京京东尚科信息技术有限公司 | 自动问答方法和装置 |
-
2017
- 2017-05-09 TW TW106115274A patent/TWI643080B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100198869A1 (en) * | 2009-02-02 | 2010-08-05 | Yahoo! Inc. | System and method for communal search |
TW201433927A (zh) * | 2013-02-22 | 2014-09-01 | Microsoft Corp | 通訊式搜尋 |
CN105630917A (zh) * | 2015-12-22 | 2016-06-01 | 成都小多科技有限公司 | 智能应答方法及装置 |
CN105893465A (zh) * | 2016-03-28 | 2016-08-24 | 北京京东尚科信息技术有限公司 | 自动问答方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
TW201901487A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10567329B2 (en) | Methods and apparatus for inserting content into conversations in on-line and digital environments | |
Kiseleva et al. | Understanding user satisfaction with intelligent assistants | |
US8285654B2 (en) | Method and system of providing a personalized performance | |
US20210150150A1 (en) | Method and apparatus for intelligent automated chatting | |
US20200137001A1 (en) | Generating responses in automated chatting | |
US20150254349A1 (en) | System and Method for Providing Content in Real-Time | |
JP2017153078A (ja) | 人工知能学習方法、人工知能学習システムおよび返答中継方法 | |
KR20160055930A (ko) | 연속적인 소셜 커뮤니케이션에 사용되는 콘텐츠를 능동적으로 구성하기 위한 시스템 및 방법 | |
CN103917968A (zh) | 用于管理具有交互式评论流的评论网络的系统和方法 | |
CN106503907B (zh) | 一种业务评估信息确定方法以及服务器 | |
WO2022052817A1 (zh) | 搜索处理方法、装置、终端及存储介质 | |
CN108874789B (zh) | 语句的生成方法、装置、存储介质和电子装置 | |
WO2018157329A1 (en) | Providing content | |
Hong et al. | Tower of babel: A crowdsourcing game building sentiment lexicons for resource-scarce languages | |
CN107391524A (zh) | 增强消息交换话题 | |
Sari et al. | Chatbot developments in the business world | |
JP2009116519A (ja) | 自分史制作装置 | |
CN116775815B (zh) | 对话数据的处理方法、装置、电子设备及存储介质 | |
TWI643080B (zh) | 能對網路資料進行解析並據以模擬特定對象之方法 | |
Caulfield | A social network analysis of Irish language use in social media | |
Li et al. | Twitter sentiment analysis of the 2016 US Presidential Election using an emoji training heuristic | |
Packham | Crowdsourcing a text corpus for a low resource language | |
Щербакова et al. | English for computer users | |
CN114237460B (zh) | 标签显示方法、装置、终端、存储介质及计算机程序产品 | |
Park et al. | Suggested social media big data consulting chatbot service for restaurant start-ups |