TWI615725B

TWI615725B - 詞組向量產生裝置及其操作方法

Info

Publication number: TWI615725B
Application number: TW105139399A
Authority: TW
Inventors: 呂承諭; 施晨揚; 邱建晴
Original assignee: 優像數位媒體科技股份有限公司
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2018-02-21
Also published as: TW201822027A

Abstract

本發明係揭露一種詞組向量產生裝置及其操作方法，此詞組向量產生裝置係包含一斷詞產生單元、x個濾波器以及一處理單元。斷詞產生單元係用以解析標記式語言資料並針對此標記式語言資料循序產生n個關鍵詞。每一x個濾波器係用以輸入n個關鍵詞，並對此n個關鍵詞進行分群以產生k個詞組，再對此k個詞組進行運算以分別產生k個輸出數值。處理單元係從每一x個濾波器內選擇相對於每一k個詞組之輸出數值，以形成維度大小為k*x之詞組向量。

Description

詞組向量產生裝置及其操作方法

本發明是有關於一種詞組向量產生裝置，特別是有關於一種能針對標記式語言資料而產生詞組向量之裝置以及操作此詞組向量產生裝置之方法。

由於電腦科技的日新月異，人們一直不斷地在思考如何利用電腦來增進日常生活上的便利性，也進而研究出了些許可以幫助人們改善生活品質的新技術或產品，例如，利用大數據(Big Data)的技術來尋找使用者感興趣或是隱藏於資料中的有用資訊。而電腦雖然可以幫助人類解決許多複雜的計算問題，但其前提是人們必須先輸入資料至電腦中，並須設法使這些資料成為電腦所能判讀的數位資料，才能讓電腦進行後續的計算及判斷工作。

舉例來說，當人們想要使用電腦來剖析一標記式語言資料，如HTML，的內容時，由於一般的標記式語言資料會包含標籤、內文、圖片等等，電腦必須先設法將此標記式語言資料轉化成其可以有效判讀的方式，而在判讀的方式中，標籤可以利用判斷”<”及”>”之符號來得到，但內文及圖片對於電腦而言僅是一段二進制的編碼，極難從其中產生一種有效判讀的方式。而現有的方式包含利用關鍵字的搜尋比對來進行標記式語言資料的判讀，然而此種方式將無法包含所有內文中的文字，再加上由於中文字的詞義變化極多，單純使用關鍵字的比對方式將會導致部份的語義遺失，進而可能遺失此標記式語言中的重要資訊。

因此，如何能夠從標記式語言資料中擷取到完整的資訊並能有效的判斷這些所擷取到的資訊並加以運算，便成為一個極為重要且急迫的問題。

有鑑於上述習知技藝之問題，本發明之目的就是在提供一種詞組向量產生裝置及其操作方法，以解決上述之問題。

基於上述目的，本發明係提供一種操作方法，其適用於解析一標記式語言資料之一詞組向量產生裝置，此詞組向量產生裝置包含一斷詞產生單元、x個濾波器及一處理單元。

本發明之操作方法包含下列步驟：使用斷詞產生單元對標記式語言資料循序產生n個關鍵詞。輸入n個關鍵詞至每一x個濾波器。利用每一x個濾波器對n個關鍵詞進行分群以產生k個詞組。由每一x個濾波器對k個詞組進行運算以分別產生k個輸出數值。從每一x個濾波器內選擇相對於每一k個詞組之輸出數值，以形成維度大小為k*x之詞組向量。

較佳地，每一k個詞組係具有相同數量之關鍵詞。

較佳地，當每一k個詞組之大小為p時，k=n-p+1。

較佳地，處理單元包含一中央處理器或是一微控制器。

較佳地，n個關鍵詞係包含圖片之圖片連結及文章之文章斷詞。

基於上述目的，本發明再提供一種詞組向量產生裝置，其適用於一標記式語言資料，此標記式語言資料係包含一文章及一圖片，此詞組向量產生裝置係包含一斷詞產生單元、x個濾波器以及一處理單元。斷詞產生單元係用以解析標記式語言資料並針對此標記式語言資料循序產生n個關鍵詞。每一x個濾波器係用以輸入n個關鍵詞，並對此n個關鍵詞進行分群以產生k個詞組，再對此k個詞組進行運算以分別產生k個輸出數值。處理單元係從每一x個濾波器內選擇相對於每一k個詞組之輸出數值，以形成維度大小為k*x之詞組向量。

較佳地，每一k個詞組係具有相同數量之關鍵詞。

較佳地，當每一k個詞組之大小為p時，k=n-p+1。

較佳地，處理單元包含一中央處理器或是一微控制器。

承上所述，依本發明之詞組向量產生裝置及其操作方法，其可具有一或多個下述優點：

(1)本發明可有效地將標記式語言資料內的文字及圖片轉化為詞組向量，進而提供後續之語義處理，如利用此詞組向量來進行標記式語言資料內詞與詞的相似度分析。

(2)本發明可有效地將標記式語言資料內的所有文字及圖片轉化為維度為x的詞組向量，以涵蓋所有標記式語言資料內的所有訊息，使其在電腦中進行後續處理時，不致於有遺漏部份內文的情形發生。

100‧‧‧詞組向量產生裝置

50‧‧‧標記式語言資料

10‧‧‧斷詞產生單元

22‧‧‧輸出數值

20‧‧‧濾波器

11‧‧‧關鍵詞

30‧‧‧處理單元

31‧‧‧詞組向量

21‧‧‧詞組

51‧‧‧文章

52‧‧‧圖片

S11~S15‧‧‧流程步驟

第1圖係為本發明之詞組向量產生裝置之方塊圖。

第2圖係為本發明之詞組向量產生裝置之操作方法之流程圖。

請參閱第1圖，其係為本發明之詞組向量產生裝置之方塊圖。如圖所示，本發明之詞組向量產生裝置100係適用於一標記式語言資料50，其中此標記式語言資料50可包含一文章51及一圖片52，且此標記式語言資料50可以以一HTML或為一XML檔案來舉例實施。在本發明中，詞組向量產生裝置100可包含一斷詞產生單元10、x個濾波器20以及一處理單元30。其中此斷詞產生單元10及濾波器20可以為一軟體應用程式，處理單元30可以為一中央處理器或是一微控制器，而詞組向量產生裝置100可以以一電腦主機、一平板或是一筆記型電腦來舉例實施。

斷詞產生單元10係用以解析標記式語言資料50並針對此標記式語言資料50以循序產生n個關鍵詞11。進一步地說明，此斷詞產生單元10可先讀取標記式語言資料50內之文章內容及圖片連結，並將此文章內容進行斷詞，在此處，我們將文章斷詞及圖片連結一併設為關鍵詞11，其中此圖片連結表示圖片之存放空間。

值得一提的是，標記式語言資料50亦包含由符號”<”及”>”及其中文字所組成之標籤(tag)，然此標籤可透過辨識符號”<”及”>”來輕易擷取出來，故在本發明中，此標籤將不會進行處理，而僅針對標記式語言資料50內的文章51及圖片52進行處理。

接著，由x個濾波器20個別地輸入此n個關鍵詞11，並對此n個關鍵詞11進行分群以產生k個詞組21，之後，由每一個濾波器20將此k個詞組21進行運算以分別產生k個輸出數值22。詳細地來說，每一個濾波器20所能處理的關鍵詞11個數須為固定且相同，故當n個關鍵詞11輸入至這些濾波器20之後，若每一濾波器20所能處理的關鍵詞11個數為p時，則每一個詞組21之大小亦為p，即每一個詞組21內可包含p個關鍵詞11，其中k=n-p+1。

舉例來說，假設有100個關鍵詞11分別輸入至128個濾波器20內時，若每一個濾波器20所能處理的關鍵詞11個數為3，則此時所產生的每一個詞組21之大小亦為3，即每一個詞組21內將包含3個關鍵詞11，且每一個濾波器20所產生詞組個數均為98，且每一濾波器20將會對每一個詞組21進行運算以分別產生輸出數值22，其中在濾波器20內計算詞組21以產生輸出數值22之計算方式為其相關領域中具有通常知識所熟知，故此處不再進行贅述。

接著，處理單元30可在x個濾波器20內選擇相對於k個詞組21之輸出數值22，以形成維度大小為k*x之詞組向量31。詳細地說，此x個濾波器20均會對每一詞組21產生對應的一輸出數值22，而詞組向量31內每一詞組21之輸出數值22即為x 個濾波器20中之輸出數值22之值。

舉例來說，若存在三個濾波器30及四個詞組21，且每一濾波器30所產生之輸出數值22如表1所示，則可看出詞組A~詞組D在三個濾波器30中分別具有之輸出數值22，且其每一詞組21之向量則如下所示。

w(詞組A)=[0.132,0.113,-0.231]

w(詞組B)=[0.564,0.231,0.111]

w(詞組C)=[-0.543,0.532,0.222]

w(詞組D)=[0.432,0.341,0.4234]

由上述可以得知，詞組向量31可包含原始標記式語言資料50內文章51及圖片52之資訊，且其透過x個濾波器20之處理及輸出，使此詞組向量31中的每一個詞組21均成為維度為x的向量。換言之，一個含有n個關鍵詞11的標記式語言資料50將可透過本發明轉成一維度k*x之詞組向量31，且此詞組向量31可表示標記式語言資料50內關鍵詞11之順序及經過濾波器20處理之結果，而電腦主機便可以以此詞組向量31作為輸入，進而進行後續之語義處理，例如文章內詞與詞相似度的分析。

此外，在另一較佳實施例中亦可包含多組濾波器20來產生此標記式語言資料50之詞組向量31。與上述實施例之差異點則在於，此處每一組濾波器20所能處理的關鍵詞11之個數均為相異，例如第一組濾波器20所能處理的關鍵詞11之個數為3，第二組濾波器20所能處理的關鍵詞11之個數為4，第三組濾波器20所能處理的關鍵詞11之個數為5等等。在此實施例中，若每一組濾波器20均包含128個濾波器20，則最後產生單一詞組21的向量維度即為1*384。此種詞組向量31之優點在於其可以提供不同大小之詞組21之比較，以及前後詞組間之關係。

以上例之三組濾波器20來舉例說明，當所產生的關鍵詞11為「六十石山/為/讓人/方便/賞景/賞花/規劃/了/9/座/大大小小/的/涼亭」時，則第一組濾波器20所能處理的詞組即為「六十石山/為/讓人，為/讓人/方便，讓人/方便/賞景，...」，第二組濾波器20所能處理的詞組則為「六十石山/為/讓人/方便，為/讓人/方便/賞景，讓人/方便/賞景/賞花，...」，第三組濾波器20所能處理的詞組則為「六十石山/為/讓人/方便/賞景，為/讓人/方便/賞景/賞花，讓人/方便/賞景/賞花/規劃，...」，此時可以截取每一組濾波器20的第一個詞組21，即「六十石山/為/讓人」、「六十石山/為/讓人/方便」及「六十石山/為/讓人/方便/賞景」，進而從其中得知這些詞組21裡關鍵詞11彼此間的關聯性。

請參閱第2圖，其係為本發明之詞組向量產生裝置之操作方法之流程圖，並請一併參閱第1圖之詞組向量產生裝置。如第2圖所示，此操作方法可適用於解析一標記式語言資料之一詞組向量產生裝置，其中此詞組向量產生裝置包含一斷詞產生單元、x個濾波器及一處理單元，此操作方法可包含下列步驟。

步驟S11係使用斷詞產生單元對標記式語言資料循序產生n個關鍵詞，其中此n個關鍵詞係包含圖片之圖片連結及此文章之所有文章斷詞。

步驟S12係輸入此n個關鍵詞至每一x個濾波器。

步驟S13係利用此x個濾波器分別對此n個關鍵詞進行分群以產生k個詞組，其中每一個詞組係具有相同數目之關鍵詞，且當詞組之大小(即所包含的關鍵詞數目)為p時，k=n-p+1。

步驟S14係由此x個濾波器分別對此k個詞組進行運算以產生k個輸出數值。

步驟S15係從每一個濾波器內選擇相對於每一k個詞組之輸出數值，以形成維度大小為k*x之一詞組向量。

在一實施例中，該處理單元可包含一中央處理器或是一微控制器，而斷詞產生單元及濾波器則分別可以一軟體應用程式。

在一較佳的實施例中，此詞組向量可針對不同需求以彈性地進行變化，例如針對每一個詞組僅挑選出數值最大之輸出數值，使其成為維度為k*1之一詞組向量，或者是針對每一個詞組之所有輸出數值進行一平均運算，以求得所有濾波器對每一詞組之平均輸出值。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

S11~S15‧‧‧流程步驟

Claims

一種操作方法，適用於解析一標記式語言資料之一詞組向量產生裝置，該標記式語言資料係包含一文章及一圖片，該詞組向量產生裝置包含一斷詞產生單元、x個濾波器及一處理單元，該操作方法包含：使用該斷詞產生單元對該標記式語言資料產生n個關鍵詞，其中該n個關鍵詞係包含該圖片之圖片連結及該文章之文章斷詞；輸入該n個關鍵詞至每一該x個濾波器；利用每一該x個濾波器對該n個關鍵詞進行分群以產生k個詞組；由每一該x個濾波器對該k個詞組進行運算以分別產生k個輸出數值；以及從每一該x個濾波器內挑選相對於每一該k個詞組之該輸出數值，以形成維度大小為k * x之一詞組向量。
如申請專利範圍第1項所述之操作方法，其中每一該k個詞組係具有相同數量之該關鍵詞。
如申請專利範圍第1項所述之操作方法，其中當每一該k個詞組之大小為p時，k=n-p+1。
如申請專利範圍第1項所述之操作方法，其中該處理單元包含一中央處理器或是一微控制器。
一種詞組向量產生裝置，適用於一標記式語言資料，其中該標記式語言資料係包含一文章及一圖片，其包含：一斷詞產生單元，係用以解析該標記式語言資料並針對該標記式語言資料以產生n個關鍵詞，其中該n個關鍵詞係包含該圖片之圖片連結及該文章之文章斷詞；x個濾波器，每一該x個濾波器係用以輸入該n個關鍵詞及對該n個關鍵詞進行分群以產生k個詞組，並對該k個詞組進行運算以分別產生k個輸出數值；以及一處理單元，係從每一該x個濾波器內選擇相對每一該k個詞組之該輸出數值，以形成維度大小為k * x之一詞組向量。
如申請專利範圍第5項所述之詞組向量產生裝置，其中每一該k個詞組係具有相同數量之該關鍵詞。
如申請專利範圍第5項所述之詞組向量產生裝置，其中當每一該k個詞組之大小為p時，k=n-p+1。
如申請專利範圍第5項所述之詞組向量產生裝置，其中該處理單元包含一中央處理器或是一微控制器。