TWI689880B - 用於實現評論搜尋引擎排序的方法和裝置 - Google Patents

用於實現評論搜尋引擎排序的方法和裝置 Download PDF

Info

Publication number
TWI689880B
TWI689880B TW102133552A TW102133552A TWI689880B TW I689880 B TWI689880 B TW I689880B TW 102133552 A TW102133552 A TW 102133552A TW 102133552 A TW102133552 A TW 102133552A TW I689880 B TWI689880 B TW I689880B
Authority
TW
Taiwan
Prior art keywords
review
comment
attributes
useful
specific object
Prior art date
Application number
TW102133552A
Other languages
English (en)
Other versions
TW201501058A (zh
Inventor
杜冉冉
李永彬
Original Assignee
阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集團服務有限公司 filed Critical 阿里巴巴集團服務有限公司
Publication of TW201501058A publication Critical patent/TW201501058A/zh
Application granted granted Critical
Publication of TWI689880B publication Critical patent/TWI689880B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申請案提供了一種用於實現評論搜尋引擎排序的方法和裝置。該方法的特徵在於,包括步驟:從針對特定物件的評論中提取用於描述該特定物件的詞;根據用於描述該特定物件的詞獲得評論中所包含的有用屬性;根據有用屬性的數量,確定用於對評論進行打分的指標;根據指標對評論進行打分;以及按照分數對評論進行排序。根據本申請案,用戶能夠快速有效地看到對其真正有幫助的評論資訊,從而幫助其更好地進行購物決策。

Description

用於實現評論搜尋引擎排序的方法和裝置
本申請案關於網際網路領域,尤其關於一種用於實現評論搜尋引擎排序的方法和裝置。
隨著網際網路在全球範圍內的擴展,它正在被越來越多的人所接受,人們的工作和生活越來越依賴於網路。從前在現實中面對面進行的很多活動在今天已經逐漸被網際網路所取代。
網際網路發展到今天,已經派生出各種各樣的應用,其中一個重要應用就是電子商務。
電子商務是利用電腦技術、網路技術和遠端通信技術,實現整個商務(買賣)過程中的電子化、數位化和網路化。電子商務通常是指是在全球各地廣泛的商業貿易活動中,在網際網路開放的網路環境下,基於瀏覽器/伺服器應用方式,買賣雙方不謀面地進行各種商貿活動,實現消費者的網上購物、商戶之間的網上交易和線上電子支付以及各種商務活動、交易活動、金融活動和相關的綜合服務活動的一種新型的商業運營模式。
電子商務的發展使得越來越多的消費者(又稱為“用戶”)選擇從網上購買各種產品和服務,例如服裝、數碼產品、家電、書籍、彩票,等等。但是,用戶要從網上林林總總的產品和服務中挑選出自己最滿意的那一款,並不是一件很容易的事,特別是在無法親眼見到實物或者是對商家並不瞭解的情況下。
目前可以幫助用戶進行這種決策的產品資訊類網站非常多,其中最為方便也最為有效的就是,提供其他用戶對某一產品或服務的評論,以供當前用戶參考。當前用戶基於大量其他用戶產生的大量的針對產品或服務的評論,來做出自己的決策。
基於用戶評論的評論搜尋引擎就是解決這一問題的關鍵。當用戶在網頁上點擊一個產品或產品屬性時,評論搜尋引擎就按照關鍵字到索引檔中查找,並返回最相關的評論資訊。
但是,首先,由於針對同一產品或服務的評論的數量可能非常大,當前用戶並不一定有足夠的時間和精力去全部閱讀。因此,當前用戶如何快速有效地從海量評論中找到能夠幫助自己進行決策的評論,就成為了一個問題。
其次,這種評論平台是開放式的,也就是說,不限制用戶評論內容。因此,在日益增多的海量的產品評論中,就有可能包含大量的垃圾內容,例如廣告內容、與產品不相關的內容、所包含的有用資訊非常少的內容,等等。因此,如何有效地幫助當前用戶排除或者忽視這些包含垃圾 內容的評論,同樣是一個問題。
現有技術中是通過按照時間對評論進行排序來解決這一問題的。具體而言,可以將更晚發表的評論顯示在前面,將更早發表的評論顯示在後面。這樣,當前用戶就會先看到最新的評論,隨著向下瀏覽或者翻頁,逐漸看到更早的評論。
但是,在瀏覽的過程中,用戶在列表頁面的翻頁操作中通常會產生惰性。經驗表明,用戶往往從第三頁開始就開始跳出。並且,隨著頁數的增加,跳出率將會越來越高。
因此,在現有技術中,發表時間較早的優質內容,即,可以幫助用戶決策的評論,並不會被用戶看到。
所以,這種僅僅考慮時間先後順序的排序方法,並不能幫助用戶快速閱讀到優質內容,減少用戶決策時間。
更進一步說,有時用戶並不想逐條瀏覽每條評論,而是想有針對性地瞭解針對產品或服務的某一屬性或方面的評論。對評論的情感分析即能夠滿足用戶的這一需求。
此處的評論情感分析是指,對評論內容進行結構化分析,獲取用戶通過評論表達的對產品整體以及各個屬性維度的描述。
因此,本申請案的目的是解決如下問題,即如何更高效地將優質有效的評論內容提供給用戶,從而減少用戶的翻頁數。
本申請案的主要目的在於提供一種用於實現評論搜尋引擎排序的方法和裝置,以解決現有技術存在的上述問題。
根據本申請案的一個方面,提供了一種用於實現評論搜尋引擎排序的方法,特徵在於,包括步驟:從針對特定物件的評論中提取用於描述該特定物件的詞;根據用於描述該特定物件的詞獲得評論中所包含的有用屬性;根據有用屬性的數量,確定用於對評論進行打分的指標;根據指標對評論進行打分;以及按照分數對評論進行排序。
根據本申請案的另一方面,提供了一種用於實現評論搜尋引擎排序的裝置,其特徵在於,包括:提取模組,用於從針對特定物件的評論中提取用於描述該特定物件的詞;獲得模組,用於根據用於描述該特定物件的詞獲得評論中所包含的有用屬性;確定模組,用於根據有用屬性的數量,確定用於對評論進行打分的指標;打分模組,用於根據指標對評論進行打分;以及排序模組,用於按照分數對評論進行排序。
與現有技術相比,根據本申請案的技術方案,用戶能夠快速有效地看到對其真正有幫助的評論資訊,從而幫助其瞭解產品、服務和商家,更好地進行購物決策。這不但使得減少了用戶在瀏覽評論時的翻頁數,使得用戶在網購時的效率更高,也使得網站能夠更有效地管理產品和服務評論並對其加以利用。
100‧‧‧方法
200‧‧‧方法
310‧‧‧有用屬性
320‧‧‧情感詞
330‧‧‧顯示標籤
400‧‧‧裝置
410‧‧‧提取模組
420‧‧‧獲得模組
430‧‧‧確定模組
440‧‧‧打分模組
450‧‧‧排序模組
此處所說明的附圖用來提供對本申請案的進一步理解,構成本申請案的一部分,本申請案的示意性實施例及其說明用於解釋本申請案,並不構成對本申請案的不當限定。在附圖中:圖1示意性地示出了根據本申請案一個實施例的用於實現評論搜尋引擎排序的方法的流程圖;圖2示意性地示出了圖1中的步驟的更詳細的流程圖;圖3示出了根據本申請案一個實施例得到的網頁顯示的示例;並且圖4示意性地示出了根據本申請案一個實施例的用於實現評論搜尋引擎排序的裝置的結構方塊圖。
在這些附圖中,使用相同的參考標號來表示相同或相似的部分。
在現有技術中,對評論(也稱為觀點)進行排序時,沒有考慮以下因素:評論中有用的產品屬性的數量,即評論可用資訊量;句子的可讀性,過長或者冗長的句子是不便於用戶獲得可用資訊的;評論中無用的屬性的數量,例如物流屬性、廣告屬性等;以及 產品屬性的領域性,不同的產品的有用屬性是不同的,例如,待機時間對手機這類產品是一個非常重要的產品屬性,但對於化妝水這類產品則是沒有意義的。
本申請案的主要思想在於,在對評論進行排序時,考慮基於情感分析的評論可用資訊量。基於情感分析的評論可用資訊量是指,通過情感分析將評論細化到屬性粒度,從而獲得評論中對有用屬性的評價,並計算得到的該評論中對該有用屬性進行評價的資訊量,即該評論中有用資訊的量。
例如,針對某款化妝水的評論中說到,“幫同學買的”,這句話沒有對產品的任何評價,對用戶來說是無用的。而“這款化妝水的保濕效果很好”,這句話對產品的保濕效果這個有用屬性給出了評價,對用戶來說就是有用資訊。
這樣,在對評論進行排序時,就能更多地考慮會真正影響用戶對特定物件的認識的那些資訊,即,評論中的有用資訊。在將這些有用資訊納入考慮的情況下,對評論進行排序,把真正優質的內容靠前顯示,減少用戶查看評論需要的翻頁數。這不但能夠節省用戶的時間和精力,也使得網站能夠更有效地管理和利用這些評論。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶 體是電腦可讀媒體的示例。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括非暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。
為使本申請案的目的、技術方案和優點更加清楚,以下結合附圖及具體實施例,對本申請案作進一步地詳細說明。
在以下描述中,對“一個實施例”、“實施例”、“一個示例”、“示例”等等的引用表明如此描述的實施例或示例可以包括特定特徵、結構、特性、性質、元素或限度,但並非每個實施例或示例都必然包括特定特徵、結構、特性、性質、元素或限度。另外,重複使用短語“在一個實施例中”雖然有可能是指代相同實施例,但並非必然指代相 同實施例。
為簡單起見,以下描述中省略了本領域技術人員公知的某些技術特徵。
圖1示意性地示出了根據本申請案一個實施例的用於實現評論搜尋引擎排序的方法100的流程圖。
方法100包括步驟110~150。
步驟110,從針對特定物件的評論中提取用於描述該特定物件的詞。
在本申請案中,物件就是指評論所針對的物件。
例如,在電子商務應用中,用戶可以針對特定產品或服務進行評論,那麼特定物件就是特定的產品或服務。有時用戶也會對不同商家進行評論,以供其他用戶參考,在這種情況下,物件就是商家本身。例如,在某點評網站中,用戶可以對不同的餐館進行評論,在這種情況下,評論的物件就是不同的餐館。
例如,在某些新聞網站上,用戶可以對某條新聞進行評論。在這種情況下,物件就是新聞。
例如,在某些社交網路上,用戶可以對其好友(或者其他用戶)的狀態或者其好友發表的內容進行評論。在這種情況下,物件就是其好友(或者其他用戶)的狀態或者其好友發表的內容。
應當注意,上面列舉的物件的例子僅僅是示例性而非限制性的。根據本申請案的描述,本領域技術人員可以容易地想到本申請案中的術語“物件”的其他實施例。
在本申請案中,用戶在評論中用於描述特定物件(例如,產品、服務、商家等)的詞,可以稱為情感詞。
具體而言,可以先對用戶評論執行分詞(word segment)操作。分詞即把句子分割成詞。在本領域中存在多種分詞的方法,例如最大前項匹配、最大後項匹配、雙向匹配等。
然後,可以根據分割得到的詞,在伺服器端所維護的情感詞表(又稱“情感詞詞典”)中進行查找,從而確定該條評論中所包含的情感詞。
在步驟120中,根據用於描述特定物件的詞獲得評論中所包含的有用屬性。
此處的有用屬性是指,對於特定物件(例如,產品),大多數用戶所關注的屬性。對於不同類型的物件,有用屬性是不同的。例如,針對不同領域的產品,有用屬性不同。例如對於手機這類產品,有用屬性可以包括待機時間、螢幕、性能等;對於化妝水這類產品,有用屬性可以包括保濕效果、美白效果、滋潤效果等。
根據本申請案的一個實施例,特定物件的有用屬性可以是從針對該特定物件的已有的海量的評論中,通過資料挖掘技術得到的。
根據本申請案的另一實施例,特定物件的有用屬性可以是預先設定的。
有用屬性是特定物件(例如,產品、服務、商家等)的一個方面(或一個方面的特質)。
情感詞是用戶在評論中所表達的對特定物件的有用屬性的看法(或觀點)。例如,對於有用屬性“滋潤效果”,用戶評論中的情感詞可以是“滋潤”、“乾燥”、“很好”或者其他措辭。
例如,化妝水這個類目下的有用屬性包括產品整體、滋潤效果、刺激性等。相應地,歸一化後的有用屬性、有用屬性、歸一化後的情感詞以及情感詞之間的對應關係可以如表1中的示例所示:
Figure 102133552-A0202-12-0010-1
對於歸一化後的有用屬性與有用屬性的關係、歸一化後的情感詞與情感詞的關係,可以參見後面的圖3以及對圖3的描述。
舉例而言,對於針對某款化妝水的一條用戶評論“總的來說蠻喜歡這款水的,很滋潤,聞起來挺淡雅的、很溫 和”,其中,“蠻喜歡的”是情感詞,“總的來說”是有用屬性,其對應的歸一化後的有用屬性是“產品整體”;“很滋潤”是情感詞,其對應的有用屬性名稱在該條評論中未出現,該情感詞對應的歸一化後的有用屬性是“滋潤效果”;......。所以,有時,評論裏只出現情感詞,而不直接出現對應的有用屬性名稱。
一般情況下,可以從情感詞直接得到對應的有用屬性。
在某些情況下,從情感詞本身不能直接得到對應的有用屬性。例如,一條用戶評論包括內容“價錢和份量都很合理”,其中情感詞為“合理”,從“合理”這個詞不能直接判斷出對應的有用屬性是什麼。此時,可以在評論中搜尋該情感詞對應的有用屬性。一個有用屬性為“價錢”,得到其對應的歸一化後的有用屬性例如為“價格”。另一個有用屬性為“份量”,得到其對應的歸一化後的有用屬性例如為“份量”。
在另外的情況下,從情感詞無法得到有用屬性,也不能在評論中搜尋到對應的有用屬性,即,客觀上並不存在與這一情感詞對應的有用屬性。例如,針對化妝水的一條用戶評論中存在一個情感詞“鋒利”。這一情感詞就並不存在對應的有用屬性。此時,可以將該情感詞丟棄,不作進一步分析。
根據本申請案的一個實施例,可以在伺服器端的資料庫中維護用於記錄歸一化後的有用屬性、有用屬性、歸一 化後的情感詞以及情感詞中至少兩項之間的對應關係的表,以供排序時查找。
在步驟130中,根據有用屬性的數量,確定用於對評論進行打分的指標。
圖2示意性地示出了圖1中的步驟130的更詳細的流程圖。
方法200開始於步驟210,在該步驟中,判斷評論中包含的有用屬性數量是否大於或者等於1。
如果評論中包含的有用屬性數量大於或者等於1,則方法200前進到步驟220。在步驟220中,確定打分指標包括有用屬性數量。
用於計算評論包含的有用屬性數量的公式如下:SD=γ (1)
其中,γ為步驟110中得到的有用屬性的數量。
根據本申請案的一個實施例,在打分指標包括有用屬性數量的情況下,用於對評論進行打分的指標還可以包括評論的可讀性、評論的無用屬性、評論時間中的至少一項。
評論的可讀性是表明評論是否便於用戶閱讀的指標。通常認為,句子過於冗長,子句過短,或者子句過多都是不易於用戶閱讀的,因此可讀性低。根據本申請案的一個實施例,用於計算評論的可讀性的公式如下:
Figure 102133552-A0202-12-0012-2
其中,NL是一條用戶評論中所有子句的歸一化長度,num是該條用戶評論中子句的數量,length是該條用戶評論中特定子句的字數。子句為用標點符號分割後的句子。根據本申請案的一個實施例,一個中文字的字數為1,一個英文字母也為1(my的長度是2)。其中,α是對於普通人而言認為句子可讀的合理均值,β是對於普通人而言認為句子可讀的合理方差。α和β都是常量。公式(2)使用用戶評論的歸一化長度來描述句子的可讀性。
評論的無用屬性是使得該評論降低排序分數的屬性。
根據本申請案的一個實施例,無用屬性是預先設定的,全類目通用的,可以根據經驗或者實際的應用需要設定。
有用屬性可以用來分析以及展示給用戶,無用屬性只用來排序。用戶可以在網頁上點擊有用屬性,從而按照該有用屬性對用戶評論進行排序。
根據本申請案的一個實施例,如果評論中含有有用屬性,則用於計算評論的無用屬性的排序因數的公式如下:
Figure 102133552-A0202-12-0013-3
其中,FS是無用屬性的排序因數,
Figure 102133552-A0202-12-0013-17
為評論中含有的無用屬性的數量,δ和ε是常量。常量δ和ε是固定的數值,經過多次試驗確定,使得
Figure 102133552-A0202-12-0013-18
值越大,公式(5)中的score的值越小。可以根據不同的排序需求,人為界定無用屬性。例如某些即時通信工具上呈現的屬性多數是廣告屬性,可 以認為是無用屬性。如果應用不希望過多呈現物流等資訊,則物流速度、物流服務態度就是無用屬性。無用屬性是產品通用的,只用於計算排序分,不用於向用戶呈現屬性標籤。
如果評論中包含的有用屬性數量為零,則方法200前進到步驟230。在步驟230中,確定打分指標為有用屬性以外的指標。根據本申請案的一個實施例,有用屬性以外的指標包括評論的可讀性、評論的無用屬性的排序因數、評論時間中的至少一項。
評論的無用屬性是使得該評論降低排序分數的屬性。根據本申請案的一個實施例,如果評論中不含有有用屬性,則用於計算評論的無用屬性的排序因數的公式如下:
Figure 102133552-A0202-12-0014-4
其中,FSN是無用屬性的排序因數,
Figure 102133552-A0202-12-0014-12
為評論中含有的無用屬性的數量,δ和ε是常量。常量δ和ε是固定的數值,經過多次試驗確定,使得
Figure 102133552-A0202-12-0014-16
的值越大,公式(6)中的score的值越小。
然後,方法200結束。
在步驟140中,根據指標對評論進行打分。在排序打分中,可以考慮有用屬性的數量,句子的可讀性、句子的無用屬性,等等。
根據本申請案的一個實施例,評論中包含有用屬性, 打分指標包括有用屬性數量、評論的可讀性以及評論的無用屬性的排序因數。在此情況下,用於計算最終排序分的公式如下:score=SD/NL*FS (5)
其中,SD是有用屬性數量,NL是一條用戶評論中所有子句的歸一化長度,FS是根據公式(3)計算出的無用屬性的排序因數。
根據本申請案的另一實施例,評論中不包含有用屬性,打分指標為有用屬性以外的指標。有用屬性以外的指標可以包括評論的可讀性以及評論的無用屬性的排序因數。在此情況下,用於計算最終排序分的公式如下:
Figure 102133552-A0202-12-0015-5
其中,num是子句的數量,θ是常量。θ是通過多次試驗確定的、能夠使排序結果最符合預期的一個常數。score為排序分,NL為根據公式(1)計算出的一條用戶評論中所有子句的歸一化長度,FSN是根據公式(4)計算出的無用屬性的排序因數。從公式(4)中可以看到,無用屬性的數量越多,其影響越負面,即,其對應的評論的分數就會越低。
根據本申請案的一個實施例,在計算最終排序分時可以將評論時間作為一個因數考慮在內。具體而言,可以對評論時間進行歸一化計算後,再參與最終排序分的計算。
某條評論的分數越高,該評論包含的能夠幫助用戶進行購物決策的有用資訊越多。
在步驟150中,按照分數對評論進行排序。根據本申請案的一個實施例,可以按照分數從高到低的順序降冪顯示評論。
然後,方法100結束。
圖3示出了根據本申請案一個實施例得到的網頁顯示的示例。
網頁顯示300的最上端包括多個顯示標籤330,顯示標籤330的下方可以是用戶評論列表。如果用戶點擊顯示標籤330左邊的“全部”,則顯示根據本申請案方法排序後的全部用戶評論。如果用戶點擊任何一個顯示標籤330,則顯示根據本申請案方法排序後的、對應於該顯示標籤330的用戶評論。
在圖3中,用戶點擊了顯示標籤“品質好”,所以顯示的是根據本申請案方法排序後的、對應於該顯示標籤“品質好”的用戶評論。用戶評論中通常包含有用屬性310和情感詞320的組合。
可以看到,用戶評論中所包含的有用屬性330的具體措辭不一定是相同的。例如,對於產品品質這一有用屬性,有的用戶稱為“產品”,有的用戶稱為“東西”,有的用戶甚至沒有直接提到,等等。
此外,即便是要表達相同或類似的情感傾向,用戶所使用的情感詞(或描述詞)也不盡相同。例如,有的用戶 說“很好”,有的用戶說“很棒”,有的用戶說“和預期效果一樣”,等等。
因此,用戶評論中所包含的有用屬性310和情感詞320的組合,即便是意思相同或相近,其表現形式也並不一定相同。如圖中所示,對於產品品質這一屬性,用戶的具體評論可能為“產品很好”、“東西很好”、“很棒的東西”、“和預期效果一樣”,等等。根據本申請案的一個實施例,可以對這種具體形式不同、含義實質上相同或相近的有用屬性+情感片語合進行歸一化,以用於如圖3所示地那樣顯示給用戶作為參考。
這一目的可以通過顯示標籤330來實現。顯示標籤330可以包括兩部分,一部分是歸一化後的有用屬性,一部分是歸一化後的情感詞。例如,圖中所示的顯示標籤“品質好”,包括兩部分,即,“品質”和“好”。“品質”就是歸一化後的有用屬性,“好”就是歸一化後的情感詞。因此,顯示標籤就是將“有用屬性+情感詞”進行歸一化以後得到的、用於顯示給用戶的結果。
根據本申請案的一個實施例,用戶可以在網頁上點擊顯示標籤330,以查看對應於該顯示標籤330的用戶評論,這些用戶評論已經根據本申請案的方法進行了排序。
根據本申請案的一個實施例,還可以將用戶評論列表中對應於顯示標籤330的部分高亮顯示。
這樣,本申請案不但可以實現在考慮特定物件有用屬性的情況下對全部用戶評論進行排序,還可以根據不同的 顯示標籤來顯示排序結果,進一步幫助用戶快速進行購物決策。
應當注意,圖3中所示的顯示標籤僅僅是示例性而非限制性的。本領域技術人員可以基於本申請案的描述,根據具體應用,設計不同的顯示標籤。
應當注意,圖3中所示的網頁顯示僅僅是示例性而非限制性的。本領域技術人員可以基於本申請案的描述,根據具體應用,設計不同的網頁顯示。
圖4示意性地示出了根據本申請案一個實施例的用於實現評論搜尋引擎排序的裝置400的結構方塊圖。
裝置400可以包括:提取模組410,用於從針對特定物件的評論中提取用於描述該特定物件的詞;獲得模組420,用於根據用於描述該特定物件的詞獲得評論中所包含的有用屬性;確定模組430,用於根據有用屬性的數量,確定用於對評論進行打分的指標;打分模組440,用於根據指標對評論進行打分;以及排序模組450,用於按照分數對評論進行排序。
根據本申請案的一個實施例,確定模組430可以進一步包括第一確定子模組,用於當有用屬性的數量大於或者等於1時,確定用於對評論進行打分的指標包括評論的有用屬性數量。
根據本申請案的一個實施例,用於對評論進行打分的指標還可以包括評論的可讀性、評論的無用屬性的排序因數、評論時間中的至少一項。
根據本申請案的一個實施例,確定模組430可以進一步包括第二確定子模組,用於當有用屬性的數量為零時,確定用於對評論進行打分的指標為有用屬性以外的指標。
根據本申請案的一個實施例,有用屬性以外的指標包括評論的可讀性、評論的無用屬性的排序因數、評論時間中的至少一項。
根據本申請案的一個實施例,裝置400可以進一步包括呈現模組,用於向用戶呈現顯示標籤,顯示標籤包括歸一化後的有用屬性和歸一化後的用於描述特定物件的詞,顯示標籤用於由用戶點擊,從而顯示與顯示標籤對應的、排序後的用戶評論列表。
根據本申請案的一個實施例,特定物件可以是產品、服務或商家。
本申請案典型地可以應用于電子商務應用。但本申請案並不限於這一應用,而是可以應用於其他網際網路應用,例如,新聞網站、社交網路,等等,只要這些應用包含了用戶對某一事物或現象(即,特定物件)的評論即可。根據本申請案的描述,本領域技術人員可以容易地想到本申請案可以應用於的其他網際網路應用。
本領域內的技術人員應明白,本申請案的實施例可提供為方法、系統、或電腦程式產品。因此,本申請案可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本申請案可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括 但不限於磁盤記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
以上所述僅為本申請案的實施例而已,並不用於限制本申請案,對於本領域的技術人員來說,本申請案可以有各種更改和變化。凡在本申請案的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本申請案的申請專利範圍之內。

Claims (8)

  1. 一種用於實現評論搜尋引擎排序的方法,其特徵在於,該方法包括以下步驟:從針對特定物件的評論中提取用於描述該特定物件的詞;根據該用於描述該特定物件的詞獲得該評論中所包含的有用屬性,該有用屬性是指對於特定物件,用戶所關注的屬性;根據該有用屬性的數量,確定用於對該評論進行打分的指標;根據該指標對該評論進行打分;以及按照分數對該評論進行排序,其中,該根據該有用屬性的數量,確定用於對評論進行打分的指標的步驟進一步包括:當該有用屬性的數量大於或者等於1時,確定用於對評論進行打分的指標包括該評論的有用屬性數量、該評論的可讀性、該評論的無用屬性的第一排序因數;或當該有用屬性的數量為零時,確定用於對評論進行打分的指標包括該評論的可讀性、該評論的無用屬性的第二排序因數,其中,該評論的可讀性根據該評論中子句的數量、該評論中特定子句的字數、該評論中句子可讀的均值、以及該評論中句子可讀的方差來確定,且 其中,該評論的無用屬性的第一排序因數與該評論的無用屬性的第二排序因數根據該評論中含有的無用屬性的數量來確定。
  2. 根據申請專利範圍第1項所述的方法,其中,該用於對評論進行打分的指標還包括評論時間。
  3. 根據申請專利範圍第1項所述的方法,其中,進一步包括:向用戶呈現顯示標籤,該顯示標籤包括歸一化後的有用屬性和歸一化後的用於描述該特定物件的詞,該顯示標籤用於由用戶點擊,從而顯示與該顯示標籤對應的、排序後的用戶評論列表。
  4. 根據前述申請專利範圍第1至3項中任一項所述的方法,其中,該特定物件是產品、服務或商家。
  5. 一種用於實現評論搜尋引擎排序的裝置,其特徵在於,該裝置包括:提取模組,用於從針對特定物件的評論中提取用於描述該特定物件的詞;獲得模組,用於根據該用於描述該特定物件的詞獲得該評論中所包含的有用屬性,該有用屬性是指對於特定物件,用戶所關注的屬性;確定模組,用於根據該有用屬性的數量,確定用於對該評論進行打分的指標;打分模組,用於根據該指標對該評論進行打分;以及排序模組,用於按照分數對該評論進行排序; 其中,該確定模組進一步包括:第一確定子模組,用於當該有用屬性的數量大於或者等於1時,確定用於對評論進行打分的指標包括該評論的有用屬性數量、該評論的可讀性、該評論的無用屬性的第一排序因數;或第二確定子模組,用於當該有用屬性的數量為零時,確定用於對評論進行打分的指標包括該評論的可讀性、該評論的無用屬性的第二排序因數,其中,該評論的可讀性根據該評論中子句的數量、該評論中特定子句的字數、該評論中句子可讀的均值、以及該評論中句子可讀的方差來確定,且其中,該評論的無用屬性的第一排序因數與該評論的無用屬性的第二排序因數根據該評論中含有的無用屬性的數量來確定。
  6. 根據申請專利範圍第5項所述的裝置,其中,該用於對評論進行打分的指標還包括評論時間。
  7. 根據申請專利範圍第5項所述的裝置,其中,進一步包括:呈現模組,用於向用戶呈現顯示標籤,該顯示標籤包括歸一化後的有用屬性和歸一化後的用於描述該特定物件的詞,該顯示標籤用於由用戶點擊,從而顯示與該顯示標籤對應的、排序後的用戶評論列表。
  8. 根據前述申請專利範圍第5至7項中任一項所述的裝置,其中,該特定物件是產品、服務或商家。
TW102133552A 2013-06-19 2013-09-16 用於實現評論搜尋引擎排序的方法和裝置 TWI689880B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310242522.8A CN104239331B (zh) 2013-06-19 2013-06-19 一种用于实现评论搜索引擎排序的方法和装置
CN201310242522.8 2013-06-19

Publications (2)

Publication Number Publication Date
TW201501058A TW201501058A (zh) 2015-01-01
TWI689880B true TWI689880B (zh) 2020-04-01

Family

ID=51212947

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102133552A TWI689880B (zh) 2013-06-19 2013-09-16 用於實現評論搜尋引擎排序的方法和裝置

Country Status (7)

Country Link
US (1) US10242105B2 (zh)
EP (1) EP3011467A4 (zh)
JP (1) JP6431056B2 (zh)
CN (1) CN104239331B (zh)
HK (1) HK1202939A1 (zh)
TW (1) TWI689880B (zh)
WO (1) WO2014205133A2 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346881B2 (en) * 2014-09-19 2019-07-09 International Business Machines Corporation Advertising within social networks
CN105809379A (zh) * 2014-12-30 2016-07-27 阿里巴巴集团控股有限公司 一种对物流网点的评价方法、装置以及电子设备
US11599841B2 (en) * 2015-01-05 2023-03-07 Saama Technologies Inc. Data analysis using natural language processing to obtain insights relevant to an organization
CN105955990A (zh) * 2016-04-15 2016-09-21 北京理工大学 一种兼顾多样性和有效性的评论排序和筛选方法
US11269972B2 (en) 2016-05-31 2022-03-08 Target Brands, Inc. Date-specific webpage versions
US10360622B2 (en) 2016-05-31 2019-07-23 Target Brands, Inc. Method and system for attribution rule controls with page content preview
CN107092616B (zh) * 2016-11-02 2020-08-28 北京星选科技有限公司 一种对象排序方法及装置
TW201839136A (zh) 2017-02-06 2018-11-01 瑞士商諾華公司 治療血色素異常症之組合物及方法
CN107038224B (zh) * 2017-03-29 2022-09-30 腾讯科技(深圳)有限公司 数据处理方法及数据处理装置
CN108874832B (zh) * 2017-05-15 2022-06-10 腾讯科技(深圳)有限公司 目标评论确定方法及装置
CN110019720B (zh) * 2017-12-19 2022-02-08 阿里巴巴(中国)有限公司 一种评论的内容分获取方法及系统
CN109189922B (zh) * 2018-08-07 2021-06-29 创新先进技术有限公司 评论评估模型的训练方法和装置
US11651016B2 (en) * 2018-08-09 2023-05-16 Walmart Apollo, Llc System and method for electronic text classification
US11100556B2 (en) 2018-11-30 2021-08-24 International Business Machines Corporation Scenario enhanced search with product features
CN111859946B (zh) * 2019-04-22 2023-09-29 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质
CN111666280B (zh) * 2020-04-27 2023-11-21 百度在线网络技术(北京)有限公司 评论的排序方法、装置、设备和计算机存储介质
JP6821076B1 (ja) * 2020-04-28 2021-01-27 株式会社キャピタルメディカ 情報共有化システム及びプログラム
CN111709226B (zh) * 2020-06-18 2023-10-13 中国银行股份有限公司 一种文本处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262597A1 (en) * 2007-12-24 2010-10-14 Soung-Joo Han Method and system for searching information of collective emotion based on comments about contents on internet
US20120143597A1 (en) * 2008-04-18 2012-06-07 Biz360 Inc. System and Methods for Evaluating Feature Opinions for Products, Services, and Entities
TWI370373B (en) * 2005-06-20 2012-08-11 Ebay Inc System and method to generate related search queries
TWI379250B (en) * 2007-10-16 2012-12-11 Yahoo Inc Method and system for creating superior informational guides

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050193335A1 (en) * 2001-06-22 2005-09-01 International Business Machines Corporation Method and system for personalized content conditioning
US7421429B2 (en) 2005-08-04 2008-09-02 Microsoft Corporation Generate blog context ranking using track-back weight, context weight and, cumulative comment weight
US20070067294A1 (en) * 2005-09-21 2007-03-22 Ward David W Readability and context identification and exploitation
US7389289B2 (en) * 2005-10-20 2008-06-17 Microsoft Corporation Filtering search results by grade level readability
US8015194B2 (en) 2005-12-29 2011-09-06 Ricoh Co., Ltd. Refining based on log content
JP2008040720A (ja) 2006-08-04 2008-02-21 Nikon Corp 電子機器およびランク付けプログラム
JP2008097286A (ja) 2006-10-11 2008-04-24 Nippon Telegr & Teleph Corp <Ntt> 意見文検索装置、意見文検索方法および意見文検索プログラム並びにそのプログラムを記録した記録媒体
JP5168961B2 (ja) 2007-03-19 2013-03-27 富士通株式会社 最新評判情報通知プログラム、記録媒体、装置及び方法
US8417713B1 (en) * 2007-12-05 2013-04-09 Google Inc. Sentiment detection as a ranking signal for reviewable entities
US8799773B2 (en) * 2008-01-25 2014-08-05 Google Inc. Aspect-based sentiment summarization
WO2009105277A1 (en) * 2008-02-22 2009-08-27 Socialrep, Llc System and method for measuring and managing distributed online conversations
MY159361A (en) 2008-06-17 2016-12-30 Laureate Education Inc System and method for collaborative development of online courses and programs of study
US9129008B1 (en) * 2008-11-10 2015-09-08 Google Inc. Sentiment-based classification of media content
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统
WO2011019295A1 (en) 2009-08-12 2011-02-17 Google Inc. Objective and subjective ranking of comments
US20110082848A1 (en) 2009-10-05 2011-04-07 Lev Goldentouch Systems, methods and computer program products for search results management
US10692093B2 (en) * 2010-04-16 2020-06-23 Microsoft Technology Licensing, Llc Social home page
US8655938B1 (en) * 2010-05-19 2014-02-18 Adobe Systems Incorporated Social media contributor weight
US8744855B1 (en) * 2010-08-09 2014-06-03 Amazon Technologies, Inc. Determining reading levels of electronic books
US8949211B2 (en) * 2011-01-31 2015-02-03 Hewlett-Packard Development Company, L.P. Objective-function based sentiment
US20120259866A1 (en) 2011-04-05 2012-10-11 Austin L Suzie System and method for automatically evaluating contributor performance
US8725495B2 (en) * 2011-04-08 2014-05-13 Xerox Corporation Systems, methods and devices for generating an adjective sentiment dictionary for social media sentiment analysis
US9202200B2 (en) * 2011-04-27 2015-12-01 Credibility Corp. Indices for credibility trending, monitoring, and lead generation
CN102760264A (zh) * 2011-04-29 2012-10-31 国际商业机器公司 为互联网上的评论生成摘录的计算机实现的方法和系统
US20120290374A1 (en) * 2011-05-13 2012-11-15 Dell Products L.P. Social Marketplace Process and Architecture
US8700480B1 (en) * 2011-06-20 2014-04-15 Amazon Technologies, Inc. Extracting quotes from customer reviews regarding collections of items
US8671098B2 (en) * 2011-09-14 2014-03-11 Microsoft Corporation Automatic generation of digital composite product reviews
US20130073545A1 (en) 2011-09-15 2013-03-21 Yahoo! Inc. Method and system for providing recommended content for user generated content on an article
US9621404B2 (en) * 2011-09-24 2017-04-11 Elwha Llc Behavioral fingerprinting with social networking
US8880389B2 (en) * 2011-12-09 2014-11-04 Igor Iofinov Computer implemented semantic search methodology, system and computer program product for determining information density in text
US20150052098A1 (en) * 2012-04-05 2015-02-19 Thomson Licensing Contextually propagating semantic knowledge over large datasets
US11093984B1 (en) * 2012-06-29 2021-08-17 Reputation.Com, Inc. Determining themes
US9342846B2 (en) * 2013-04-12 2016-05-17 Ebay Inc. Reconciling detailed transaction feedback

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI370373B (en) * 2005-06-20 2012-08-11 Ebay Inc System and method to generate related search queries
TWI379250B (en) * 2007-10-16 2012-12-11 Yahoo Inc Method and system for creating superior informational guides
US20100262597A1 (en) * 2007-12-24 2010-10-14 Soung-Joo Han Method and system for searching information of collective emotion based on comments about contents on internet
US20120143597A1 (en) * 2008-04-18 2012-06-07 Biz360 Inc. System and Methods for Evaluating Feature Opinions for Products, Services, and Entities

Also Published As

Publication number Publication date
JP6431056B2 (ja) 2018-11-28
US20140379682A1 (en) 2014-12-25
HK1202939A1 (zh) 2015-10-09
JP2016527612A (ja) 2016-09-08
WO2014205133A2 (en) 2014-12-24
CN104239331B (zh) 2018-10-09
EP3011467A4 (en) 2017-03-15
CN104239331A (zh) 2014-12-24
TW201501058A (zh) 2015-01-01
US10242105B2 (en) 2019-03-26
EP3011467A2 (en) 2016-04-27
WO2014205133A3 (en) 2016-03-24

Similar Documents

Publication Publication Date Title
TWI689880B (zh) 用於實現評論搜尋引擎排序的方法和裝置
TWI615724B (zh) 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置
US11176142B2 (en) Method of data query based on evaluation and device
US10095782B2 (en) Summarization of short comments
US10990632B2 (en) Multidimensional search architecture
US20170124575A1 (en) Analyzing sentiment in product reviews
CN108664477B (zh) 交易信息多语机器翻译子系统的翻译方法
US20070288602A1 (en) Interest-based communities
Cataldi et al. Good location, terrible food: detecting feature sentiment in user-generated reviews
Gan et al. Restaurant Rating: Industrial Standard and Word-of-Mouth--A Text Mining and Multi-dimensional Sentiment Analysis
Zhang et al. Concept extraction and e-commerce applications
CN105931082B (zh) 一种商品类目关键词提取方法和装置
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
Chen et al. Research on credit evaluation model of online store based on SnowNLP
Hidayatullah et al. Topic modeling on Indonesian online shop chat
Celuch Customers' experience of purchasing event tickets: mining online reviews based on topic modeling and sentiment analysis
US9129300B2 (en) Using external sources for sponsored search AD selection
Kim et al. Competitive intelligence in Korean Ramen market using text mining and sentiment analysis
Zhao et al. Online comments of multi-category commodities based on emotional tendency analysis
Westerski Sentiment Analysis: Introduction and the State of the Art overview
González-Rodríguez et al. Monitoring travel-related information on social media through sentiment analysis
TW201706880A (zh) 新聞追蹤及推薦方法
Hamroun et al. Lexico semantic patterns for customer intentions analysis of microblogging
Tuma et al. Online reviews as a source of marketing research data: a literature analysis
US20220172229A1 (en) Product various opinion evaluation system capable of generating special feature point and method thereof