TWI442247B - Statistical devices, computer program products, recording media, and statistical methods - Google Patents

Statistical devices, computer program products, recording media, and statistical methods Download PDF

Info

Publication number
TWI442247B
TWI442247B TW102111696A TW102111696A TWI442247B TW I442247 B TWI442247 B TW I442247B TW 102111696 A TW102111696 A TW 102111696A TW 102111696 A TW102111696 A TW 102111696A TW I442247 B TWI442247 B TW I442247B
Authority
TW
Taiwan
Prior art keywords
tree
partial
group
partial tree
sentence
Prior art date
Application number
TW102111696A
Other languages
English (en)
Other versions
TW201407386A (zh
Inventor
Keiji SHINZATO
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of TW201407386A publication Critical patent/TW201407386A/zh
Application granted granted Critical
Publication of TWI442247B publication Critical patent/TWI442247B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/183Tabulation, i.e. one-dimensional positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

統計裝置、電腦程式產品、記錄媒體、及統計方法
本發明係有關於統計裝置、電腦程式產品、記錄媒體、及統計方法。
先前以來,可從所被輸入之複數文字中,檢索出彼此表現不同但表示相同特徵性內容的複數文字的文字探勘裝置,已為人知(例如,專利文獻1)。該文字探勘裝置,係將表示相同特徵性內容的不同之複數表現,彼此建立對應而記憶。該文字探勘裝置,係當輸入文字中含有所定表現所被對應到之表現時,則將該當表現置換成所定表現,然後檢索含有所定表現的文字。
〔先前技術文獻〕 〔專利文獻〕
〔專利文獻1〕日本專利第4815934號公報
此處,在專利文獻1的技術中,在由所被輸入之複數語句等所成的文字裡,存在有無法統計哪種表現是被多常使用的問題。
本發明係有鑑於此種問題點而研發,其目的為,提供一種可以統計在所被輸入之複數語句中哪種表現被多常使用的統計裝置、電腦程式產品、記錄有程式之電腦可讀取之記錄媒體、及統計方法。
為了達成上記目的,本發明之第1觀點所述之統計裝置,係將所被輸入之語句加以統計的統計裝置,其特徵為,具備:輸入部,係輸入第1語句與第2語句;和語法解析部,係藉由將前記第1語句與前記第2語句進行語法解析,而生成前記第1語句的語法樹與前記第2語句的語法樹;和部分樹生成部,係從前記所被生成之第1語句的語法樹,將構成前記第1語句的部分樹亦即第1部分樹予以生成1或複數個,從前記所被生成之第2語句的語法樹,將構成前記第2語句的部分樹亦即第2部分樹予以生成1或複數個;和一致判別部,係針對前記所被生成之1個第1部分樹或者複數第1部分樹之任1者、與前記所被生成之1個第 2部分樹或者複數第2部分樹之任1者之組合的1個部分樹組合或複數部分樹組合之每一者,判別構成該當部分樹組合的第1部分樹所表示的第1表現、與構成該當部分樹組合的第2部分樹所表示的第2表現是否表示一致之內容;和分類部,係針對前記被判別為彼此表示一致內容之第1表現與第2表現之1個組合、或者前記被判別為彼此表示一致內容之第1表現與第2表現之複數組合的每一者,將表示該當第1表現的第1部分樹,分類至與表示該當第2表現的第2部分樹相同之群組;和輸出部,係將被分類至前記群組的部分樹之數目,或者,被分類至前記群組的1個部分樹或者複數部分樹所分別表示之表現,予以輸出。
又,第1觀點所述之統計裝置中,亦可為:前記一致判別部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,若構成該當部分樹組合的第1部分樹、與構成該當部分樹組合的第2部分樹,是高度、枝數、根及1或複數個葉所被分別分配到的文節是全部都一致的情況下,則判別成該當第1部分樹所表示之第1表現、與該當第2部分樹所表示之第2表現是一致。
又,第1觀點所述之統計裝置中,亦可為:前記部分樹生成部,係從前記所被生成之第1語句的語法樹,將構成前記第1語句的複數文節之內至少具有修飾其他文節的干預文節、與身為該當其他文節的受飾文節 的第1部分樹,予以生成1或複數個,且從前記所被生成之第2語句的語法樹,將構成前記第2語句的複數文節之內至少具有修飾其他文節的干預文節、與身為該當其他文節的受飾文節的第2部分樹,予以生成1或複數個;前記一致判別部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,基於構成該當部分樹組合的第1部分樹的干預文節、與構成該當部分樹組合的第2部分樹的干預文節是否一致,及該當第1部分樹的受飾文節、與該當第2部分樹的受飾文節是否一致,來判別該當第1部分樹所表示之第1表現與該當第2部分樹所表示之第2表現是否表示一致之內容。
又,第1觀點所述之統計裝置中,亦可為:前記一致判別部,係針對1或複數個部分樹所被分別分類而成的第1群組與第2群組之組合的1個群組組合、或者複數群組組合之每一者,將該當第1群組與該當第2群組之間的包含關係,基於該當第1群組中所屬之部分樹的高度、枝數、及文節之數目,和該當第2群組中所屬之部分樹的高度、枝數、及文節之數目,而加以判別;前記輸出部,係將已被分類至該當第1群組的1個部分樹所代表之表現或者複數部分樹所分別代表之複數個表現,和已被分類至該當第2群組的1個部分樹所代表之表現或者複數部分樹所分別代表之複數個表現,基於前記所被判別之包含關係而加以排列並輸出。
又,第1觀點所述之統計裝置中,亦可為: 前記一致判別部,係在前記1個群組組合、或者前記複數群組組合之內,針對已被分類至第1群組的部分樹所具有之干預文節的數目,是比已被分類至第2群組的部分樹所具有之干預文節的數目還少的群組組合,若已被分類至該當第1群組的部分樹所具有之干預文節的全部,是與已被分類至該當第2群組的部分樹所具有之干預文節之任一者一致,則判別成已被分類至該當第1群組的部分樹所表示之表現,係為比已被分類至該當第2群組的部分樹所表示之表現還要上位之表現;前記分類部,係針對前記1個群組組合、或者前記複數群組組合之每一者,若已被分類至構成該當群組組合之第1群組的部分樹所表示之表現,是被判別成比已被分類至構成該當群組組合之第2群組的部分樹所表示之表現還要上位之表現,則將該當第1群組視為比該當第2群組還要上位之群組。
又,第1觀點所述之統計裝置中,亦可為:前記一致判別部,係在前記1個群組組合、或者前記複數群組組合之內,針對具有受飾文節與干預文節的部分樹所被分類而成的第1群組,和具有受飾文節與干預文節與該當干預文節所修飾之文節的部分樹所被分類而成的第2群組所構成的群組組合,若判別成已被分類至該當第1群組的部分樹的受飾文節、與已被分類至該當第2群組的部分樹的受飾文節是一致,且已被分類至該當第1群組的部分樹的干預文節、與已被分類至該當第2群組的部分樹 的干預文節是一致,則判別成已被分類至該當第1群組的部分樹所表示之表現,係為比已被分類至該當第2群組的部分樹所表示之表現還要上位之表現。
又,第1觀點所述之統計裝置中,亦可為:前記一致判別部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,構成該當部分樹組合的第1部分樹的干預文節,是構成該當部分樹組合的第2部分樹的干預文節的同義詞的情況、該當第1部分樹的干預文節與該當第2部分樹的干預文節的差異是活用之差異的情況、及該當第1部分樹的干預文節與該當第2部分樹的干預文節的差異是撰寫方式之差異的情況之任一情況下,則判別成該當第1部分樹的干預文節與該當第2部分樹的干預文節是一致;該當第1部分樹的受飾文節是該當第1部分樹的受飾文節的同義詞的情況、該當第1部分樹的受飾文節與該當第2部分樹的受飾文節的差異是活用之差異的情況、及該當第1部分樹的受飾文節與該當第2部分樹的受飾文節的差異是撰寫方式之差異的情況之任一情況下,則判別成該當第1部分樹的受飾文節與該當第2部分樹的受飾文節是一致。
又,第1觀點所述之統計裝置中,亦可為:還具備:文節轉換部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,若構成該當部分樹組合的第1部分樹的干預文節的末尾是助詞的「」或「 」,該當第1部分樹的干預文節是含有用言,含有肯定表現,該當第1部分樹的干預文節與該當第1部分樹的受飾文節之間沒有句讀點「、」或「,」,且該當第1部分樹的受飾文節是含有否定表現的情況下,則將該當受飾文節轉換成肯定表現,且將該當干預文節轉換成否定表現;前記一致判別部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,判別構成該當部分樹組合的前記已被轉換之第1部分樹的干預文節、與構成該當部分樹組合的第2部分樹的干預文節是否一致,及該當已被轉換之第1部分樹的受飾文節、與該當第2部分樹的受飾文節是否一致。
又,第1觀點所述之統計裝置中,亦可為:前記輸入部,係將針對質問之回答語句的第1語句及第2語句予以輸入;前記一致判別部,係在前記1個部分樹組合、或者前記複數部分樹組合之內,針對具有受飾文節與所定數之干預文節的第1部分樹、與具有受飾文節與前記所定數之干預文節的第2部分樹所構成的部分樹組合,若判別成,該當第1部分樹所具有之前記所定數之干預文節之每一者,是一致於該當第2部分樹所具有之前記所定數之干預文節之每一者,則判別成該當第1部分樹所具有之受飾文節與該當第2部分樹所具有之受飾文節是一致。
為了達成上記目的,本發明之第2觀點所述之電腦程式產品, 其特徵為,電腦而載入程式,執行:輸入第1語句與第2語句的程式指令;和藉由將前記第1語句與前記第2語句進行語法解析,而生成前記第1語句的語法樹與前記第2語句的語法樹的程式指令;和從前記所被生成之第1語句的語法樹,將構成前記第1語句的部分樹亦即第1部分樹予以生成1或複數個,從前記所被生成之第2語句的語法樹,將構成前記第2語句的部分樹亦即第2部分樹予以生成1或複數個的程式指令;和針對前記所被生成之1個第1部分樹或者複數第1部分樹之任1者、與前記所被生成之1個第2部分樹或者複數第2部分樹之任1者之組合的1個部分樹組合或複數部分樹組合之每一者,判別構成該當部分樹組合的第1部分樹所表示的第1表現、與構成該當部分樹組合的第2部分樹所表示的第2表現是否表示一致之內容的程式指令;和分類部,係針對前記被判別為彼此表示一致內容的1個第1表現與第2表現、或者複數個第1表現與第2表現之每一者,將表示該當第1表現的第1部分樹,分類至與表示該當第2表現的第2部分樹相同之群組;將被分類至前記群組的部分樹之數目,或者,被分類至前記群組的1個部分樹或者複數語法樹所分別表示之表現,予以輸出的程式指令。
為了達成上記目的,本發明之第3觀點所述 之電腦可讀取之記錄媒體,其特徵為,記錄有統計程式,其係令電腦發揮機能而成為:輸入部,係輸入第1語句與第2語句;語法解析部,係藉由將前記第1語句與前記第2語句進行語法解析,而生成前記第1語句的語法樹與前記第2語句的語法樹;部分樹生成部,係從前記所被生成之第1語句的語法樹,將構成前記第1語句的部分樹亦即第1部分樹予以生成1或複數個,從前記所被生成之第2語句的語法樹,將構成前記第2語句的部分樹亦即第2部分樹予以生成1或複數個;一致判別部,係針對前記所被生成之1個第1部分樹或者複數第1部分樹之任1者、與前記所被生成之1個第2部分樹或者複數第2部分樹之任1者之組合的1個部分樹組合或複數部分樹組合之每一者,判別構成該當部分樹組合的第1部分樹所表示的第1表現、與構成該當部分樹組合的第2部分樹所表示的第2表現是否表示一致之內容;分類部,係針對前記被判別為彼此表示一致內容的1個第1表現與第2表現、或者複數個第1表現與第2表現之每一者,將表示該當第1表現的第1部分樹,分類至與表示該當第2表現的第2部分樹相同之群組;輸出部,係將被分類至前記群組的部分樹之數目,或 者,被分類至前記群組的1個部分樹或者複數語法樹所分別表示之表現,予以輸出。
為了達成上記目的,本發明之第4觀點所述之統計方法,係具備有輸入部、語法解析部、部分樹生成部、一致判別部、分類部、及輸出部之統計裝置所執行的方法,其特徵為,具有:輸入步驟,係由前記輸入部輸入第1語句與第2語句;和語法解析步驟,係由前記語法解析部,藉由將前記第1語句與前記第2語句進行語法解析,而生成前記第1語句的語法樹與前記第2語句的語法樹;和部分樹生成步驟,係由前記部分樹生成部,從前記所被生成之第1語句的語法樹,將構成前記第1語句的部分樹亦即第1部分樹予以生成1或複數個,從前記所被生成之第2語句的語法樹,將構成前記第2語句的部分樹亦即第2部分樹予以生成1或複數個;和一致判別步驟,係由前記一致判別部,針對前記所被生成之1個第1部分樹或者複數第1部分樹之任1者、與前記所被生成之1個第2部分樹或者複數第2部分樹之任1者之組合的1個部分樹組合或複數部分樹組合之每一者,判別構成該當部分樹組合的第1部分樹所表示的第1表現、與構成該當部分樹組合的第2部分樹所表示的第2表現是否表示一致之內容;和 分類步驟,係由前記分類部,針對前記被判別為彼此表示一致內容的1個第1表現與第2表現、或者複數個第1表現與第2表現之每一者,將表示該當第1表現的第1部分樹,分類至與表示該當第2表現的第2部分樹相同之群組;和輸出步驟,係由前記輸出部,將被分類至前記群組的部分樹之數目,或者,被分類至前記群組的1個部分樹或者複數語法樹所分別表示之表現,予以輸出。
若依據本發明所述之統計裝置、電腦程式產品、記錄媒體、及統計方法,則可以統計在所被輸入之複數語句中哪種表現被多常使用。
10‧‧‧通訊網
20、21‧‧‧終端裝置
100‧‧‧統計裝置
101‧‧‧CPU
102‧‧‧ROM
103‧‧‧RAM
104‧‧‧硬碟
105‧‧‧媒體控制器
106‧‧‧LAN卡
107‧‧‧視訊卡
108‧‧‧LCD
109‧‧‧鍵盤
110‧‧‧揚聲器
111‧‧‧觸控墊
120‧‧‧輸入部
121‧‧‧保存部
122‧‧‧語法解析部
123‧‧‧部分樹生成部
124‧‧‧一致判別部
125‧‧‧分類部
126‧‧‧統計部
127‧‧‧輸出部
128‧‧‧文節轉換部
129‧‧‧資訊記憶部
〔圖1〕統計系統之一構成例的系統構成圖。
〔圖2〕質問畫面之一例的圖示。
〔圖3〕實施例1中的統計結果畫面之一例的圖示。
〔圖4〕本發明的實施例所述之統計裝置之一例的硬體構成圖。
〔圖5〕實施例1所述之統計裝置所執行的統計處理之一例的流程圖。
〔圖6〕實施例1所述之統計裝置所具有之機能之一 例的機能區塊圖。
〔圖7〕(a)係完整樹之一例的圖示。(b)係部分樹之第一例的圖示。(c)係部分樹之第二例的圖示。 (d)係部分樹之第三例的圖示。(e)係部分樹之第四例 的圖示。(f)係部分樹之第五例的圖示。(g)係部分樹之第六例的圖示。
〔圖8〕(a)係彼此完全一致之部分樹之第一例的圖示。(b)係彼此完全一致之部分樹之第二例的圖示。
〔圖9〕(a)係彼此實質上一致之部分樹之第一例的圖示。(b)係彼此實質上一致之部分樹之第二例的圖示。
〔圖10〕彼此實質上一致之部分樹之第三例的圖示。
〔圖11〕實施例1中統計裝置所記憶的輸入語句表之一例的圖示。
〔圖12〕統計裝置所記憶之文節表之一例的圖示。
〔圖13〕統計裝置所記憶之部分樹表之一例的圖示。
〔圖14〕(a)係統計裝置所記憶之撰寫方式表之一例的圖示。(b)係統計裝置所記憶之同義詞表之一例的圖示。(c)係統計裝置所記憶之活用表之一例的圖示。
〔圖15〕統計裝置所記憶之群組表之一例的圖示。
〔圖16〕統計裝置所記憶之包含關係表之一例的圖示。
〔圖17〕統計裝置所記憶之階層構造表之一例的圖示。
〔圖18〕(a)係完整樹FT1的圖示。(b)係部分樹PT10的圖示。(c)係部分樹PT11的圖示。(d)係部分樹PT12的圖示。(e)係部分樹PT13的圖示。(f)係部分樹PT14的圖示。(g)係部分樹PT15的圖示。
〔圖19〕(a)係完整樹FT2的圖示。(b)係完整樹PT20的圖示。(c)係部分樹PT21的圖示。(d)係部分樹PT22的圖示。(e)係部分樹PT23的圖示。(f)係部分樹PT24的圖示。(g)係部分樹PT25的圖示。
〔圖20〕(a)係完整樹FT3的圖示。(b)係完整樹PT30的圖示。(c)係部分樹PT31的圖示。(d)係部分樹PT32的圖示。
〔圖21〕(a)係完整樹FT4的圖示。(b)係完整樹FT5的圖示。(c)係完整樹FT6的圖示。(d)係部分樹PT40的圖示。(e)係部分樹PT50的圖示。(f)係部分樹PT60的圖示。
〔圖22〕統計裝置所執行之部分樹分類處理之一例的流程圖。
〔圖23〕於實施例1中,部分樹分類處理執行後的群組之分類結果之一例的圖示。
〔圖24〕統計裝置所執行之部分樹統計處理之一例的流程圖。
〔圖25〕統計裝置所執行之包含關係特定處理之一 例的流程圖。
〔圖26〕統計裝置所執行之群組分類處理之一例的流程圖。
〔圖27〕於實施例1中,群組分類處理執行後的群組之分類結果之一例的圖示。
〔圖28〕於實施例2中被判別成一致的第1部分樹與第2部分樹之一例的圖示。
〔圖29〕實施例3所述之統計裝置所執行的統計處理之一例的流程圖。
〔圖30〕實施例3所述之統計裝置所具有之機能之一例的機能區塊圖。
〔圖31〕(a)係實施例3所述之統計裝置所要轉換的部分樹之第一例的圖示。(b)係實施例3所述之統計裝置所轉換過的部分樹之一例的圖示。(c)係實施例3所述之統計裝置所要轉換的部分樹之第二例的圖示。
〔圖32〕(a)係實施例3所述之統計裝置所不轉換的部分樹之一例的圖示。(b)係表示與圖32(a)所示之部分樹不同意義內容的部分樹之一例的圖示。
〔圖33〕實施例5中統計裝置所記憶的輸入語句表之一例的圖示。
〔圖34〕(a)係完整樹FT11的圖示。(b)係部分樹PT110的圖示。(c)係部分樹PT111的圖示。(d)係部分樹PT112的圖示。(e)係完整樹PT12的圖示。(f)係部分樹PT120的圖示。(g)係完整樹FT13的圖 示。(h)係部分樹PT130的圖示。
〔圖35〕(a)係完整樹FT14的圖示。(b)係部分樹PT140的圖示。(c)係部分樹PT141的圖示。(d)係完整樹FT15的圖示。(e)係部分樹PT150的圖示。(f)係部分樹PT151的圖示。(g)係完整樹FT16的圖示。(h)係部分樹PT160的圖示。(i)係部分樹PT161的圖示。
〔圖36〕(a)係完整樹FT17的圖示。(b)係部分樹PT170的圖示。(c)係部分樹PT171的圖示。(d)係完整樹FT18的圖示。(e)係部分樹PT180的圖示。(f)係部分樹PT181的圖示。
〔圖37〕於實施例5中,部分樹分類處理執行後的群組之分類結果之一例的圖示。
〔圖38〕於實施例5中,群組分類處理執行後的群組之分類結果之一例的圖示。
〔圖39〕實施例5中的統計結果畫面之一例的圖示。
〔圖40〕實施例5中的統計結果畫面之另一例的圖示。
以下,針對本發明的實施例,一面參照添附圖式一面說明之。
<實施例1>
本發明的實施例1所述之統計裝置100,係構成如圖1所示之統計系統1。統計系統1係將使用者對問卷的回答,加以統計。
統計系統1係除了由統計裝置100以外,還有電腦通訊網10(以下簡稱為通訊網10)、終端裝置20及21所構成。
通訊網10係由例如網際網路所構成。通訊網10係亦可為LAN(Local Area Network)或公眾線路網。
終端裝置20及21,係具有彼此同樣之構成,進行同樣的動作,因此以下主要是針對終端裝置20來加以說明。
終端裝置20,係由例如具備LCD(Liquid Crystal Display)等之顯示部、鍵盤及滑鼠等之輸入部的個人電腦所構成。
終端裝置20係顯示出,如圖2所示的顯示著問卷之質問的質問畫面。終端裝置20係一旦輸入部被使用者操作,則隨應於該當操作而輸入使用者針對質問的回答,所被輸入之回答會發送至統計裝置100。其後,終端裝置20係從統計裝置100接收回答的統計結果,將如圖3所示的顯示著已接收之統計結果的統計結果畫面,顯示在顯示部。
統計裝置100係由如圖4所示之伺服器機所構成。統計裝置100係由:CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、硬碟104、媒體控制器105、LAN(Local Area Network)卡106、視訊卡107、LCD(Liquid Crystal Display)108、鍵盤109、揚聲器110、及觸控墊111所構成。
CPU101係依照ROM102或硬碟104中所保存的程式而執行程式,以進行統計裝置100的全體控制。RAM103係為,在CPU101執行程式時,將處理對象的資料予以暫時記憶的工作記憶體。
硬碟104,係將保存各種資料之表格予以記憶的資訊記憶部。此外,統計裝置100係亦可取代硬碟104,改為具備快閃記憶體。
媒體控制器105,係從包含快閃記憶體、CD(Compact Disc)、DVD(Digital Versatile Disc)、及藍光碟片(Blu-ray Disc)(註冊商標)的記錄媒體中,讀出各種資料及程式。
LAN卡106係與透過通訊網10而連接的終端裝置20及21之間,收送資料。鍵盤109及觸控墊111,係將相應於使用者操作的訊號,予以輸入。
視訊卡107,係基於從CPU101所輸出的數位訊號來描繪影像(亦即rendering),並且將表示所描繪好之影像的影像訊號,予以輸出。LCD108係依照從視訊卡107所輸出的影像訊號,來顯示影像。此外,統計裝置100係亦可取得LCD108,改為具備PDP(Plasma Display Panel)或EL(Electroluminescence)顯示器。揚聲器110,係基於從CPU101所輸出的訊號,來輸出聲音。
接著說明統計裝置100所具有之機能。
CPU101係將問卷的回答予以統計,執行圖5所示的統計處理。藉此,CPU101係成為圖6所示的輸入部120、保存部121、語法解析部122、部分樹生成部123、一致判別部124、分類部125、統計部126、及輸出部127而發揮機能。又,CPU101係與圖4所示之硬碟104合作,成為資訊記憶部129而發揮機能。
輸入部120係將圖4所示的LAN卡106從終端裝置20或21所接收到的問卷之回答語句,予以輸入。保存部121係將所被輸入之語句,保存至資訊記憶部129。語法解析部122,係將資訊記憶部129中所保存的語句進行語法解析,生成表示語句的語法樹。
此處,先一度中斷針對統計裝置100所具有之機能的說明,針對語法解析部122所生成之語法樹,舉出圖7(a)所示的語法樹為例子來說明。
圖7(a)所示的語法樹,係為表示「靴下綺麗。」此一語句的語法樹。此一語法樹的根節點係為文節「落」,根節點的子節點係為文節「汚」與文節「綺麗」,文節「汚」的子節點係為文節「靴下」。這是因為,文節「靴下」是修飾著文節「汚」,文節「汚」與文節「綺麗」是修飾著文節「落」的緣故。
如此,會干預到(亦即修飾)其他文節的文節稱作干預文節,而接受了干預文節(亦即受到干預文節所修飾)的文節稱作受飾文節。亦即,文節「靴下」係為干預到文節「汚」的干預文節,文節「汚」係為接受了文節「靴下」的受飾文節。又,文節「汚」與文節「綺麗」係為干預到文節「落」的干預文節,文節「落」係為接受了文節「汚」與文節「綺麗」的受飾文節。
圖7(a)所示的語法樹,係具有干預到受飾文節「落」的2個干預文節「汚」與「綺麗」。在語法樹所表示的語句「靴下綺麗 。」中,干預文節「綺麗」是被使用在,比干預文節「汚」更靠近受飾文節「落」的位置上。因此,在圖7(a)所示的語法樹中,干預文節「綺麗」是已比干預文節「汚」更靠近受飾文節「落」(亦即更下側),且順位較高的節點來表示。亦即,當語法樹是具有干預到相同受飾文節的複數個干預文節的情況下,該當語法樹所表示的語句中,從被使用在靠受飾文節較近位置上的干預文節起,依序分配較高的順位。
統計裝置100,係將語法樹所表示的問卷語句,加以統計。以下,繼續說明統計裝置100所具有之機能。
圖6所示的部分樹生成部123,係從語法解析部122所生成的語法樹,生成出複數個該當語法樹的部分 語法樹(以下稱作部分樹)。但是,本說明書中,不只有與語法樹部分性一致的樹,就連完全一致的樹(以下稱作完整樹)也稱作部分樹。
若以表示圖7(a)所示的語句「靴下 綺麗。」的語法樹(完整樹)為例來說明,則部分樹生成部123係生成圖7(b)至圖7(g)所示的部分樹。
圖7(b)至圖7(g)所分別圖示的部分樹,係表示了圖7(a)所示之語法樹所表示的「靴下 綺麗。」的一部分或全部。
圖7(b)所示的部分樹,係和圖7(a)所示之完整樹完全一致的語法樹,表示了「靴下綺麗。」的全文。圖7(c)至圖7(g)所圖示的部分樹,係表示了該當語法樹所表示之語句「靴下綺麗。」的一部分。
具體而言,圖7(c)所示的部分樹,係表示了語句「靴下。」,圖7(d)所示的部分樹,係表示了語句「汚綺麗。」,圖7(e)所示的部分樹,係表示了語句「汚 。」,圖7(f)所示的部分樹,係表示了語句「綺麗。」,圖7(g)所示的部分樹,係表示了語句「靴下。」。
部分樹的枝數係可比完整樹的枝數還少或者相同,部分樹的高度係可比完整樹的高度還低或者相同, 且在部分樹的所有枝中,是與完整樹的枝的任一者或全部呈一致。
作為具體例,圖7(b)所示的部分樹,係為和圖7(a)所示之完整樹完全一致的語法樹,該當部分樹的枝數及高度,係與該當完整樹的枝數及高度分別一致,在該當部分樹所具有的全部的枝中,係與完整樹所具有的全部的枝一致。
相對於此,圖7(c)所示的部分樹的高度,係和圖7(a)的完整樹的高度一致,但該當部分樹係不具有連接著該當完整樹所擁有之文節「綺麗」所對應之葉子的枝。又,圖7(d)所示的部分樹,係由於不具有圖7(a)的完整樹所擁有的文節「靴下」,因此圖7(d)所示的部分樹的高度,係比圖7(a)的完整樹的高度還低。甚至,圖7(e)及圖7(f)中所分別圖示的部分樹,其枝數也是少於圖7(d)所圖示的部分樹。又,圖7(g)所圖示的部分樹之高度,係低於圖7(a)的完整樹之高度。
此處,圖7(c)的部分樹所表示的語句「靴下。」,係表示了比圖7(a)之完整樹及圖7(b)之部分樹所分別表示之語句「靴下『綺麗』落。」更為上位的概念。這是因為,語句「靴下。」係不只有表示襪子的汙垢是「乾淨地」脫落,而是也還表示了,例如襪子的汙垢是有脫落,但是沒有乾淨的脫落等。
又,圖7(d)的部分樹所表示的語句「汚 綺麗。」,係表示了比圖7(a)之完整樹及圖7(b)之部分樹所分別表示之語句「『靴下』汚 綺麗。」更為上位的概念。語句「汚綺麗。」係不只有表示「襪子」的汙垢是乾淨地脫落,而是也還表示了,例如「領子」的汙垢是乾淨地脫落等。
如此,將表示比基準的部分樹還上位之概念的部分樹,稱作比該當基準之部分樹還上位的部分樹,將表示比基準的部分樹還下位之概念的部分樹,稱作比該當基準之部分樹還下位的部分樹。
又,圖7(d)的部分樹,其枝數(亦即葉數)是比圖7(b)的部分樹少1個。亦即,圖7(d)的部分樹所表示的語句「汚綺麗。」,係比圖7(b)之部分樹所表示的語句「『靴下』汚綺麗。」,其構成語句的文節是少了1個。同樣地,圖7(c)的部分樹,其枝數係比圖7(b)的部分樹還少,圖7(c)的部分樹所表示的語句「靴下 。」係比圖7(b)的部分樹所表示的語句「靴下『綺麗』落。」,構成語句的文節是少了1個。
如此,將枝數比該當基準之部分樹少1個的部分樹,稱作該當基準之部分樹的最近上位部分樹,將枝數比該當基準之部分樹多1個的部分樹,稱作該當基準之 部分樹的最近下位部分樹。
圖6的一致判別部124,係根據與構成部分樹之文節的干預受飾關係是否一致(以下稱作部分樹是一致),來判別部分樹生成部123所生成之複數部分樹所分別表示的語句內容是否彼此一致。
若舉具體例來說明,則一致判別部124係會判別成,如圖8(a)所示之第1部分樹、和第2部分樹,是彼此完全一致。第1部分樹與第2部分樹,係高度和枝數都相同,且分別都具有根節點的文節「落」,和干預到根節點的2個文節「汚」和文節「綺麗」,干預到文節「綺麗」的文節「靴下」。
又,一致判別部124係會判別成,如圖8(b)所示的表示了語句「靴下綺麗 。」的第1部分樹,和表示了語句「綺麗靴下 。」的第2部分樹,是彼此完全一致。亦即,一致判別部124係在第1部分樹與第2部分樹中,即使干預到根節點的干預文節「汚」及「綺麗」的順位是彼此不同,只要根節點「落」、干預到根節點的2個干預文節「汚」及「綺麗」、干預到干預文節「汚 」的文節「靴下」是彼此一致,則判別成第1部分樹與第2部分樹是完全一致。這是因為,在第1部分樹所表示的語句、和第2部分樹所表示的語句中,僅僅是干預到「落」的文節「綺麗」與「汚」的記載順序不同而已,第1部分樹所表示的意義內容、和第2部分樹所表 示的意義內容是相同的緣故。
再者,一致判別部124係會判別成,如圖9(a)所示的表示「靴下綺麗」的第1部分樹,和表示「靴下綺麗」的第2部分樹,是彼此實質上一致。這是因為單詞「」係也可寫成「汚」或「」。
又,一致判別部124係會判別成,如圖9(b)所示的表示「靴下綺麗」的第1部分樹,和表示「靴下綺麗」的第2部分樹,是彼此實質上一致。這是因為「落(脫落)」和「取(移除)」是同義詞。作為同樣的例子,一致判別部124係會判別成,表示「汚綺麗洗剤」的部分樹,和表示「汚綺麗洗剤」的部分樹,是彼此實質上一致。亦即,彼此具有同義詞之關係的文節,係可為干預文節,也可為受飾文節。
又,一致判別部124係會判別成,如圖10所示的表示「靴下綺麗」的第1部分樹,和表示「靴下綺麗」的第2部分樹,是彼此實質上一致。這是因為動詞等的用言係會活用變化。作為同樣的例子,一致判別部124係會判別成,表示「汚綺麗」的部分樹,和表示「汚綺麗」的部分樹,是彼此實質上一致。亦即,活用形相異的文節,係可為干預文節,也可為受飾文節。
圖6的分類部125係基於一致判別部124的 判定結果來將部分樹劃分群組。統計部126係將已被分類至各群組的部分樹之數目,加以統計。輸出部127係將統計結果,輸出至LAN卡106。LAN卡106係將向終端裝置20或21,回送統計結果。
接著,針對資訊記憶部129中所記憶的各種表,參照圖11至圖16來說明。
資訊記憶部129係記憶著,保存有輸入部120所輸入之語句的圖11所示之輸入語句表。在輸入語句表中,識別語句的語句ID、和被該當ID所識別的語句,是被建立對應而複數保存。
又,資訊記憶部129係記憶著,保存有輸入語句表之語句中所含有之文節的、圖12所示的文節表。文節表中係有:已被保存在輸入語句表中的語句ID、被該當語句ID所識別之語句中所含之文節、識別該當文節的文節ID,是被建立對應複數保存。
再者,資訊記憶部129係記憶著,保存有被文節表之文節所構成之部分樹的、圖13所示的部分樹表。部分樹表中係有:已被保存在輸入語句表中的語句ID、將被該當語句ID所識別之語句的部分樹加以識別的部分樹ID、構成該當部分樹的文節、該當文節的文節ID、接受該當文節的受飾文節的文節ID(以下稱作受飾文節ID),是被建立對應複數保存。
又然後,資訊記憶部129係記憶著,圖14(a)所示的撰寫方式表、圖14(b)所示的同義詞表、 及圖14(c)所示的活用表。這些圖14(a)至圖14(c)所示的表,係一致判別部124為了判別複數部分樹是否實質相同,而被使用。在撰寫方式表中,單詞的撰寫方式、和與該當單詞之該當撰寫方式不同的撰寫方式,是被建立對應而複數保存。在同義詞表中,單詞、和該當單詞之同義詞,是被建立對應而複數保存。在活用表中,單詞的活用形、和與該當單詞之該當活用形不同的活用形,是被建立對應而複數保存。
此外,撰寫方式表中被彼此建立對應的撰寫方式是不同的2個單詞、同義詞表中被彼此建立對應的2個同義詞、及同義詞表中被彼此建立對應的活用形不同的2個單詞,分別稱作實質性一致(或實質上相同)的單詞。
又,資訊記憶部129係記憶著,保存有部分樹表之部分樹所被分類而成之群組的、圖15所示的群組表。群組表中係有:識別群組的群組ID、已被分類至該當群組的部分樹的部分樹ID、該當部分樹的高度、該當部分樹的總枝數、代表該當群組的部分樹(以下稱作代表樹)、該當群組的名稱、表示與該當群組之名稱完全一致之語句的部分樹之數目(以下稱作群組名一致樹數)、已被分類至該當群組的部分樹的總樹數,是被建立對應而保存。
此處,若某個群組中被分類有,表示比已被分類至某基準群組之部分樹還要下位概念的部分樹時,則 視為比該當基準群組還要下位的群組。又,已被分類至該當基準群組的部分樹所表示之概念,係包含了已被分類至比該當基準群組還下位之群組中的部分樹所表示之概念。這是因為,上位概念係包含了下位概念。
因此,資訊記憶部129係記憶著,保存有將群組的包含關係(亦即上下關係)加以表示之資料的、圖16所示的包含關係表。包含關係表中係有:已被保存在群組表中的群組ID、被該當群組ID所識別之群組的最近上位之群組的ID(以下稱作最近上位群組ID),是被彼此建立對應而保存。
此處,表示共通概念的部分樹所分別被分類而成的複數群組所成之集合,稱作群組集合。群組集合中所屬的複數群組,係如前述,分別具有上下關係,因此彼此構成了階層構造。
因此,資訊記憶部129係記憶著,保存有表示群組之階層構造之資料的、圖17所示的階層構造表。階層構造表中係有:已被保存在群組表中的群組ID、將被該當群組ID所識別之群組所隸屬之群組集合加以識別的群組集合ID、被該當群組ID所識別之群組的最近上位之群組的最近上位群組ID,是被彼此建立對應而保存。
接著,說明圖6所示的輸入部120、保存部121、語法解析部122、部分樹生成部123、一致判別部124、分類部125、統計部126、及輸出部127中所進行的CPU101之動作。
此處係舉例,統計裝置100接收到「靴下綺麗。」此一問卷之回答語句的情形來說明。
CPU101,係一旦從終端裝置20接收到回答語句,就開始執行圖5所示的統計處理。
首先,輸入部120係從圖4的LAN卡106,輸入「靴下綺麗。」此一回答語句(步驟S01)。
接著,保存部121係生成用來識別已被輸入之回答語句「靴下綺麗。」的語句ID,將所生成的語句ID、語句「靴下綺麗。」,建立對應而保存在圖11所示的輸入語句表中(步驟S02)。
此處,假設當步驟S02之處理結束時,輸入語句表係保存有以下6個語句來進行說明。
被語句ID「ST1」所識別的語句「靴下綺麗。」、被語句ID「ST2」所識別的語句「靴下綺麗。」、被語句ID「ST3」所識別的語句「綺麗。」、被語句ID「ST4」所識別的語句「汚。」、被語句ID「ST5」所識別的語句「汚。」、被語句ID「ST6」所識別的語句「格好。」。
圖5的步驟S02之後,輸入部120係將已被保存在輸入語句表中的全部回答語句,予以讀出(步驟 S03)。
接著,語法解析部122係藉由將已被輸入部120所讀出的6個語句進行構詞解析,以取得這些語句的構詞列(步驟S04a)。
接著,語法解析部122係將構詞解析所得的構詞列,進行語法解析(步驟S04b)。如此一來,語法解析部122係從上記6個輸入語句的構詞列,特定出構成上記6個輸入語句的複數文節。
其後,保存部121係將識別語句的語句ID,和從該當語句所得到的文節的文節ID、該當文節,建立對應,而保存在圖12所示的文節表中。
又,語法解析部122係使用構成被語句ID「STI」所識別之語句「靴下綺麗。」的複數文節,來生成圖18(a)所示的完整語法樹(亦即完整樹)FT1。同樣地,語法解析部122係從被語句ID「ST2」至「ST6」所分別識別的語句,生成圖19(a)、圖20(a)、圖21(a)至圖21(c)分別所示的完整樹FT2至FT6(步驟S05)。
接著,部分樹生成部123係從圖18(a)所示的完整樹FT1,生成圖18(b)至圖18(g)所示的部分樹P10至PT15(亦即所有的部分樹)。同樣地,部分樹生成部123係從圖19(a)所示的完整樹FT2,生成圖19(b)至圖19(g)所示的部分樹P20至PT25。然後,部分樹生成部123係從圖20(a)所示的完整樹FT3,生成 圖20(b)至圖20(d)所示的部分樹P30至PT32。又,部分樹生成部123係從圖21(a)至圖21(c)所示的完整樹FT4至FT6,生成圖21(d)至圖21(f)所示的部分樹PT40、PT50、及PT60(圖5的步驟S06)。
其後,圖6的保存部121係針對步驟S06所生成的複數部分樹,將部分樹之生成時所被使用過的語句的語句ID、識別該當部分樹的部分樹ID、構成該當部分樹的文節、該當文節的文節ID、接受該當文節的受飾文節的受飾文節ID,建立對應,保存在圖13所示的部分樹表中。
在圖5的步驟S06之處理中,部分樹被生成之後,執行圖22所示的部分樹分類處理,將已被生成的部分樹予以劃分群組(步驟S07a)。
一旦開始部分樹分類處理,則分類部125係先生成新的群組,然後參照圖13所示的部分樹表。接著,分類部125係在被保存在部分樹表中的部分樹ID所示別的部分樹之內,將未被分類至群組的部分樹(以下稱作未分類樹)之1者,分類至新的群組(步驟S21)。
此時,被保存在部分樹表中的部分樹ID所示別的部分樹的全部,都是未分類樹。此處係假設,分類部125係選擇被保存在部分樹表的最開頭的部分樹ID「PT10」,將被所選擇之ID所示別的、圖18(b)所示的部分樹PT10,分類至新的群組G10來進行說明。
接著,保存部121係將部分樹PT10的部分樹 ID「PT10」、和群組G10的群組ID「G10」,建立對應,保存在圖15所示的群組表中。此時,保存部121係對部分樹PT10的部分樹ID「PT10」、和群組G10的群組ID「G10」,,然後再將圖18(b)所示的部分樹PT10的高度「2」及總枝數「3」,建立對應。這是為了較容易檢索到比群組G10上位的群組。
接著,分類部125係判別是否已將圖13的部分樹表中所保存的部分樹的全部分配至某個群組(圖22的步驟S22)。此時,分類部125係尚未將部分樹PT11至PT15、PT20至PT25、PT30至PT32、PT40、PT50、及PT60做分類,因此判別成還沒有把所有的部分樹都已經分類至群組(步驟S22;No)。
其後,分類部125係將未分類樹的1個,視為現在開始要分類至群組的部分樹亦即分類對象樹(步驟S23)。
此處是假設,分類部125係在未分類樹PT11至PT15、PT20至PT25、PT30至PT32、PT40、PT50、及PT60之內,將圖18(c)所示的部分樹PT11當作分類對象樹來進行說明。
接著,分類部125係判別是否注目到已經被分類至群組的部分樹(以下稱作已分類樹)的全部(步驟S24)。此時,已分類樹係只有部分樹PT10,且尚未注目到部分樹PT10。因此,分類部125係判別成,並非已分類樹的全部都有被注目到(圖21的步驟S24;No)。
其後,分類部125係注目到未注目之1個已分類樹,視為注目已分類樹(步驟S25)。此處係假設,分類部125是注目到圖18(b)所示之已分類樹PT10來進行說明。
接著,一致判別部124係將圖18(c)之分類對象樹PT11之部分樹ID「PT11」所對應到的語句ID(以下稱作分類對象樹PT11的語句ID)「ST1」,從圖13所示的部分樹表中檢索出來。又,一致判別部124係將圖18(b)之注目已分類樹PT10之部分樹ID「PT10」所對應到的語句ID(以下稱作注目已分類樹PT10的語句ID)「ST1」,從部分樹表中檢索出來。其後,一致判別部124係判別成,分類對象樹PT11的語句ID「ST1」、和注目已分類樹PT10的語句ID「ST1」是一致(步驟S26a:Yes),返回步驟S24,重複上記處理。這是因為,部分樹生成部123係不從相同語句生成相同部分樹,因此從相同語句所生成的2個部分樹,係不會彼此一致。
其後,返回圖22的步驟S24,分類部125係判別已分類樹之全部是否都已注目過(步驟S24)。此時,已分類樹係只有部分樹PT10,部分樹PT10係為已經注目。因此,分類部125係判別成,已分類樹的全部都已有注目到(步驟S24;Yes)。
接著,分類部125係生成新的群組,將分類對象樹分類至已生成之群組(步驟S28)。此處係假設,分類部125係生成新的群組G11,將圖18(c)的分類對 象樹PT11分類至群組G11來進行說明。這是因為,由於分類對象樹PT11係與已被分類至既存群組的任一已分類樹都不一致,因此不應該分類至既存之群組。
接著,保存部121係將群組G11的群組ID「G11」、分類對象樹PT11的部分樹ID「PT11」、分類對象樹PT11的高度「2」、總枝數「2」,建立對應,保存在圖15所示的群組表中。
其後,分類部125係將分類對象樹,依序視為圖18(d)至(g)的部分樹PT12至PT15。分類部125,係重複執行圖22的步驟S22至步驟S26b及步驟S28。藉此,分類部125係生成新的群組G12至G15,將部分樹PT12至PT15,分類至這些群組G12至G15之每一者。
接著,分類部125係將圖19(b)所示之未分類樹PT20視為分類對象樹,將圖18(b)所示的已分類樹PT10當作注目已分類樹來進行說明。分類部125執行了圖22的步驟S22至步驟S25之後,一致判別部124係判別成分類對象樹PT20的語句ID「ST2」、和注目已分類樹PT10的語句ID「ST1」是相異(步驟S26a:No),執行步驟S26b之處理。
於步驟S26b中,一致判別部124係判別圖19(b)的分類對象樹PT20、和圖18(b)的注目已分類樹PT10,是否完全一致或實質性一致(以下簡稱為一致)(步驟S26b)。
此處,一致判別部124係判別成,表示了語句「靴下綺麗。」的分類對象樹PT20、和表示了語句「靴下綺麗。」的注目已分類樹PT10,係並非完全一致。這是因為,分類對象樹PT20的根節點「取」、和注目已分類樹PT10的根節點「落」是相異的緣故。
接著,一致判別部124係由於「取」和「落」,是被建立對應而保存在圖14(b)的同義詞表中,因此判別成「取」是「落」的同義詞。因此,一致判別部124係判別成,分類對象樹PT20、和注目已分類樹PT10,係為實質性一致(圖22的步驟S26b;Yes)。
其後,分類部125係向圖18(b)的注目已分類樹PT10所被分類到的群組G10,分類圖19(b)的分類對象樹PT20(步驟S27)。
接著,保存部121係將部分樹PT20的部分樹ID「PT20」、和群組G10的群組ID「G10」,建立對應,保存在圖15所示的群組表中。
其後,分類部125係將分類對象樹,依序視為圖19(c)至(g)的部分樹PT21至PT25。分類部125,係重複執行圖22的步驟S22至步驟S27。藉此,分類部125係將部分樹PT21至PT25,分別分類至圖18(c)至(g)的部分樹PT11至PT15所被分類到的既存群組G11至G15之每一者。
接著,分類部125係將圖20(b)所示之未分類樹PT30視為分類對象樹,將圖18(b)及(c)的已分類樹PT10及PT11依序當作注目已分類樹來進行說明。分類部125,係重複圖22的步驟S22至步驟S26b之處理。
接著,分類部125係將圖18(d)所示之已分類樹PT12當作注目已分類樹來進行說明。分類部125執行了步驟S22至步驟S26a之處理後,一致判別部124係判別圖20(b)的分類對象樹PT30、和圖18(d)的注目已分類樹PT12,是否一致(步驟S26b)。
此處,一致判別部124係判別成,表示了語句「綺麗」的分類對象樹PT30、和表示了語句「汚綺麗」的注目已分類樹PT12,係並非完全一致。這是因為,干預到分類對象樹PT30之根節點的干預文節「」、和干預到注目已分類樹PT12之根節點的干預文節「汚」,是相異的緣故。
接著,一致判別部124係由於「」和「汚」,是被建立對應而保存在圖14(a)的撰寫方式表中,因此判別成文節的相異只是撰寫方式的差異而已。因此,一致判別部124係判別成,分類對象樹PT30、和注目已分類樹PT12,係為實質性一致(圖22的步驟S26b;Yes)。
其後,分類部125係向與注目已分類樹PT12 相同之群組G12,分類了分類對象樹PT30(步驟S27)。
接著,保存部121係將部分樹PT30的部分樹ID「PT30」、和群組G12的群組ID「G12」,保存在圖15所示的群組表中。
其後,分類部125係將圖20(c)所示之部分樹PT31當作分類對象樹來進行說明。分類部125係藉由執行圖22的步驟S22至步驟S27,以向圖18(e)的部分樹PT13所被分類到的既存群組G13,分類部分樹PT31。
接著,分類部125係將圖20(d)所示之未分類樹PT32視為分類對象樹,將圖18(b)至(e)的已分類樹PT10至PT13依序當作注目已分類樹來進行說明。分類部125,係重複圖22的步驟S22至步驟S26b之處理。
接著,分類部125係將圖18(f)的已分類樹PT14,當作注目已分類樹來進行說明。分類部125執行了圖22的步驟S22至步驟S26b之處理後,一致判別部124係判別圖20(d)的分類對象樹PT32、和圖18(f)的注目已分類樹PT14,是否一致(步驟S26b)。
此處,一致判別部124係判別成,表示了語句「綺麗。」的分類對象樹PT32和表示了語句「綺麗。」的注目已分類樹PT14,係完全一致。這是因為,分類對象樹PT32的干預文節「綺麗」及受飾文節「落」、和注目已分類樹PT14的干預文節「綺麗」及受飾文節「落」,是一致的緣故。
其後,分類部125係向與注目已分類樹PT14相同之群組G14,分類了分類對象樹PT32(步驟S27)。接著,保存部121係將部分樹PT32的部分樹ID「PT32」、和群組G14的群組ID「G14」,建立對應,保存在圖15所示的群組表中。此時,分類部125係將部分樹ID「PT14」和「PT32」,以表示部分樹PT14與部分樹PT32是完全一致的記號「=」連結起來而保存在群組表中。
接著,分類部125係將圖21(d)所示之未分類樹PT40視為分類對象樹,將已分類樹PT10至PT12依序當作注目已分類樹來進行說明。分類部125,係重複圖22的步驟S22至步驟S26b之處理。
接著,分類部125係將圖18(e)所示之已分類樹PT13當作注目已分類樹來進行說明。分類部125執行了圖22的步驟S22至步驟S26b之處理後,一致判別部124係判別圖21(d)的分類對象樹PT40、和圖18(e)的注目已分類樹PT13,是否一致(步驟S26b)。
此處,一致判別部124係判別成,表示了語句「汚。」的分類對象樹PT40和表示了語句「汚。」的注目已分類樹PT13,係並非完全一致。這是因為,分類對象樹PT40的根節點「落 」、和注目已分類樹PT13的根節點「落」是相異的緣故。
接著,一致判別部124係由於「落」和 「落」,是被建立對應而保存在圖14(c)的活用表中,因此判別成根節點的相異只是活用形的差異而已。因此,一致判別部124係判別成,分類對象樹PT40、和注目已分類樹PT13,係為實質性一致(圖22的步驟S26b;Yes)。
其後,分類部125係向與注目已分類樹PT13相同之群組G13,分類了分類對象樹PT40(步驟S27)。
其後,分類部125係將圖21(e)所示之部分樹PT50當作分類對象樹來進行說明。分類部125係藉由執行步驟S22至步驟S27,以向既存群組G13分類部分樹PT50。
其後,分類部125係將圖21(f)所示之部分樹PT60當作分類對象樹來進行說明。分類部125係藉由執行步驟S22至步驟S26b及步驟S28,以向新的群組G16分類部分樹PT60。
接著,分類部125係在判別了已經將所有部分樹都進行了分類之後(步驟S22:Yes),結束部分樹分類處理之執行。
在圖5的步驟S07a中,一旦結束部分樹分類處理之執行,則如圖23所示,向群組G10分類了部分樹PT10及PT20,向群組G11分類了部分樹PT11及PT21,向群組G12分類了部分樹PT12、PT22、及PT30。又,向群組G13分類了部分樹PT13、PT23、PT31、PT40、及PT50,向群組G14分類了部分樹PT14、PT24、及PT32, 向群組G15分類了部分樹PT15及PT25,向群組G16分類了部分樹PT60。
圖5的步驟S07a執行後,統計部126係執行圖24所示的部分樹統計處理,將已被分類至這些群組中的部分樹之數目加以統計(步驟S07b)。
一旦開始統計處理,則統計部126係參照圖15所示的群組表。接著,統計部126係針對已被保存在群組表中的群組ID所識別的所有群組,判別是否都統計了部分樹之數目(步驟S51)。此時,由於群組G10至G16任一者均尚未被統計,因此統計部126係判別成尚未對全部的群組進行過統計(步驟S51;No)。
接著,統計部126係注目至未統計之群組的1個,將所注目到的群組當作注目群組(步驟S52)。此時,假設統計部126係在未統計之群組G10至G16之內,注目到群組G10,來進行說明。
接著,統計部126係針對已被分類至注目群組的部分樹的全部,統計彼此完全一致的部分樹之數目(亦即完全一致樹數)(步驟S53)。在圖15所示的群組表中,與群組G10的群組ID「G10」建立對應,保存有不含表示完全一致之記號「=」的「PT10,PT20」。因此,統計部126係判別成,在群組G10中,係被分類有圖18(b)所示的部分樹PT10、和圖19(b)所示的部分樹PT20,未被分類有彼此完全一致的部分樹。
接著,統計部126係將一致樹數最多的部分 樹之1者,當作代表樹(步驟S54)。此處,由於部分樹PT10及PT20之完全一致樹數係分別為「0」,因此假設統計部126係將部分樹ID較年輕的部分樹PT10當作代表樹來進行說明。
接著,統計部126係基於代表樹來決定注目群組的名稱(步驟S55)。此處係假設,統計部126係將代表樹PT10所表示的語句「靴下綺麗 。」當作注目群組G10之名稱來進行說明。
接著,統計部126係算出已被分類至注目群組的部分樹之總數(以下稱作總樹數)(步驟S56)。此處,假設統計部126係基於群組ID「G10」所對應到的「PT10,PT20」而算出總樹數「2」來說明。
其後,保存部121係將群組ID「G10」、代表樹的部分樹ID「PT10」、群組名「靴下綺麗。」、群組的群組名一致樹數「1」、總樹數「2」,建立對應,保存在圖15所示的群組表中。
接著,假設統計部126係將群組G11及G12依序當作注目群組來進行說明。統計部126係重複執行步驟S51至步驟S56之處理。
藉此,在群組表中,群組ID「G11」、代表樹的部分樹ID「PT11」、群組名「靴下 。」、群組名完全一致樹數「1」、總樹數「2」,是被建立對應而保存。
又,在群組表中,群組ID「G12」、代表樹 的部分樹ID「PT12」、群組名「汚綺麗 。」、群組名完全一致樹數「1」、總樹數「3」,是被建立對應而保存。
接著,假設統計部126係將群組G13當作注目群組來進行說明。統計部126係執行步驟S51及步驟S52之處理。
此處,在圖15所示的群組表中,與群組G13的群組ID「G13」建立對應,保存了含有被表示完全一致之記號「=」所連結之「PT13」及「PT50」的「PT13=PT50,PT23,PT31,PT40」。因此,統計部126係判別成,在群組G13中係被分類有圖18(e)的部分樹PT13、圖19(e)的部分樹PT23、圖20(c)的部分樹PT31、圖21(d)的部分樹PT40、及圖21(e)的部分樹PT50。又,統計部126係判別成,部分樹PT13與部分樹PT50係為彼此完全一致。
因此,統計部126係統計成,已被分類至注目群組G13的部分樹13及PT50的完全一致樹數係分別為「1」,部分樹PT23、PT31、及PT40的完全一致樹數係分別為「0」(步驟S53)。
接著,由於部分樹PT13及PT50之完全一致樹數係分別為「1」,因此統計部126係將部分樹ID較年輕的部分樹PT13當作代表樹(步驟S54)。
接著,統計部126係執行步驟S55及步驟S56。藉此,在群組表中,群組ID「G13」、代表樹的部 分樹ID「PT13」、群組名「汚。」、群組名完全一致樹數「2」、總樹數「5」,是被建立對應而保存。
接著,假設統計部126係將群組G14至G16依序當作注目群組來進行說明。統計部126係重複執行步驟S51至步驟S56之處理。
藉此,在群組表中,群組ID「G14」、代表樹的部分樹ID「PT14」、群組名「綺麗。」、群組名完全一致樹數「2」、總樹數「3」,是被建立對應而保存。又,群組ID「G15」、代表樹的部分樹ID「PT15」、群組名「靴下。」、群組名完全一致樹數「1」、總樹數「2」,是被建立對應而保存。
再者,在群組表中,群組ID「G16」、代表樹的部分樹ID「PT60」、群組名「格好 。」、群組名完全一致樹數「1」、總樹數「1」,是被建立對應而保存。
其後,統計部126係判別成群組G10至G16全部都已統計(步驟S51:Yes),結束部分樹統計處理之執行。
一旦圖5的步驟S07b的執行結束,則分類部125係執行如圖25所示之包含關係特定處理,將這些群組的包含關係予以特定(步驟S08)。
一旦開始包含關係特定處理,則分類部125係從圖15所示的群組表,取得群組ID「G10」至 「G16」。
接著,分類部125係判別,被從群組表所取得之群組ID所分別識別的所有群組,是否都已經注目到(步驟S61)。此時,分類部125係由於包含關係特定處理該開始,因此任一群組都尚未注目。因此,分類部125係判別成,並非所有的群組都已注目過了(步驟S61;No)。
接著,分類部125係將尚未注目之群組的群組ID「G10」至「G16」之1者,當作注目群組(步驟S62)。此處,假設將群組ID的號碼最年輕的群組G10當作注目群組來說明。
接著,分類部125係將與注目群組G10不同之群組G11至G16,當作與注目群組進行比較的群組(以下稱作比較對象群組)(步驟S63)。
其後,分類部125係判別,是否已經對所有的比較對象群組G11至G16,都已經注目(步驟S64)。此時,分類部125係由於比較對象群組G11至G16之任一者都尚未注目,因此判別成並非注目過比較對象群組G11至G16(步驟S64;No)。
接著,分類部125係注目到未注目的比較對象群組G11至G16之1者,將所注目到的群組當作注目比較對象群組(步驟S65)。此處,假設分類部125係將群組ID最年輕的比較對象群組G11當作注目比較對象群組來說明。
接著,一致判別部124係判別注目比較對象群組G11是否為注目群組G10的最近上位之群組(步驟S66)。具體而言,一致判別部124係從圖15所示的群組表,取得注目群組G10所被對應到的總枝數「3」。此總枝數係已被分類至注目群組G10中的代表樹PT10之總枝數,係為代表樹PT10所表示之干預受飾關係的總數。又,一致判別部124係取得注目比較對象群組G11所被對應到的總枝數「2」。此枝數係為已被分類至注目比較對象群組G11中的代表樹PT11之總枝數。其後,一致判別部124係判別成,注目比較對象群組G11之總枝數「2」是只比注目群組G10的總枝數「3」少1,判別注目比較對象群組G11是有可能為注目群組G10的最近上位之群組。如前述,這是因為,注目群組的最近上位之群組中所屬的部分樹之枝數,係比注目群組中所屬之部分樹的枝數少1個的緣故。
接著,一致判別部124係判別注目比較對象群組G11的代表樹PT11,是否為注目群組G10的代表樹PT10的部分語法樹。若代表樹PT11是代表樹PT10的部分語法樹,則代表樹PT11所表示的概念,係包含代表樹PT10所表示的概念。因此,一致判別部124係一旦判別成代表樹PT11是代表樹PT10的部分語法樹,則判別成注目比較對象群組G11是注目群組G10的最近上位之群組。
具體而言,一致判別部124係從群組表,取 得注目群組G10的群組ID(以下稱作注目群組ID)「G10」所被對應到的高度「2」。該高度係為代表圖18(b)所示之注目比較對象群組G10的代表樹PT10之高度。又,一致判別部124係從群組表,取得注目比較對象群組G11的注目群組ID「 」G11所被對應到的高度「2」。該高度係為代表圖18(c)所示之注目群組G11的代表樹PT11之高度。
一致判別部124係由於注目比較對象群組G11的代表樹PT11、和注目群組G10的代表樹PT10係為相同高度,因此判別成代表樹PT11所表示之概念,有可能是代表樹PT10所表示之概念的更上位之概念。這是因為表示上位概念的部分樹之高度,係與表示下位概念的部分樹之高度相同或是比其還低的緣故。
然後,一致判別部124係判別成,代表樹PT11的根節點「落」、和代表樹PT10的根節點「落」是一致。又,一致判別部124係判別成,干預到代表樹PT11之根節點的文節「汚」、和干預到代表樹PT10之根節點的文節「汚」是一致。又然後,一致判別部124係判別成,干預到代表樹PT11之文節「汚 」的「靴下」、和干預到代表樹PT10之文節「汚 」的「靴下」是一致。亦即,一致判別部124係判別成,注目群組G10的代表樹PT10,係具有注目比較對象群組G11的代表樹PT11所擁有之所有的受飾文節及干預文節。
因此,一致判別部124係判別成,已被分類至注目比較對象群組G11中的代表樹PT11,係為注目群組G10的代表樹PT10的部分語法樹。因此,一致判別部124係判別成,注目比較對象群組G11係為注目群組G10的最近上位群組(圖25的步驟S66;Yes)。
此外,一致判別部124係當代表樹PT10是具有與代表樹PT11所擁有之所有的受飾文節及干預文節完全一致或實質性一致的受飾文節及干預文節時,也判別成代表樹PT11係為代表樹PT10的部分語法樹。
接著,分類部125係將注目比較對象群組G11的群組ID「G11」,當作注目群組G10的最近上位群組ID。其後,保存部121係將注目群組G10的群組ID「G10」、和最近上位群組ID「G11」,建立對應,保存在圖16所示的包含關係表中(圖25的步驟S67)。
其後,分類部125係返回步驟S64,判別成並非注目過比較對象群組G11至G16(步驟S64;No)。這是因為,分類部125係在比較對象群組G11至G16之內,只注目到比較對象群組G11。
接著,假設分類部125係在未注目的比較對象群組G12至G16之內,將比較對象群組G12當作注目比較對象群組(步驟S65)。
接著,一致判別部124係判別成,注目比較對象群組G12是注目群組G10的最近上位之群組(步驟S66)。具體而言,一致判別部124係從圖15所示的群組 表,取得注目群組G10所被對應到的總枝數「3」和注目比較對象群組G12所對應到的總枝數「2」。其後,一致判別部124係判別成,注目比較對象群組G12之總枝數「2」是只比注目群組G10的總枝數「3」少1,判別注目比較對象群組G12是有可能為注目群組G10的最近上位之群組。
接著,一致判別部124係從群組表中,取得注目群組G10的群組ID「G10」所對應到的高度「2」、和注目比較對象群組G12的注目群組ID「G12」所對應到的高度「1」。注目比較對象群組G12的代表樹PT12之高度,係低於注目群組G10的代表樹PT10之高度,因此一致判別部124係判別成代表樹PT12所表示之概念,有可能是代表樹PT10所表示之概念的更上位之概念。
然後,一致判別部124係判別成,代表樹PT12的根節點「落」、和代表樹PT10的根節點「落」是一致。又,一致判別部124係判別成,干預到代表樹PT12之根節點的文節「汚」、和干預到代表樹PT10之根節點的文節「汚」是一致。又然後,一致判別部124係判別成,干預到代表樹PT12之根節點的文節「綺麗」、和干預到代表樹PT10之根節點的文節「綺麗」是一致。亦即,一致判別部124係判別成,注目群組G10的代表樹PT10,係具有注目比較對象群組G12的代表樹PT12所擁有之所有的受飾文節及干預文節。
因此,一致判別部124係判別成,已被分類至注目比較對象群組G12中的代表樹PT12,係為注目群組G10的代表樹PT10的部分語法樹,注目比較對象群組G12係為注目群組G10的最近上位之群組(步驟S66;Yes)。
接著,分類部125係將注目比較對象群組G12的群組ID「G12」,當作注目群組G10的最近上位群組ID。因此,分類部125係保存部121係將注目群組G10的群組ID「G10」、和最近上位群組ID「G11」,建立對應,保存在圖16所示的包含關係表中(步驟S67)。其後,分類部125係從步驟S64起重複上記處理。
其後,分類部125係將比較對象群組G13當作注目比較對象群組,執行步驟S64及S65之處理。
其後,一致判別部124係判別成,注目比較對象群組G13不是注目群組G10的最近上位之群組(步驟S66;No)。這是因為,在群組表中,注目比較對象群組G13所被對應到的總枝數「1」,係比注目群組G10所被對應到的總枝數「3」少了2以上的緣故。
其後,分類部125係將比較對象群組G14至G16分別當作注目比較對象群組,重複執行步驟S64至S66之處理。藉此,分類部125係判別成注目比較對象群組G14至G16,不是注目群組G10的最近上位之群組。
其後,分類部125係判別成,已經注目到所 有的比較對象群組G11至G16(步驟S64;Yes)。
接著,分類部125係判別成,在圖16所示的包含關係表中,注目群組G10的群組ID「G10」、和最近上位群組的群組ID「G11」及「G12」,是被建立對應而保存(步驟S68;Yes)。因此,分類部125係將注目群組G10判別成並非最上位的群組。
接著,分類部125係將群組G11及G12依序當作注目群組,從步驟S61起重複上記處理。藉此,保存部121係將群組G11的群組ID「G11」、群組G11的最近上位群組的群組ID「G13」及「G15」,建立對應而保存在圖16所示的包含關係表中。又,保存部121係將群組G12的群組ID「G12」、群組G12的最近上位群組的群組ID「G13」及「G14」,建立對應而保存在包含關係表中。
接著,分類部125係將群組G13當作注目群組,將群組G10至G12及G14至G16當作注目比較對象群組,重複執行步驟S61至步驟S66之處理。其後,分類部125係判別成,已經注目到所有的比較對象群組G10至G12及G14至G16(步驟S64;Yes)。
接著,分類部125係判別成,在圖16所示的包含關係表中,注目群組G13的群組ID「G13」、和最近上位群組的群組ID,未被建立對應而保存(步驟S68;No)。因此,分類部125係判別成注目群組G13是最上位的群組(步驟S69)。
其後,保存部121係將群組G13的群組ID、和表示群組G13的最近上位群組是不存在的記號「-」,建立對應,保存在包含關係表中。
其後,分類部125係將群組G14至G16當作注目群組,重複執行步驟S61至S66、步驟S68、及S69之處理。藉此,保存部121係將群組G14至G16的群組ID、和表示這些群組的最近上位群組是不存在的記號「-」,建立對應,保存在包含關係表中。
其後,分類部125係判別成群組G10至G16全部都已注目(步驟S61:Yes),結束包含關係特定處理之執行。
圖5的步驟S08執行後,基於群組中所被分類之部分樹所表示之概念來分類群組,特定出已分類之群組間的階層構造,執行如圖26所示之群組分類處理(圖5的步驟S09)。
一旦開始群組分類處理,則分類部125係參照圖16所示的包含關係表。接著,分類部125係取得被保存在包含關係表中的記號「-」所對應到的群組ID「G13」至「G16」。記號「-」所對應到的群組ID,係為最近上位群組是不存在的最上位群組。
接著,分類部125係判別,針對尚未被分類至群組集合的最上位群組(以下稱作未分類之最上位群組)G13至G16之全部,是否都已注目(步驟S71)。此時,分類部125係由於群組分類處理是剛開始,因此未分 類之最上位群組G13至G16之任一者都尚未注目,所以判別成未分類之最上位群組G13至G16之全部都未注目(步驟S71;No)。
接著,分類部125係針對未分類之最上位群組G13至G16之1者,進行注目,當作注目群組(步驟S72)。此處係假設,分類部125係注目到群組G13來說明。
接著,分類部125係生成,注目群組G13之代表樹PT13所表示之「汚」此一概念加以表示的部分樹所被分類到的群組所被分類的新群組集合SG1(步驟S73)。其後,分類部125係向所生成之群組集合SG1,分類了注目群組G13(步驟S74)。接著,保存部121係將群組集合SG1的群組集合ID「SG1」、和注目群組G13的群組ID「G13」,建立對應,保存在圖17所示的階層構造表中。
接著,分類部125係從圖16所示的包含關係表,檢索出注目群組G13的最近下位之群組,判別成已取得群組G11及群組G12(步驟S75;Yes)。具體而言,分類部125係取得最近上位群組ID「G13」所對應到的群組ID「G11」及「G12」,將被已取得之群組ID「G11」及「G12」所識別的群組G11及G12,當作最近下位群組(以下稱作取得群組)。
接著,分類部125係向步驟S73所作成的新的群組集合SG1,分類了取得群組G11及G12(步驟 S76)。
接著,分類部125係注目到取得群組G11及G12之1者,當作注目群組(步驟S77)。此處係假設,分類部125係將取得群組G11當作注目群組來說明。
其後,分類部125係藉由執行步驟S75至步驟S77,以取得注目群組G11的最近下位之群組G10,向群組集合SG1分類了群組G10,將群組G10當作注目群組。
其後,分類部125係執行步驟S75,判別成從 圖16所示的包含關係表,無法取得注目群組G10的最近下位之群組(步驟S75;No)。
接著,分類部125係判別成,在步驟S76所取得的取得群組G11、G12、及G10之內,還有尚未注目的群組G12(步驟S78;Yes)。
接著,分類部125,係將尚未注目的群組G12當成注目群組(步驟S79),重複步驟S75至S77之處理。藉此,分類部125係取得注目群組G12的最近下位之群組G10。又,保存部121係將群組集合ID「SG1」、群組ID「G10」、最近上位群組ID「G12」,建立對應,保存在圖17所示的階層構造表中。
其後,分類部125係在步驟S75中,判別成從圖16所示的包含關係表,無法取得注目群組G10的最近下位之群組(步驟S75;No)。
接著,分類部125係判別成,在步驟S76所 取得的取得群組G11、G12、及G10之內,沒有尚未注目的群組(步驟S78;No)。
其後,分類部125係重複執行步驟S71至步驟S77。藉此,分類部125係生成新的群組集合SG2至SG4。又,分類部125係將群組G14、群組G14的最近下位群組G12、群組G12的最近下位群組G10,分類至群組集合SG2。然後,分類部125係將群組G15、群組G15的最近下位群組G11、群組G11的最近下位群組G10,分類至群組集合SG3。又然後,分類部125係將群組G16分類至群組集合SG4。
其後,分類部125係判別成,沒有尚未注目的取得群組(步驟S78;No)。接著,分類部125係判別成最上位群組G13至G16全部都已注目(步驟S71:Yes),結束群組分類處理之執行。
在圖5的步驟S09中,一旦結束群組分類處理之執行,則表示「綺麗。」此一彼此共通概念的部分樹所被分類的群組G10、G12、及G14,係被分類至群組集合SG2。這些群組G10、G12、及G14,係形成如圖27所示的階層構造。在此階層構造中,係將群組G10,包含在比群組G10上位的群組G12,將群組G12,包含在比群組G12上位的群組G14。
此外,已被分類至群組集合SG1的群組G10、G11、G12、及G13,已被分類至群組集合SG3的群組G10、G11、及G15,以及已被分類至群組集合SG4的 群組G16,係雖然省略圖示,但分別形成不同的階層構造。
在圖5的步驟S09中執行了部分樹統計處理後,圖6所示的輸出部127,係執行生成圖3所示之統計結果畫面的統計結果畫面生成處理(步驟S10)。
一旦開始統計結果畫面生成處理,則輸出部127係生成圖3所示之統計結果畫面。接著,輸出部127係將已分別被分類至圖17所示之階層構造表中所保存之群組集合GS1至GS4中的群組予以表示的樹T1至4,顯示在統計結果畫面。
具體而言,首先,輸出部127係從階層構造表,取得表示沒有最近上位群組之記號「-」所對應到的群組ID(亦即最上位群組的群組ID)「G13」。接著,輸出部127係從圖15所示的群組表,取得群組ID「G13」所對應到的群組名「汚。」、群組名一致樹數「2」、及總樹數「5」。其後,輸出部127係生成,在表示已取得之群組名的字串的末尾,表示有將群組名一致樹數以圓括弧包住之字串、和將總樹數以方括弧包住之字串的根RT1,作為樹T1的根。
接著,輸出部127係從階層構造表,取得最近上位群組ID「G13」所對應到的群組ID(亦即群組G13的最近下位群組的群組ID)「G11」及「G12」。接著,輸出部127係從群組表中,取得群組ID「G11」所對應到的群組名「靴下。」、群組名一致樹數 「1」、及總樹數「2」。又,輸出部127係從群組表中,取得群組ID「G12」所對應到的群組名「汚綺麗。」、群組名一致樹數「1」、及總樹數「3」。其後,輸出部127係對2個群組分別生成,在表示已取得之群組名的字串的末尾,表示有將各個群組的群組名一致樹數以圓括弧包住之字串、和將總樹數以方括弧包住之字串的葉LF12及LF13。接著,輸出部127係分別生成將葉LF12及LF13、與根RT1連結起來的枝。
其後,輸出部127係從階層構造表,取得最近上位群組ID「G11」所對應到的群組ID(亦即群組G11的最近下位群組的群組ID)「G10」。接著,輸出部127係從群組表中,取得群組ID「G10」所對應到的群組名「靴下綺麗。」、群組名一致樹數「1」、及總樹數「2」。其後,輸出部127係生成,在表示已取得之群組名的字串的末尾,表示有將各個群組的群組名一致樹數以圓括弧包住之字串、和將總樹數以方括弧包住之字串的葉LF14。其後,輸出部127係生成將葉LF14、葉LF12連結起來的枝。
同樣地,輸出部127係從階層構造表,取得最近上位群組ID「G12」所對應到的群組ID(亦即群組G12的最近下位群組的群組ID)「G10」。其後,輸出部127係生成,在表示群組G10之群組名的字串的末尾,表示有將群組G10的群組名一致樹數以圓括弧包住之字串、和將總樹數以方括弧包住之字串的葉LF15。其後,輸出 部127係生成將葉LF15、葉LF13連結起來的枝。
如此,輸出部127係生成具有根RT1、葉LF11至LF15的樹T1。又,輸出部127係同樣地,生成具有根RT2與葉LF22及LF23的樹T2、具有根RT3與葉LF31及LF32的樹T3、僅具有根RT4的樹T4。其後,輸出部127係將樹T1至樹T4,顯示在統計結果畫面。
其後,輸出部127係將已生成之統計畫面,輸出至LAN卡106(圖5的步驟S11)。其後,LAN卡106係向終端裝置20發送了統計結果畫面後,輸出部127係結束統計處理之執行。
此外,終端裝置20係一旦接收統計結果畫面,則將所接收到的統計結果畫面,顯示在顯示部。
在本實施例中,雖然假設輸入部120是輸入了從終端裝置20或21所接收到的問卷之回答語句,但回答語句係不限定於日文。
若依據這些構成,則統計裝置100係可針對部分樹PT10至PT15之任1者、和部分樹PT20至PT25之任1者之組合的全部,執行圖21的步驟S26b之處理。統計裝置100係在步驟S26b中,若判別成部分樹PT10至PT15之任1者所代表的表現、和部分樹PT20至PT25之任1者所代表的表現是一致,則將這些部分樹分類至相同群組。其後,統計裝置100係將已被分類至群組的部分樹之數目、或是已被分類至該當群組的1個部分樹或者複數部分樹所分別表示的表現,予以輸出。因此,統計裝置 100係可統計出,在已被輸入之複數語句中部分樹所表示之表現被多常使用。
又,若依據這些構成,則統計裝置100係基於部分樹之高度、枝數、根與枝上所附著的葉所被個別分配的文節,來判別複數部分樹是否表示了相同的表現。此處,若部分樹的高度及枝數不同,則根與枝上所附著之葉所被分別分配到的文節的干預受飾關係就不同。因此,統計裝置100係可判別複數部分樹是否表示了干預受飾關係相同的表現。
甚至,若依據這些構成,則統計裝置100係於圖21的步驟S26b中,根據部分樹PT10的干預文節、和部分樹PT20的干預文節是否一致、及部分樹PT10的受飾文節、和部分樹PT20的受飾文節是否一致,來判別部分樹PT10所表示之表現與部分樹PT20所表示之表現是否表示了一致之內容。此處,部分樹的高度、枝數、及文節即使相同,若干預文節彼此及受飾文節彼此之任一者有不同,則文節的干預受飾關係就不同。因此,統計裝置100係可高精度地判別複數部分樹是否表示了干預受飾關係相同的表現。
又甚至,若依據這些構成,則統計裝置100係於圖23的步驟S38中,將群組G10與群組G11之間的包含關係,基於群組G10中所屬之部分樹的高度、枝數、及文節之數目,和群組G11中所屬之部分樹的高度、枝數、及文節之數目,來加以判別。因此,統計裝置100係 可將已被分類至群組G11的部分樹PT10及PT20所分別表示的表現,和已被分類至群組G12的部分樹PT11及PT21所分別表示的表現,基於群組G11與群組G12之包含關係而予以排列而輸出。因此,使用者係可容易理解,部分樹PT10及PT20所分別表示的表現是否分別表示相同的內容,是否將部分樹PT11及PT21所分別表示的相同內容加以表示之表現中所包含之概念加以表示。
若依據這些構成,則統計裝置100係於圖23所示的群組分類處理中,統計裝置100係若已被分類至群組G11的部分樹PT11所具有之干預文節的全部,是已被分類至群組G10的部分樹PT10所具有之干預文節之任一者一致,則判別成部分樹PT11所表示之表現,是部分樹PT10所表示之表現的更上位之表現。又,統計裝置100係若判別成,已被分類至群組G11的部分樹PT11所表示之表現,是已被分類至群組G10的部分樹PT10所表示之表現更上位之表現,則將群組G11當作比群組G10更上位的群組。此處,干預到相同受飾文節的干預文節的數目越多,則這些干預文節係將受飾文節所表示之內容做更詳細地限定。因此,統計裝置100係可高精度地判別已被分類至複數群組的複數部分樹所分別表示之表現的包含關係。
若依據這些構成,則統計裝置100係於圖23所示的群組分類處理中,統計裝置100係在已被分類至群組G11的部分樹PT11、和已被分類至群組G13的部分樹 PT13中,一旦判別成干預文節「汚」及受飾文節「落」是一致,則判別成不具有干預到干預文節「汚」的「靴下」的部分樹PT13所表示之表現,係為部分樹PT11表示之表現更上位之表現。此處,干預文節所被追加的部分樹,係表示了,將追加前的部分樹所表示之表現以干預文節做更為限定之表現。因此,統計裝置100係可高精度地判別複數部分樹所分別表示之表現的包含關係。
又,若依據這些構成,則於圖21所示的部分樹分類處理中,即使分類對象樹之文節與注目已分類樹之文節是有表現的變易,或分類對象樹之文節是注目已分類樹之文節的同義詞或是換句話說的情況下,仍可判別分類對象樹所表示之表現與分類對象樹所表示之表現是否為表示了同一內容之表現。
在本實施例中,統計裝置100係具備圖6所示的輸入部120、保存部121、語法解析部122、部分樹生成部123、一致判別部124、分類部125、統計部126、輸出部127、及資訊記憶部129來進行說明。可是,統計裝置100係並不一定要具備輸入部120、保存部121、語法解析部122、部分樹生成部123、一致判別部124、分類部125、統計部126、輸出部127、及資訊記憶部129之全部,亦可不具備任一部。
<實施例2>
在實施例1中,如參照圖9(b)所說明,圖6的一致判別部124,係判別成,第1部分樹所表示之語句「靴下綺麗。」、和第2部分樹所表示之語句「靴下綺麗。」,係表示實質性一致之內容。這是因為,第1部分樹的根節點、和第2部分樹的根節點是彼此相異的同義詞,干預到根節點的文節「汚」及「綺麗」、和干預到文節「汚」的文節「靴下」是在第1部分樹與第2部分樹中一致的緣故。
在實施例2中,一致判別部124係第1部分樹是具有根節點等之受飾文節、和干預到該當受飾文節之所定數之干預文節,且第2部分樹是具有根節點等之受飾文節、和干預到該當受飾文節之所定數之干預文節的情況下,若判別成該當所定數之干預文節是彼此都一致,則判別成受飾文節也是彼此一致,且判別成第1部分樹與第2部分樹是一致。此外,合適的所定數,是可由當業者藉由實驗來決定。
舉例說明圖28所示的第1部分樹與第2部分樹。
一致判別部124係判別成,圖28所示之第1部分樹所表示之語句「私興味。」、和第2部分樹所表示之語句「私興味。」,係表示實質性一致之內容。
這是因為,一致判別部124係即使第1部分樹的根節點、和第2部分樹的根節點是相異,且彼此不是 同義詞,但若干預到根節點的文節「」及「興味」、和干預到文節「興味」的文節「私」,是在第1部分樹與第2部分樹中一致的情況下,則判別成第1部分樹與第2部分樹是實質性一致。
此處,使用者係對問卷等之質問,以定型化的語句來進行回答的情況較多。在該已被定型化的語句中,經常會存在有,修飾語(亦即干預文節)是已被定型化但被修飾語(亦即受飾文節)並未被定型化,表示相同內容的複數語句。因此,若依據這些構成,則即使受飾文節不是彼此一致,而所定數之干預文節是彼此一致的情況下,則一致判別部124係一致判別部124係將受飾文節視為彼此一致。因此,當複數部分樹所分別表示之複數語句是已被定型化的語句時,可較先前更高精度地判別複數部分樹是否表示彼此一致之內容。
<實施例3>
在實施例1中,雖然說明圖4所示之CPU101係執行圖5所示之統計處理,但在實施例3中,CPU101係執行圖29所示的統計處理。藉此,CPU101係除了圖6所示之各機能部以外,還會成為圖30所示的文節轉換部128而發揮機能。
文節轉換部128,係當已被部分樹生成部123所生成之部分樹,是滿足以下轉換前條件(1)至(3)之全部時,則將部分樹予以轉換以滿足以下的轉換後條件 (1)及(2)。
轉換前條件(1):部分樹的干預文節之末尾是助詞的「」或「」。
轉換前條件(2):該當干預文節是含有動詞、形容詞或形容動詞(亦即用言),表示了肯定表現,且該當干預文節、和接受該當干預文節的受飾文節之間,沒有句讀點「、」或「,」。
轉換前條件(3):該當受飾文節是表示否定表現。
轉換後條件(1):該當受飾文節是表示肯定表現。
轉換後條件(2):該當干預文節是表示否定表現。
此處,例如,舉例已被生成之部分樹,是如圖31(a)所示之部分樹的情形為例子來說明。
圖31(a)所示的部分樹係表示「私。」。文節轉換部128係將此部分樹,轉換成圖31(b)所示的表示「私。」的部分樹。
這是因為,干預到此部分樹之文節「思 」的干預文節「落」的末尾是助詞的「」,因此文節轉換部128係判別成圖31(a)的部分樹是滿足轉換前條件(1)。
又,該部分樹的干預文節「落」,係含有動詞(亦即用言)。又,該當干預文節「落 」,係為肯定表現。再者,該當干預文節「落 」、和接受干預文節「落」的受飾文節「思 」之間,沒有句讀點「、」或「,」。因此,文節轉換部128係判別成圖31(a)的部分樹是滿足轉換前條件(2)的緣故。
再者,此部分樹的受飾文節「思」係含有否定表現。因此,文節轉換部128係判別成圖31(a)的部分樹是滿足轉換前條件(3)的緣故。
因此,文節轉換部128係將受飾文節「思 」,轉換成表示肯定表現的「思」,且將干預文節「落」,轉換成表示否定表現的「落」。藉此,文節轉換部128係進行轉換成,滿足轉換後條件(1)及(2)的圖31(b)所示的部分樹。
圖31(a)所示的轉換前的部分樹係表示語句「汚。」。被此語句的文節「思 」此一否定表現所否定的是,干預到文節「思 」的文節「落」。因此,將文節「思」變成肯定表現「思」,將干預文節「落」變成否定表現「落」,意義內容仍沒有變化。亦即,圖31(a)所示的轉換前的部分樹所表示之語句「汚。」、圖31(b)所示的轉換後的部分樹所表示之語句「汚。」,係表示相同意義內容。因此,文節轉換部128將部分樹進行轉換之前和之後,部分樹所表示之語句的內容係沒有變化。
同樣地,部分樹生成部123所生成之部分 樹,是如圖31(c)所示之部分樹的情況下,文節轉換部128係進行轉換成圖31(b)所示的部分樹。
圖31(c)所示的部分樹係表示「私』思。」。由於此部分樹的文節「落」之末尾是助詞的「」,因此文節轉換部128係判別成此部分樹是滿足轉換前條件(1)。
相對於此,部分樹生成部123所生成之部分樹,是如圖32(a)所示之部分樹的情況下,文節轉換部128係不進行轉換成圖32(b)所示的部分樹。
圖32(a)所示的部分樹係表示「私、聞」。由於此部分樹的干預文節「落 」、和受飾文節「聞」之間有句讀點「、」,因此文節轉換部128係判別成此部分樹是不滿足轉換前條件(2)。
圖32(a)所示的轉換前的部分樹係表示「汚、聞。」,被此語句的文節「聞 」此一否定表現所否定的,並非干預到文節「聞 」的文節「落」。這是因為在文節「聞」和文節「落」之間有使用到句讀點的緣故。
因此,將文節「聞」變成肯定表現「聞」,將干預文節「落」變成否定表現「落 」,意義內容是沒有變化。亦即,圖32(a)所示的部分樹所表示之語句「汚、聞」,係並不是言及是否為圖32(b)所示的部分樹所表示之語句 「汚」的語句。因此,文節轉換部128係不將不滿足轉換前條件(2)的部分樹進行轉換。
接著說明圖30所示之文節轉換部128等各機能部中所進行的CPU101之動作。
CPU101,係一旦從終端裝置20或21接收到問卷的回答語句,就開始執行圖29所示的統計處理,執行步驟S01至S06之處理。
接著,文節轉換部128係在步驟S05及步驟S06所分別生成之複數部分樹之內,執行轉換處理,將滿足上記轉換前條件(1)至(3)之全部的部分樹,轉換成滿足上記轉換後條件(1)及(2)的部分樹(步驟S06b)。
其後,分類部125係使用已被轉換之部分樹,執行圖21所示的部分樹分類處理(步驟S07a)。
此處,針對圖22的步驟S26b,舉例注目已分類樹係為圖31(b)所示的部分樹,分類對象樹是藉由文節轉換部128,而從圖31(a)所示之部分樹被轉換成圖31(b)所示之部分樹的情形為例子來說明。
轉換前的分類對象樹所表示之語句,係為如圖31(a)所示的「私。」。相對於此,注目已分類樹所表示之語句,係為如圖31(b)所示的「私。」。因此,無論轉換前的分類對象樹、與注目已分類樹是否表示相同分類對象樹之語句,都不會被判別成是彼此一致之部分 樹。這是因為,轉換前的分類對象樹的干預文節「落 」、和注目已分類樹的干預文節「落」是不同,且轉換前的分類對象樹的受飾文節「思」、和注目已分類樹的受飾文節「思」是不同的緣故。
可是,轉換後的分類對象樹所表示之語句,係和注目已分類樹所表示之語句相同,係為圖31(b)所示之語句「汚。」。因此,轉換後的分類對象樹、與注目已分類樹,係被判別成是彼此一致的部分樹。因此,若依據這些構成,則判別複數部分樹是否表示相同內容的判別精度,是比先前還要提升。
在本實施例中,統計裝置100係具備圖30所示的輸入部120、保存部121、語法解析部122、部分樹生成部123、一致判別部124、分類部125、統計部126、輸出部127、文節轉換部128、及資訊記憶部129來進行說明。可是,統計裝置100係並不一定要具備這些部的全部,亦可不具備任一部。
<實施例4>
在實施例3中係說明了,文節轉換部128係當已被部分樹生成部123所生成之部分樹,是滿足上記轉換前條件(1)至(3)之全部時,則將部分樹進行轉換以滿足上記轉換後條件(1)及(2)。
亦即,係假設了文節轉換部128係例如,將如圖31(a)所示的表示語句「汚 。」的部分樹,轉換成如圖31(b)所示的表示語句「汚。」的部分樹而說明。
在本實施例中,文節轉換部128係當已被部分樹生成部123所生成之部分樹,是滿足上記轉換前條件(1)及(2)以及下記轉換前條件(4)之全部時,則將部分樹予以轉換以滿足下記的轉換後條件(3)及(4)。
轉換前條件(4):該當干預文節是表示否定表現。
轉換後條件(3):該當受飾文節是表示否定表現。
轉換後條件(4):該當干預文節是表示肯定表現。
亦即,文節轉換部128係例如,將如圖31(b)所示的表示語句「私。」的部分樹,將如圖31(a)所示的表示語句「私。」的部分樹。
<實施例5>
在實施例1中係說明了,當輸入了由2個以上之文節所構成的回答語句時,執行統計裝置100所執行的統計處理。相對於此,在本實施例中則是,在輸入了由2個以上之文節所構成的回答語句、和只由1個文節所成之回答語句的情況下,執行統計裝置100所執行的統計處理。以下,主要說明與實施例1的相異點。
在本實施例中,假設統計裝置100係輸入了 針對「商品XXX?」此一問卷的回答語句來進行說明。
統計裝置100係一旦開始圖5所示的統計處理之執行,則執行步驟S01及步驟S02。藉此,統計裝置100係將針對問卷之回答語句予以輸入,將所輸入的回答語句,保存在圖11所示的輸入語句表中。
此處,假設當步驟S02之處理結束時,輸入語句表係保存有如圖33所示的8個語句來進行說明。
圖33所示的8個語句係為,被語句ID「ST11」所識別的語句「值段。」、被語句ID「ST12」所識別的語句「価格。」、被語句ID「ST13」所識別的語句「值段魅力。」、被語句ID「ST14」所識別的語句「值段。」、被語句ID「ST15」所識別的語句「価格。」、被語句ID「ST16」所識別的語句「安。」、被語句ID「ST17」及「ST18」所識別的語句「汚。」。
從被語句ID「ST11」至「ST13」所分別識別的語句,係為由2個以上之文節所構成的語句。相對於此,被語句ID「ST14」至「ST18」所分別識別的語句,係為僅由1個文節所成之語句。
圖5的步驟S02之後,輸入部120係將已被保存在輸入語句表中的全部回答語句,予以讀出(步驟S03),將讀出的8個語句進行構詞解析(步驟S04a),將構詞解析所得到之構詞列,進行語法解析(步驟 S04b)。
如此一來,語法解析部122係從被語句ID「ST11」至「ST13」所分別識別的由2個以上之文節所構成的語句,生成如圖34(a)、圖34(e)、及圖34(g)所分別圖示的表示各個語句的完整樹F11至F13。相對於此,語法解析部122係從被語句ID「ST14」至「ST18」所分別識別的僅由1個文節所成之語句,生成如圖35(a)、圖35(d)、圖35(g)、圖36(a)、及圖36(d)所分別圖示的表示各個語句的僅由1個節點所構成的完整樹F14至F18(圖5的步驟S05)。
接著,部分樹生成部123係和實施例1同樣地,從圖34(a)所示的完整樹FT11,生成圖34(b)至圖34(d)分別所示的部分樹P110至PT112。同樣地,部分樹生成部123係從圖34(e)所示的完整樹FT12,生成圖34(f)所示的部分樹P120,從圖34(g)所示的完整樹FT13,生成圖34(h)所示的部分樹P130。
又,在本實施例中,部分樹生成部123係從圖35(a)所示的完整樹FT14,生成被追加有將完整樹FT14所擁有之僅1個節點予以接受之所有文節加以表示之根「*」的、如圖35(b)所示的部分樹(以下稱作受飾追加部分樹)PT140。又,部分樹生成部123係從完整樹FT14,生成被追加有干預到完整樹FT14所擁有之僅1個節點之所有文節加以表示之葉「*」的、如圖35(c)所示的部分樹(以下稱作干預追加部分樹)PT141。
同樣地,部分樹生成部123係從圖35(d)所示的完整樹FT15,生成圖35(e)所示的受飾追加部分樹PT150及圖35(f)所示的干預追加部分樹PT151。又同樣地,部分樹生成部123係從圖35(g)所示的完整樹FT16,生成圖35(h)所示的受飾追加部分樹PT160及圖35(i)所示的干預追加部分樹PT161。再同樣地,部分樹生成部123係從圖36(a)所示的完整樹FT17,生成圖36(b)所示的受飾追加部分樹PT170及圖36(c)所示的干預追加部分樹PT171。又再同樣地,部分樹生成部123係從圖36(d)所示的完整樹FT18,生成圖36(e)所示的受飾追加部分樹PT180及圖36(f)所示的干預追加部分樹PT181(圖5的步驟S06)。
其後,針對具有根「*」或葉「*」的部分樹(亦即從僅由1個文節所成之語句所生成的部分樹)予以除外的部分樹(亦即從由2個以上之文節所構成之之語句所生成的部分樹),執行圖22所示的部分樹分類處理(步驟S07a)。
一旦結束部分樹分類處理之執行,則如圖37所示,向群組G110分類了部分樹PT110,向群組G111分類了部分樹PT111。又,向群組G112分類了部分樹PT112及PT120。這是因為,在圖14(b)所示的同義詞表中,「価格」和「価格」之同義詞「值段」是被建立對應而保存的緣故。然後,向群組G130分類了部分樹PT130。
圖5的步驟S07a執行後,統計部126係執行圖24所示的部分樹統計處理(步驟S07b)。在實施例1中,統計部126係針對各群組,將群組的代表樹所表示之語句,當作群組名來說明。相對於此,在本實施例中,統計部126係若已被分類至群組的部分樹是1個,則將該當部分樹所表示之語句當作群組名,若已被分類至群組的部分樹是複數個,則將該當複數部分樹所分別表示之語句以「,」連結而成的語句,當作群組名。
一旦圖5的步驟S07b的執行結束,則分類部125係藉由執行圖25所示的包含關係特定處理,而將圖37所示的群組G110、群組G111、群組G112、及群組G130之包含關係,予以特定(圖5的步驟S08)。
接著,分類部125係執行圖26所示的群組分類處理(步驟S09)。藉此,分類部125係如圖38所示,將群組G110及群組G112,分類至表示「值段」或是「価格」之如此概念之群組所被分類到的群組集合SG11。又,分類部125係將群組G110及群組G111,分類至表示「」之如此概念之群組所被分類到的群組集合SG12。然後,分類部125係將群組G130,分類至表示「值段魅力」之如此概念之群組所被分類到的群組集合SG13。
然後,分類部125係特定出,分類到群組集合SG11的群組G110係被比群組G110上位的群組亦即群組G112所包含的此種階層構造。同樣地,分類部125係 特定出,分類到群組集合SG12的群組G110係被比群組G110上位的群組亦即群組G111所包含的此種階層構造。
接著,輸出部127係執行統計結果畫面生成處理,生成圖3所示的統計結果畫面(圖5的步驟S10)。
一旦開始統計結果畫面生成處理,則輸出部127係依照所被特定之階層構造,生成圖39所示的樹T11至T13。樹T11係具有:表示群組G112之群組名、和群組G112之總樹數「2」的根RT11、表示群組G110之群組名、和群組G110之總樹數「2」的葉LF111。又,樹T12係具有:表示群組G111之群組名、和群組G111之總樹數「1」的根RT12、表示群組G110之群組名、和群組G112之總樹數「2」的葉LF121。甚至,樹T13係具有:表示群組G130之群組名、和群組G130之總樹數「1」的根RT13。
接著,輸出部127係特定出圖35(b)所示的受飾追加部分樹PT140、和圖35(c)所示的干預追加部分樹PT141,來作為從僅由1個文節所成之相同語句所生成之受飾追加部分樹與干預追加部分樹。
接著,輸出部127係將與表示「価格*」之受飾追加部分樹PT140實質性一致、由2文節所成、且表示語句「值段」的部分樹PT112,和與受飾追加部分樹PT140完全一致、由2文節所成、且表示語句「価格」的PT120,所被分類到的群組112,加以特定。 又,輸出部127係將與表示「価格*」之受飾追加部分樹PT140實質性一致、由2文節所成、且表示「值段魅力」的部分樹PT130所被分類到的群組130,加以特定。接著,輸出部127係判別成,與干預追加部分樹PT141完全一致或者實質上一致的部分樹所被分配到的群組是不存在。
其後,輸出部127係判別成,已被分類到群組112的部分樹之總樹數「2」,是比已被分類到群組130的部分樹之總樹數「1」還要多。語句「価格」係為,被推測是回答者所回答的語句來作為表示與已被分類至群組112之部分樹PT112所表示之語句「価格」所表示之內容相同內容的語句。因此,輸出部127係判別成,追加部分樹PT140之生成上所使用的僅1個文節所成之語句「価格」所表示的意義內容,係被受飾文節「安」補充說明。
接著,輸出部127係將圖40所示之樹T11所擁有的表示「值段,価格」的根T11,變更成表示「值段,価格,価格」的根,將根T11所表示之總樹數增加值「1」而變成「3」。
接著,輸出部127係特定出圖35(e)所示的受飾追加部分樹PT150、和圖35(f)所示的干預追加部分樹PT151,來作為從僅由1個文節所成之相同語句所生成之受飾追加部分樹與干預追加部分樹。接著,輸出部127係判別成,追加部分樹PT150之生成上所使用的僅1 個文節所成之語句「值段」所表示的意義內容,係被受飾文節「安」補充說明。接著,輸出部127係將樹T11所具有的表示「值段,価格,価格」的根T11,變更成表示「值段,価格,価格,值段」的根,將根T11所表示之總樹數增加值「1」而變成「4」。
接著,輸出部127係特定出圖35(h)所示的受飾追加部分樹PT160、和圖35(i)所示的干預追加部分樹PT161,來作為從僅由1個文節所成之相同語句所生成之受飾追加部分樹與干預追加部分樹。
接著,輸出部127係判別成,與表示「安*」之受飾追加部分樹PT160完全一致或者實質上一致的部分樹所被分配到的群組是不存在。又,輸出部127係將與表示「*安」之受飾追加部分樹PT160完全一致、由2文節所成、且表示語句「」的部分樹PT111所被分類到的群組111,加以特定。甚至,輸出部127係將與表示「*安」之受飾追加部分樹PT160完全一致、由2文節所成、且表示語句「值段」的部分樹PT112及表示語句「価格」的PT120所被分類到的群組112,加以特定。
其後,輸出部127係判別成,已被分類到群組112的部分樹之總樹數「2」,是比已被分類到群組111的部分樹之總樹數「1」還要多。因此,輸出部127係判別成,追加部分樹PT160之生成上所使用的僅1個文 節所成之語句「安」所表示的意義內容,係被受飾文節「值段」或「価格」補充說明。
接著,輸出部127係將圖40所示之樹T11所擁有的表示「值段,価格,価格,值段」的根T11,變更成表示「值段,価格,価格,值段,安」的根,將根T11所表示之總樹數增加值「1」而變成「5」。
其後,輸出部127係特定出圖36(b)所示的受飾追加部分樹PT170、和圖36(c)所示的干預追加部分樹PT171、和及圖36(e)所示的受飾追加部分樹PT180、和圖36(f)所示的干預追加部分樹PT181,來作為從僅由1個文節所成之相同語句所生成之受飾追加部分樹與干預追加部分樹。
接著,輸出部127係判別成,與表示「汚*」之受飾追加部分樹PT170及PT180完全一致或者實質上一致的部分樹所被分配到的群組是不存在。又,輸出部127係判別成,與表示「*汚」之干預追加部分樹PT171及PT181完全一致或者實質上一致的部分樹所被分配到的群組是不存在。其後,輸出部127係生成具有表示「汚」與總樹數「2」之根RT14的樹T14。
其後,輸出部127係將樹T11至T14,顯示在統計結果畫面。
其後,輸出部127係將已生成之統計畫面,輸出至LAN卡106後(圖5的步驟S11),結束統計處 理之執行。
實施例1至5,係可彼此組合。不僅可以用具備實現實施例1至5之任一者所述之機能所需之構成的統計裝置100的方式來提供,還可以用由複數裝置所構成之系統、且將實現實施例1至5之任一者所述之機能所需之構成以系統全體來具備的方式,而以系統的方式來提供。
此外,不僅可以用事前具備實現實施例1至5之任一者所述之機能所需之構成的統計裝置100的方式來提供,還可藉由程式的適用,使既存的統計裝置100成為實施例1至5之任一者所述之統計裝置100而發揮機能。亦即,將用來實現實施例1至5之任一者所例示的統計裝置100所致之各機能構成所需的統計程式,適用成可讓控制既存統計裝置之電腦(CPU等)來執行,就可使其成為實施例1至5之任一者所述之統計裝置100而發揮機能。
此種程式的散佈方法係為任意,例如,除了可儲存在記憶卡、CD-ROM、或DVD-ROM等記錄媒體中來散佈以外,還可透過網際網路等之通訊媒體來散佈。又,本發明所述之統計方法,係可使用實施例1至5之任一者所述之統計裝置100來加以實施。
以上雖然詳述本發明的理想實施例,但本發明係不限定於所述的特定實施例,在申請專利範圍所記載的本發明之要旨的範圍內,可做各種變形、變更。
又,上述的實施形態,係用來說明本發明,但並非限定本發明之範圍。亦即,本發明的範圍,係並非 由實施形態來表示,而是由申請專利範圍來表示。然後,在申請專利範圍內及和其同等發明意義之範圍內所施加的各種變形,仍視為本發明的範圍內。
本申請係基於2012年4月27日申請的日本國專利申請案2012-103996號。本說明書中係將日本國專利申請案2012-103996號的說明書、申請專利範圍、圖面全部加以參照而包含。
100‧‧‧統計裝置
120‧‧‧輸入部
121‧‧‧保存部
122‧‧‧語法解析部
123‧‧‧部分樹生成部
124‧‧‧一致判別部
125‧‧‧分類部
126‧‧‧統計部
127‧‧‧輸出部
129‧‧‧資訊記憶部

Claims (12)

  1. 一種統計裝置,係屬於將所被輸入之語句加以統計的統計裝置,其特徵為,具備:輸入部,係輸入第1語句與第2語句;和語法解析部,係藉由將前記第1語句與前記第2語句進行語法解析,而生成前記第1語句的語法樹與前記第2語句的語法樹;和部分樹生成部,係從前記所被生成之第1語句的語法樹,將構成前記第1語句的部分樹亦即第1部分樹予以生成1或複數個,從前記所被生成之第2語句的語法樹,將構成前記第2語句的部分樹亦即第2部分樹予以生成1或複數個;和一致判別部,係針對前記所被生成之1個第1部分樹或者複數第1部分樹之任1者、與前記所被生成之1個第2部分樹或者複數第2部分樹之任1者之組合的1個部分樹組合或複數部分樹組合之每一者,判別構成該當部分樹組合的第1部分樹所表示的第1表現、與構成該當部分樹組合的第2部分樹所表示的第2表現是否表示一致之內容;和分類部,係針對前記被判別為彼此表示一致內容之第1表現與第2表現之1個組合、或者前記被判別為彼此表示一致內容之第1表現與第2表現之複數組合的每一者,將表示該當第1表現的第1部分樹,分類至與表示該當第 2表現的第2部分樹相同之群組;和輸出部,係將被分類至前記群組的部分樹之數目,或者,被分類至前記群組的1個部分樹或者複數部分樹所分別表示之表現,予以輸出。
  2. 如請求項1所記載之統計裝置,其中,前記一致判別部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,若構成該當部分樹組合的第1部分樹、與構成該當部分樹組合的第2部分樹,是高度、枝數、根及1或複數個葉所被分別分配到的文節是全部都一致的情況下,則判別成該當第1部分樹所表示之第1表現、與該當第2部分樹所表示之第2表現是一致。
  3. 如請求項1或2所記載之統計裝置,其中,前記部分樹生成部,係從前記所被生成之第1語句的語法樹,將構成前記第1語句的複數文節之內至少具有修飾其他文節的干預文節、與身為該當其他文節的受飾文節的第1部分樹,予以生成1或複數個,且從前記所被生成之第2語句的語法樹,將構成前記第2語句的複數文節之內至少具有修飾其他文節的干預文節、與身為該當其他文節的受飾文節的第2部分樹,予以生成1或複數個;前記一致判別部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,基於構成該當部分樹組合的第1部分樹的干預文節、與構成該當部分樹組合的第2部分樹的干預文節是否一致,及該當第1部分樹的受飾文節、與該當第2部分樹的受飾文節是否一致,來判別該當 第1部分樹所表示之第1表現與該當第2部分樹所表示之第2表現是否表示一致之內容。
  4. 如請求項1或2所記載之統計裝置,其中,前記一致判別部,係針對1或複數個部分樹所被分別分類而成的第1群組與第2群組之組合的1個群組組合、或者複數群組組合之每一者,將該當第1群組與該當第2群組之間的包含關係,基於該當第1群組中所屬之部分樹的高度、枝數、及文節之數目,和該當第2群組中所屬之部分樹的高度、枝數、及文節之數目,而加以判別;前記輸出部,係將已被分類至該當第1群組的1個部分樹所代表之表現或者複數部分樹所分別代表之複數個表現,和已被分類至該當第2群組的1個部分樹所代表之表現或者複數部分樹所分別代表之複數個表現,基於前記所被判別之包含關係而加以排列並輸出。
  5. 如請求項4所記載之統計裝置,其中,前記一致判別部,係在前記1個群組組合、或者前記複數群組組合之內,針對已被分類至第1群組的部分樹所具有之干預文節的數目,是比已被分類至第2群組的部分樹所具有之干預文節的數目還少的群組組合,若已被分類至該當第1群組的部分樹所具有之干預文節的全部,是與已被分類至該當第2群組的部分樹所具有之干預文節之任一者一致,則判別成已被分類至該當第1群組的部分樹所表示之表現,係為比已被分類至該當第2群組的部分樹所表示之表現還要上位之表現; 前記分類部,係針對前記1個群組組合、或者前記複數群組組合之每一者,若已被分類至構成該當群組組合之第1群組的部分樹所表示之表現,是被判別成比已被分類至構成該當群組組合之第2群組的部分樹所表示之表現還要上位之表現,則將該當第1群組視為比該當第2群組還要上位之群組。
  6. 如請求項5所記載之統計裝置,其中,前記一致判別部,係在前記1個群組組合、或者前記複數群組組合之內,針對具有受飾文節與干預文節的部分樹所被分類而成的第1群組,和具有受飾文節與干預文節與該當干預文節所修飾之文節的部分樹所被分類而成的第2群組所構成的群組組合,若判別成已被分類至該當第1群組的部分樹的受飾文節、與已被分類至該當第2群組的部分樹的受飾文節是一致,且已被分類至該當第1群組的部分樹的干預文節、與已被分類至該當第2群組的部分樹的干預文節是一致,則判別成已被分類至該當第1群組的部分樹所表示之表現,係為比已被分類至該當第2群組的部分樹所表示之表現還要上位之表現。
  7. 如請求項2所記載之統計裝置,其中,前記一致判別部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,構成該當部分樹組合的第1部分樹的干預文節,是構成該當部分樹組合的第2部分樹的干預文節的同義詞的情況、該當第1部分樹的干預文節與該當第2部分樹的干預 文節的差異是活用之差異的情況、及該當第1部分樹的干預文節與該當第2部分樹的干預文節的差異是撰寫方式之差異的情況之任一情況下,則判別成該當第1部分樹的干預文節與該當第2部分樹的干預文節是一致;該當第1部分樹的受飾文節是該當第1部分樹的受飾文節的同義詞的情況、該當第1部分樹的受飾文節與該當第2部分樹的受飾文節的差異是活用之差異的情況、及該當第1部分樹的受飾文節與該當第2部分樹的受飾文節的差異是撰寫方式之差異的情況之任一情況下,則判別成該當第1部分樹的受飾文節與該當第2部分樹的受飾文節是一致。
  8. 如請求項7所記載之統計裝置,其中,還具備:文節轉換部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,若構成該當部分樹組合的第1部分樹的干預文節的末尾是助詞的「」或「 」,該當第1部分樹的干預文節是含有用言,含有肯定表現,該當第1部分樹的干預文節與該當第1部分樹的受飾文節之間沒有句讀點「、」或「,」,且該當第1部分樹的受飾文節是含有否定表現的情況下,則將該當受飾文節轉換成肯定表現,且將該當干預文節轉換成否定表現;前記一致判別部,係針對前記1個部分樹組合、或者前記複數部分樹組合之每一者,判別構成該當部分樹組合的前記已被轉換之第1部分樹的干預文節、與構成該當部分樹組合的第2部分樹的干預文節是否一致,及該當已被 轉換之第1部分樹的受飾文節、與該當第2部分樹的受飾文節是否一致。
  9. 如請求項8所記載之統計裝置,其中,前記輸入部,係將針對質問之回答語句的第1語句及第2語句予以輸入;前記一致判別部,係在前記1個部分樹組合、或者前記複數部分樹組合之內,針對具有受飾文節與所定數之干預文節的第1部分樹、與具有受飾文節與前記所定數之干預文節的第2部分樹所構成的部分樹組合,若判別成,該當第1部分樹所具有之前記所定數之干預文節之每一者,是一致於該當第2部分樹所具有之前記所定數之干預文節之每一者,則判別成該當第1部分樹所具有之受飾文節與該當第2部分樹所具有之受飾文節是一致。
  10. 一種電腦程式產品,其特徵為,透過電腦而載入程式,執行:輸入第1語句與第2語句的程式指令;和藉由將前記第1語句與前記第2語句進行語法解析,而生成前記第1語句的語法樹與前記第2語句的語法樹的程式指令;和從前記所被生成之第1語句的語法樹,將構成前記第1語句的部分樹亦即第1部分樹予以生成1或複數個,從前記所被生成之第2語句的語法樹,將構成前記第2語句的部分樹亦即第2部分樹予以生成1或複數個的程式指令;和 針對前記所被生成之1個第1部分樹或者複數第1部分樹之任1者、與前記所被生成之1個第2部分樹或者複數第2部分樹之任1者之組合的1個部分樹組合或複數部分樹組合之每一者,判別構成該當部分樹組合的第1部分樹所表示的第1表現、與構成該當部分樹組合的第2部分樹所表示的第2表現是否表示一致之內容的程式指令;和針對前記被判別為彼此表示一致內容的1個第1表現與第2表現、或者複數個第1表現與第2表現之每一者,將表示該當第1表現的第1部分樹,分類至與表示該當第2表現的第2部分樹相同之群組的程式指令;和將被分類至前記群組的部分樹之數目,或者,被分類至前記群組的1個部分樹或者複數語法樹所分別表示之表現,予以輸出的程式指令。
  11. 一種記錄有統計程式之電腦可讀取之記錄媒體,其特徵為,使電腦發揮機能成為:輸入部,係輸入第1語句與第2語句;語法解析部,係藉由將前記第1語句與前記第2語句進行語法解析,而生成前記第1語句的語法樹與前記第2語句的語法樹;部分樹生成部,係從前記所被生成之第1語句的語法樹,將構成前記第1語句的部分樹亦即第1部分樹予以生成1或複數個,從前記所被生成之第2語句的語法樹,將構成前記第2語句的部分樹亦即第2部分樹予以生成1或 複數個;一致判別部,係針對前記所被生成之1個第1部分樹或者複數第1部分樹之任1者、與前記所被生成之1個第2部分樹或者複數第2部分樹之任1者之組合的1個部分樹組合或複數部分樹組合之每一者,判別構成該當部分樹組合的第1部分樹所表示的第1表現、與構成該當部分樹組合的第2部分樹所表示的第2表現是否表示一致之內容;分類部,係針對前記被判別為彼此表示一致內容的1個第1表現與第2表現、或者複數個第1表現與第2表現之每一者,將表示該當第1表現的第1部分樹,分類至與表示該當第2表現的第2部分樹相同之群組;輸出部,係將被分類至前記群組的部分樹之數目,或者,被分類至前記群組的1個部分樹或者複數語法樹所分別表示之表現,予以輸出。
  12. 一種統計方法,係屬於具備有輸入部、語法解析部、部分樹生成部、一致判別部、分類部、及輸出部之統計裝置所執行的方法,其特徵為,具有:輸入步驟,係由前記輸入部輸入第1語句與第2語句;和語法解析步驟,係由前記語法解析部,藉由將前記第1語句與前記第2語句進行語法解析,而生成前記第1語句的語法樹與前記第2語句的語法樹;和部分樹生成步驟,係由前記部分樹生成部,從前記所 被生成之第1語句的語法樹,將構成前記第1語句的部分樹亦即第1部分樹予以生成1或複數個,從前記所被生成之第2語句的語法樹,將構成前記第2語句的部分樹亦即第2部分樹予以生成1或複數個;和一致判別步驟,係由前記一致判別部,針對前記所被生成之1個第1部分樹或者複數第1部分樹之任1者、與前記所被生成之1個第2部分樹或者複數第2部分樹之任1者之組合的1個部分樹組合或複數部分樹組合之每一者,判別構成該當部分樹組合的第1部分樹所表示的第1表現、與構成該當部分樹組合的第2部分樹所表示的第2表現是否表示一致之內容;和分類步驟,係由前記分類部,針對前記被判別為彼此表示一致內容之第1表現與第2表現之1個組合、或者前記被判別為彼此表示一致內容之第1表現與第2表現之複數組合的每一者,將表示該當第1表現的第1部分樹,分類至與表示該當第2表現的第2部分樹相同之群組;和輸出步驟,係由前記輸出不,將被分類至前記群組的部分樹之數目,或者,被分類至前記群組的1個部分樹或者複數語法樹所分別表示之表現,予以輸出。
TW102111696A 2012-04-27 2013-04-01 Statistical devices, computer program products, recording media, and statistical methods TWI442247B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012103996A JP5367869B2 (ja) 2012-04-27 2012-04-27 集計装置、集計プログラム、集計プログラムを記録したコンピュータ読み取り可能な記録媒体、及び集計方法

Publications (2)

Publication Number Publication Date
TW201407386A TW201407386A (zh) 2014-02-16
TWI442247B true TWI442247B (zh) 2014-06-21

Family

ID=49482737

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102111696A TWI442247B (zh) 2012-04-27 2013-04-01 Statistical devices, computer program products, recording media, and statistical methods

Country Status (6)

Country Link
US (1) US9740770B2 (zh)
EP (1) EP2849094B1 (zh)
JP (1) JP5367869B2 (zh)
ES (1) ES2650467T3 (zh)
TW (1) TWI442247B (zh)
WO (1) WO2013161397A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713426B2 (en) * 2013-11-14 2020-07-14 Elsevier B.V. Systems, computer-program products and methods for annotating multiple controlled vocabulary-defined concepts in single noun phrases
US10969431B1 (en) * 2019-12-23 2021-04-06 Intel Corporation Error-tolerant architecture for power-efficient computing
CN112559929B (zh) * 2021-02-25 2021-05-07 中航信移动科技有限公司 提取网页页面目标信息的方法、电子设备和介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171803A (ja) * 1996-12-09 1998-06-26 Oki Electric Ind Co Ltd 文類似度計算装置
JP3879321B2 (ja) * 1998-12-17 2007-02-14 富士ゼロックス株式会社 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
JP3353829B2 (ja) * 1999-08-26 2002-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 膨大な文書データからの知識抽出方法、その装置及び媒体
JP3587120B2 (ja) * 2000-03-15 2004-11-10 日本電気株式会社 アンケート回答分析システム
JP4815934B2 (ja) * 2005-08-02 2011-11-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
US8751922B2 (en) * 2005-08-09 2014-06-10 Zalag Corporation Methods and apparatuses to assemble, extract and deploy content from electronic documents

Also Published As

Publication number Publication date
EP2849094B1 (en) 2017-09-20
JP2013232111A (ja) 2013-11-14
EP2849094A4 (en) 2015-12-30
ES2650467T3 (es) 2018-01-18
US20150006533A1 (en) 2015-01-01
US9740770B2 (en) 2017-08-22
JP5367869B2 (ja) 2013-12-11
WO2013161397A1 (ja) 2013-10-31
EP2849094A1 (en) 2015-03-18
TW201407386A (zh) 2014-02-16

Similar Documents

Publication Publication Date Title
US10096145B2 (en) Method and system for assembling animated media based on keyword and string input
Krahmer et al. Computational generation of referring expressions: A survey
CN101840414B (zh) 从网络文本创建动画的设备和方法
CN102779149B (zh) 信息处理装置,信息处理方法和信息处理系统
JP6165913B1 (ja) 情報処理装置、情報処理方法およびプログラム
US20220164526A1 (en) Method And Apparatus For Structured Documents
TWI442247B (zh) Statistical devices, computer program products, recording media, and statistical methods
Meder et al. Automatic enrichment and classification of folktales in the Dutch folktale database
JP2008242838A (ja) 説明表現付加装置、プログラムおよび説明表現付加方法
JP2011076396A (ja) メタデータ設定方法及びメタデータ設定システム、並びにプログラム
JP2011128362A (ja) 学習システム
JP5737079B2 (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
JP5243366B2 (ja) 映像要約方法および映像要約プログラム
JP2017016294A (ja) 情報処理装置、その制御方法、及びプログラム
CN104063367A (zh) 注释检索装置、方法及程序
Mateos-Moreno et al. Grounded theory as a methodology to design teaching strategies for historically informed musical performance
JP5451696B2 (ja) 字幕付加装置、コンテンツデータ、字幕付加方法及びプログラム
JP5877775B2 (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
JP5803481B2 (ja) 情報処理装置及び情報処理プログラム
JP2004145626A (ja) 文書分類支援装置およびコンピュータプログラム
Gouyon et al. A last. fm and youtube mash-up for music browsing and playlist edition
JP2018005306A (ja) 情報処理装置及び情報処理プログラム
KR20120050153A (ko) 멀티미디어 플레이어 제공 장치 및 방법
CN117172230A (zh) 基于word的元素配置生成结构化报告模板的方法及装置