201224793 六、發明說明: 【發明所屬之技術領域】 -種翻澤方法’制係指-種將包含方言詞彙的原始文章段 落翻譯為中文的地方方言翻譯方法。 【先前技術】
語言是人與人溝通的重要工具,透過語言人與人之間不只可 以彼此傳達思想’更可以透過語錢料體的韻。語言依照其 用途可以劃分為世界各_採㈣官方語言以及隨著地域不同所 衍生的地方方言。其中,官方語言因為是作為官方溝通的重要語 δ,-般都具有對應文字,但對於地方方言來說,因為僅為特定 群體所使㈣語言,財僅具有口語的發音酬及句型組成規 則’而不具有特定文字’或是—般僅湘官方語言的文字來表示 地方方言。舉中_語言來說,雖然官方語言採用的是北京話, 但隨著地域的差異尚有上海話、四川話、閩南話、廣東話...等各 種不同的地方方言’而這些地方方言,可能是讀音相似
方語言文字來表達,例如:上海話的「白相」指的是玩、廣東話 的「以家」指的是現在·,.等等。 基於對於文化的保存和延續’現代鱗地方方言的重視相較 於以往也提高了許多’因此諸多地方方言仍鱗處可見。舉例來 說’香港人—般岐以廣東話彼此溝通,而其地方性報紙通常也 都是用中文來表示廣東話的方言讀音。在此情況下,對於一個並 非熟知廣東話但可賴巾文字_者來說,軸可以瞭解 子,但啊見4能轉報紙中所欲傳達的意思為何,此時身 又人缺可以翻澤的工具,讀者便無法快速無礙的瞭解地方方言所 201224793 要表達的意思為何。有鑑於此,實有必要提出改進的技術手段, 來解決此一問題。 【發明内容】 有#於先刖存在的讀者閱讀地方方言時缺乏輔助工具來改善 閱讀效果的問題,本發明遂揭露地方方言翻譯方法,其中: 本發明所賊之財方轴譯綠,其包含步驟:預先儲存 至少-方言語種的至少-方言資料項’其中每—方言資料項包含 方言詞彙及方言詞彙對應的方言語種及其巾文解釋;接收選取的 原始文章段落;將原始文章段落與至少―方言語種的至少一方言 詞彙比對,並自原始文章段落擷取出至少―方言詞彙;根據操取 >、方”S]彙所對應的至少一方言語種決定出翻譯語種; 根據原始文章段落的標點符號拆解出至少—原始文句;根據對應 翻譯語種的句型翻譯演算法及至少一 心 、知云n万&3彙的對應中文解釋將 原始文句翻譯為中文的至少—目標文句:及輸出至少-目 先储iir賊以—獅打言鱗找,其⑽步驟:預 七人夕方55吾種的至少一方言資料項,其中每一方古資料 項匕έ方言詞彙及方言往 ° ’ 設定為翻如伽士 …種及其中文解釋;接收 文章段^語種;接收細廳文章齡將原始 至 方 因 少一原始n 原始文章段落㈣點符號拆解出 言詞彙對廡^ 應翻譯語種的句型翻譯演算法及至少一 標文句;解釋將至少—原始文句翻譯為中文的至少-及輸出至少一目標文句。 201224793 本發明所揭路之祕與方法如上,與先前技術之間的差異在 於本發明具有接收原始文章段落並自原始文章段落中掏取出方言 3彙,將原始文章根據標點符號拆解為原始文句後,再根據方今 .語種對應的句麵譯法及方言詞_原始文句翻譯為中㈣ 目標文句並輸出的技術手段。 透過上述的技術手段,本發明可以達成輔助使用者快速無礙 地閱讀不同方言的技術功效。 ^ 【實施方式】 以下將配合圖式及實施例來詳細說明本發明之實施方式,藉 此對本發明如何朗技術手絲驗技術問題錢成技術功效^ 實現過程能充分理解並據以實施。 首先,本發明為一種地方方言翻譯方法,主要是用來針對選 取文字進行地方方言與中文的翻譯轉換。中文,指的是簡體中文 或繁體中文等官方語言採用的文字,而地方方言則可以是上海 話、四川話、閩南話、廣東話.··等各種以中文為官方語言而於不 鲁 _域中形成的語言。而本發明的地方方言翻譯方法可以透過程 式化賴組化_於任何瓣程式、學雜體絲要產生中文與 地方方吕之間#吾言轉換的系統、方法或甚至是裝置中。 以下請參考「第1A圖」,為本發明一種地方方言翻譯方法的 流程圖,將用來說明本發明的第一種實施方法。 首先’預先儲存至少-方言語種的方言資料項(步驟1丨〇),其 中每-方言資料項包含-财言詞彙及與方額彙對應的方言語 種及其對應的中文解釋。請參考「第3圖」,為本發明所述之^ 資料項的示意圖,其中預先儲存的每一筆方言資料項都如方言資 201224793 料項301 &包含方言詞彙、對應方言詞彙的方言語種及其對應 ?中士,釋。除此之外,方言資料項如更包含方言讀音,也就 疋方。3彙的發音方式。方言讀音可以是透過注音符號、羅馬拼 音或其他拼音方式鄕喊,軸「第3圖」巾方言讀音是注音 符號拼寫而成’但實際上可以__音方式並不以此為限,任 何可以表達方言詞彙發音賴音方式均在本發明所述形成方言讀 音的範田壽之中。雖然在「第3圖」中顯示了方言詞囊、方言語種、 2解釋及方言讀音,然實際上熟知翻譯技術者均可以輕易在方 &貝料項中添加其他語言侧的資料項產生與本發明方言資料項 有所差,資料内容,在此則不針對可添加的資料項加以限定。、 立接^著’接收選取的原始文章段落(步驟12G)。在此所述的原始 文章段落指的是文字檔案的全文或是透過標記方式自文字檔案中 選取的部分文字。在此所謂的文字檔案,指的是包含文字的槽案, 可以是純文字檔#、網頁、或是卿伽者界面中的文字元件等, 在此則不針對文字_的_加以限定。此外,在此所謂的標記 方式’指_是_®形使用者界_滑鼠難或是指標選取文 子檔案中的文字後,圖形使用者界面巾將會產生選取區塊提示的 過程。需要說明的是,原始文章段落可能是由—個句子組成,也 可以是衫_子組成’文句數量是視使財選取文字而定的。 接著’將原始文章段落與各方言語種的方言詞彙比對並自原 始文章段落至少-方言锻(步驟⑽)。需要制說明的 是’比對方言詞彙時’由於有時原始文章段落中的文字是依照方 言讀音撰寫’同-方言讀音實際上可則多種的中文文字表達, 例如:廣東話的「以家」有時也會寫作「而家」,因此需要根據方 201224793 二V〈〈丫」進行模糊比對’藉此才能榻取出至少-方-^岸對的方式,可以是將原始文章段落全部根據方2 =應的發音轉換規則全部轉換為讀音,再將原始文章段落 二司ΓΓ子的方言詞彙的方言讀音比對,藉此擷取出至少; 二始文方言讀音轉換為各種可能的方言詞彙後再比 '、口 x洛中疋否具有相同的文字。由於利用方言讀立、隹y_ 在此則不針對模糊比對的方式二:定仃 對的比====咖刪謝進行比 得知原始你自開始尚未 預先儲存的 :;::::::!:!^ (步驟140)。 ”彙斤對應的方言語種決定出翻譯語種 需2特別說明的是,在步驟⑽當中,更包含「第1B圖」當 叫囊^^程°擷取出至少—方言詞彙後,首先根據各方言 區分各方言詞囊為不同詞囊群組(步驟 一五種判斷至》一方言詞囊對應的方言語種是否分屬多個方 驟142)。當擷取出來的所有方調彙都只對應到一種方 則以方詞彙對應的方言語種為翻譯語種(步驟 文f 。精對_乡财m辦,湖斷原始 有方5 5司囊大多數是出自哪—方言語種,也就是鎖具 …文早段落中方言詞彙最多的方言語種是否有兩個以上(步驟 201224793 143b)。其巾’絲始文章段落巾方額彙衫的方言語種只有一 種,此時則以該方言語種為翻譯語種(步驟144a),若是有兩種以 上,此時便輸出方言詞彙最多的所有方言語種選項供使用者選取 其中之一作為翻譯語種(步驟144b)。 決定出翻譯語種後,接著根_始文章段落的標點符號拆解 出至少。-原始文句(步驟150)。在此所謂的標點符號,可以是分 號逗號9號、|號…專各種標點符號,在此則不加賛述。 接著,根據對應翻譯語_句型翻譯演算法及方言詞彙的對 應中文解釋將至少-原始文句翻譯為中文的至少—目標文句(步驟φ 160)。對應翻譯語種的句型翻譯演算法,&於是依據各種不同方言 語種的語言組成規則有所差異,因此句型翻譯演算法的内容也; 不同。舉例來說,廣東話中「等老竇回來先食飯」綠是「先等 老爸回來再吃飯」’其中「先」在句子當中的組成位置便有可能有 所差異,根據不同的翻譯方式可能衍生不同的句型翻譯演算法, 因此在此則不針對句魏譯法_容加錄定,任何熟知語 &翻澤演算法者射在本發明的揭露前提下提出各料同的演算 法。 · 翻3睪元成後,最後輸出至少一目標文句(步驟170)。 , 接下來,請參考「第2Α圖」及「第2Β圖」,為本發明另一 種地方方吕翻譯方法的流程圖,其與「第1Α圖」所述的地方方言 差異在於「第1Α圖」中翻譯語種是透過翻譯過程中比對 後所取4寸的设定’而在「第2Α圖」中的地方方言翻譯方法則是預 先设疋某一種方言語種作為翻譯語言,之後才對原始文章段落進 行翻澤。以下說明本發明另一種地方方言翻譯方法的實施流程。 8 201224793
首先’如同「第1A圖」所述的地方方言翻譯方法,「第2A 圖」中的地方方言翻譯方法首先將會預先儲存至少一方言語種的 方言資料項(步驟210),由於方言資料項與「第1A圖」所述的地 方方言翻譯方法相同,在此則不加贅述。 接著,與「第1A圖」所述的地方方言翻譯方法不同的是,「第 2A圖」中的地方方言翻譯方法將會先接收設定為翻譯語種的方言 語種(步驟220),然後接收選取的原始文章段落(步驟230)。 接收到選取的原始文章段落後,接著將原始文章段落與翻譯 §吾種的方言詞彙比對並自原始文章段落擷取出至少一方言詞彙(步 驟 240)。 接著請參考「第2B圖」。與「第1A圖」所述的地方方言翻 譯方法不同的是’由於-開始已經預先設定了翻譯語種,步驟24〇 田中更包含將原始文章段落直接與翻譯語種的方言詞彙比對以判 斷原始文早段落中是否存在與翻譯語種的方言詞彙文字完全對應 的方言詞彙(步驟241)。當存在與翻譯語種的方言詞彙的文字完全
對應的方言詞彙時’則將文字完全對應的方言詞彙作為擷取的至 少-方言詞彙(步驟242a);反之’則根據方言讀音模糊比對原始 文章段毅何擷取出_語_方言啦(步驟⑽)。其中, 由於方言讀音在此的_比對侧與「第u圖」的地方方言翻譯 方法相同,在此則不加贅述。 當根據方謂音_比_始文章段落可齡出翻譯語種的 :詞彙時’難接雌糊崎出蚊字完全職的方言詞 為擷取的至少一方言詞彙(步驟94 所有方— # ’否’將原始文章段落與 再以更 斤有方w種的方r貝料項比對並重新決定出翻譯語種 201224793 ::。t種自之始文章段落中重新擷取出至少-方言詞彙(步驟 、^ ,當一開始預先設定的翻譯語種與原始文章段落實際 上的方不相符時’應时本發明的系統或裝置仍然可以對 原始文早&落進行中文與地方方言之間的翻譯轉換。 出至二一出方D 5司彙後,接著根據原始文章段落的標點符號拆解 '」、原始文句(步驟250)’然後根據對應翻譯語種的句型翻譯 方t詞彙的對應中文解釋將至少—原始文句翻譯為中文 「、 ^文句(步驟26〇)’由於翻譯的過程及句型翻譯演算法 與第1A圖」所述的地方方言翻譯方法相同,因此不再針對步驟 260加以贅述。最後,翻譯出目標文句後,輸出至少一目標文句(步 驟 270) 〇 ^接下來’將以—翻有本發魏方方言翻譯方法的翻譯程式 原始文讀落的過程作為實關來說明本發明的實施方式。 而要特別剌的是,制本發魏方方言鱗方法軸譯程式可 :同時採用或是單獨採用「第1A圖」及「第2A圖」中的地方方 '睪方法為了方便描述,在本實施例中則以同時採用的情況 說明本發明的詳細實施方式。 首先翻私式中將會預先儲存不同方言語種的方言資料 項而方β資料項中則包含方言詞彙及與方言詞彙對應的方言語 種中文轉及方言讀音。假設本實施例中翻譯程式儲存了上海 四;丨居閩南邊及廣東話等四種方言語種的方言資料項,同 時使用麵擇岐傾先聊_語種,枝透·譯程式自動 比對出翻譯語種的模式,則當使用者自-個網Ϊ文章中選取了一 段原始文章段落「好丨儂今朝亞到邦無一道冊氣白相。」翻譯程 201224793 式將會先將雜文賴落與預先儲存的所有方謂_中的方今 詞彙進行比對,假設比對後擷取出了「今朝」、「亞到」及「白^ 等方言詞彙,由於「今朝」、「亞到」及「白相」等方言詞囊在方」 言資料項巾職財言語縣上絲,狀_譯程式將會 上海話為翻譯語種。 “需要制的是,始文章郷財言㈣概對的過程中 若無法找_預先儲存的方言詞彙文字完全對應的詞彙時,可以 利用方言讀音進行__,例如:频儲存的方調彙文字使 用「亞到」,但原始文章段落中使用「牙到」,兩者的讀音實際上 2可以讀為「《丫V W、」,則此時可以利_始文章段落 ===賴,再與耐伽W相關聯進而 翻譯程式騎出翻譯語種後,接著根據原 儀:朝亞到—氣白相。」的標點符_ 好·」及齡朝亞到邦無一道冊氣白相 話的句型翻譯演算法及方言詞囊「今朝」、「亞到」:「= I文解是「今朝」指岐「今天」、「亞到」指的是」「晚 晚:和====!」〜 使用者查閱。」4叫文句,最後再將目標文句輸出供 為翻=用2關—崎程式,但選擇的是縣設定上海話 =和。種’ _譯程式比對原始文章段落「…儂 冊氣白相。」的方言詞彙時則首先以上海話的方言詞囊進 订,’然侧取出方言詞彙,同樣再透過句型翻譯演算法及方 201224793 5巧囊將拆解出的原始文句轉為巾文的目標文句,最後再輸出 翻譯完成的至少一目標文句。 WT、上所述’可知本發明與先前技術之間的差異在於具有透過 接收原始文早段落並自原始文章段落中擷取出方言詞 彙,將原始 文章根據,點符號拆解為原始文句後,再根據方言語種對應的句 型翻譯演算法及方調彙將絲文句翻譯為巾文的目敎句並輸 ^的技術手段,藉由此一技術手段可以解決先前技術所存在的問 題’進而達賴助制者快速無礙賴讀不财言的技術功效。 雖然本發明所揭露之實施方式如上,惟所述之内容並非用以 Φ 直接限定本發明之專利保護範圍。任何本發明所屬技術領域中具 有通常知識者’麵麟本發明所揭露之精神和範_前提下, I以在實施的形式上及細節上作些許之更動。本發明之專利保護 範圍,仍須以所附之申請專利範圍所界定者為準。 【圖式簡單說明】 第1A圖為本發明一種地方方言翻譯方法的流程圖。 第1B圖為本發明-種地方方言翻譯方法中一步驟㈣程圖。 第2A圖為本發明另-種地方方言翻譯方法的流程圖。 籲 第2B圖為本發明另一種地方方言翻譯方法中一步驟的流程 圖。 第3圖為本發明方言資料項的示意圖。 【主要元件符號說明】 301 方言資料項 步驟no 触儲存至少m種的方言資料項 步驟120 接收選取的原始文章段落 12 201224793 對並章段二言語種的方言詞彙比 步驟140 根據擷取出之至少一太+扣反 語種決定出翻譯語種 5所對應的方言 個方ί=42 i少一方言詞彙對應的方言語種是否分屬多 =T詞囊對應的方言語種為_語種 種是上㈣原始文章段落中方言詞彙最多的方言語 =:以方言詞囊最多的方言語 用者=u=:r多的所有方言語種選項供使 原始ir15G根據原始文章段糾標點符號拆解出至少- 1二::娜對應翻譯語種的句型翻譯演算法及方古 :τ中文解釋將至少一原始文句翻擇為中文的=: 步驟170 步驟210 步驟220 步驟230 步驟240 輸出至少一目標文句 預先儲存至少-方言語種的方言資料項 接收ό又疋為翻譯語種的方言語種 接收選取的原始文章段落 並自原始文章絲擷譯語制方調彙比對 步驟24ϊ π: 原始文章段落中是否存在與翻譯語種的方 201224793 碉彙文字完全對應的方言詞彙 方言2 242a將文字完全對應的方調彙作為操取的至少一 可擷 取出料獅㈣縣衫段落是否 應的方言詞彙作為 步驟地以模糊比對出的文字完全對 少一方言詞彙 比财並Ξ新:定if::文章段洛與所有方言語種的方言資料項 _重新擷取文章段 步驟250 原始文句 步驟260 根«:原始文章段落的標點符號拆解出至少— 法及方言 文的至少一目標 句各^ 根據對應翻譯語種的句型翻譯演笪 =的對應中文解釋將至少一原始文句翻譯為中文的= 步驟270 輸出至少一目標文句