TH65852B - Systems and procedures for indistinct sentences for languages with unclear sentence boundaries. - Google Patents

Systems and procedures for indistinct sentences for languages with unclear sentence boundaries.

Info

Publication number
TH65852B
TH65852B TH401003011A TH0401003011A TH65852B TH 65852 B TH65852 B TH 65852B TH 401003011 A TH401003011 A TH 401003011A TH 0401003011 A TH0401003011 A TH 0401003011A TH 65852 B TH65852 B TH 65852B
Authority
TH
Thailand
Prior art keywords
sentence
token
languages
gap
cutting
Prior art date
Application number
TH401003011A
Other languages
Thai (th)
Other versions
TH116194A (en
Inventor
หาญสกุลบรรเทิง นายชัชวาลย์
มิตราปิยานุรักษ์ นายประดิษฐ์
ศรเลิศล้ำวาณิช นายวิรัช
Original Assignee
นางสาวอรุณศรี ศรีธนะอิทธิพล
นายเกรียงศักดิ์ ก้อนทอง
นายเกรียงศักดิ์ ก้อนทอง นายกนกศักดิ์ ทองพาณิชย์ นายเฉลิมชัย ก๊กเกียรติกุล นางสาวอรุณศรี ศรีธนะอิทธิพล
นายเฉลิมชัย ก๊กเกียรติกุล
นายกนกศักดิ์ ทองพาณิชย์
Filing date
Publication date
Application filed by นางสาวอรุณศรี ศรีธนะอิทธิพล, นายเกรียงศักดิ์ ก้อนทอง, นายเกรียงศักดิ์ ก้อนทอง นายกนกศักดิ์ ทองพาณิชย์ นายเฉลิมชัย ก๊กเกียรติกุล นางสาวอรุณศรี ศรีธนะอิทธิพล, นายเฉลิมชัย ก๊กเกียรติกุล, นายกนกศักดิ์ ทองพาณิชย์ filed Critical นางสาวอรุณศรี ศรีธนะอิทธิพล
Publication of TH116194A publication Critical patent/TH116194A/en
Publication of TH65852B publication Critical patent/TH65852B/en

Links

Claims (6)

ข้อถือสิทธฺ์ (ทั้งหมด) ซึ่งจะไม่ปรากฏบนหน้าประกาศโฆษณา :แก้ไข 24/03/2560 1. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ประกอบด้วย อุปกรณ์ภายนอก (11) ที่ทำหน้าที่อินพุตข้อความที่ต่อเนื่องกันเข้าสู่อุปกรณ์ตัดแบ่งประโยค (10) อุปกรณ์ตัดแบ่งประโยค (10) ที่ทำหน้าที่ควบคุมการทำงานของระบบตัดแบ่งประโยค ที่ประกอบด้วย - หน่วยอินพุต (12) ที่ทำหน้าที่รับข้อมูลข้อความที่ต่อเนื่องกันหรือสายอักขระจากฐานข้อมูล (17) หรือ จากอุปกรณ์ภายนอก (11) ดังกล่าว - หน่วยความจำ (16) ที่ทำหน้าที่เก็บข้อมูลที่ได้รับจากหน่วยอินพุต (12) - ส่วนประมวลผล (14) ที่ทำหน้าที่ควบคุมการทำงานของระบบและประมวลผลค่าทางสถิติของข้อมูลที่ ได้รับจากหน่วยอินพุต (12) หรือจากหน่วยความจำ (16) - ส่วนสำหรับเอาต์พุต (13) ที่ทำหน้าที่ส่งข้อมูลที่ได้รับจากส่วนประมวลผล (14) ออกไปยังหน่วย แสดงผล (19) และ/หรือส่งข้อมูลดังกล่าวไปเก็บในฐานข้อมูล (17) มีลักษณะเฉพาะคือ ส่วนประมวลผล (14) ทำการตรวจสอบช่องว่างระหว่างโทเคนแต่ละโทเคนว่าเป็นตำแหน่งตัด ประโยคหรือไม่ โดยใช้ผลของความน่าจะเป็นทางสถิติ ได้แก่ ค่าความน่าจะเป็นแบบ trigram ของชนิดของคำ และ ค่าความน่าจะเป็นการเกิดคำเมื่อกำหนดชนิดของคำ ด้วยวิธีการนำโทเคนนั้นไปต่อเรียงกับโทเคนที่อยู่ก่อน หน้าจนกว่าจะพบช่องว่างที่เป็นตำแหน่งตัดประโยค จากนั้นส่งประโยคที่ได้รับการตัดแบ่งแล้วไปยังส่วนสำหรับ เอาต์พุต (13) เพื่อแสดงผลข้อมูลการตัดประโยคดังกล่าว โดยส่วนประมวลผล (14) ดังกล่าวมีระบบสังเคราะห์ เสียงพูดเพื่อแปลงข้อความที่ประมวลผลให้กลายเป็นเสียงพูด 2. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่่มีรอยต่อประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 ที่ซึ่งวิธีการใน การตัดแบ่งประโยคดังกล่าว ประกอบด้วยขั้นตอนดังต่อไปนี้ ก) การรับอินพุตสายอักขระที่ประกอบด้วยอักขระจำนวนหนึ่ง (21) จากฐานข้อมูล (17) หรือจาก อุปกรณ์ภายนอก (11) มีลักษณะเฉพาะคือ ประกอบเพิ่มเติมด้วยขั้นตอน ข) การแบ่งสายอักขระเป็นโทเคน (token) (22) โดยใช้ช่องว่าง (space) เป็นตัวแบ่งกลุ่มคำที่อยู่ระหว่าง ช่องว่างออกเป็นโทเคน ค) การสร้างอนุกรมของคำ (23) ด้วยการตัดแบ่งสายอักขระเป็นแบบอนุกรมของคำ โดยอนุกรมของคำ มีโครงสร้างซึ่งประกอบด้วย โทเคนที่อยู่ก่อนหน้า (PREVIOUS_TOKEN), ช่องว่าง, โทเคนปัจจุบัน (CURRENT_TOKEN) ตามลำดับ เพื่อใช้ประมวลผลในการระบุชนิดของคำด้วยวิธีทางสถิติ (24) ง) การระบุชนิดของคำด้วยวิธีทางสถิติ (statistical POS tagging) (24) เพื่อระบุชนิดของคำของช่องว่าง โดยใช้ค่าทางสถิติของคำและช่องว่างที่อยู่ในอนุกรมของคำ ได้แก่ ค่าความน่าจะเป็นแบบ trigram ของชนิดของ คำ และ ค่าความน่าจะเป็นการเกิดคำเมื่อกำหนดชนิดของคำ จ) การตรวจชนิดของคำของช่องว่างในอนุกรมคำ (25) เมื่อพบว่าชนิดของคำของช่องว่าง เป็นตัวแบ่ง ประโยค จะตัดประโยค ณ ตำแหน่งช่องว่างดังกล่าว แล้วส่งกลุ่มโทเคนทั้งหมดที่อยู่ก่อนหน้าช่องว่างดังกล่าวไป แสดงผลหรือเก็บลงฐานข้อมูล (28) ว่าเป็นประโยคที่ได้รับการตัดแต่งประโยคแล้วค้นหาช่องว่างถัดไปโดยทำซํ้า ขั้นตอน ข) ถึง จ) จนหมดสายอักขระที่รับเข้ามา 3. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 หรือ 2 ที่ซึ่ง ระบบใช้ตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจนดังกล่าวคือ ภาษาไทย 4. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 ที่ซึ่งอุปกรณ์ ภายนอก (11) คือ คีย์บอร์ด และ/หรือฐานข้อมูล 5. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 ที่ซึ่งอุปกรณ์ตัด แบ่งประโยค (10) คือไมโครโปรเซสเซอร์ คอมพิวเตอร์ หรือตัวประมวลผลสัญญาณดิจิตอล --------------- แก้ไข 13/1/2558 1. วิธีการในการตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจนและใช้ช่องว่าง (space) เป็น ตัวกำหนดขอบเขตของประโยคแต่ละประโยค, สำหรับใช้ในระบบตัดแบ่งประโยคที่ประกอบรวมด้วย ส่วน ประมวลผล หน่วยความจำ ส่วนสำหรับอินพุต และส่วนสำหรับเอาต์พุต ที่ซึ่งวิธีการดังกล่าว ประกอบด้วยขั้นตอนของ a) การรับอินพุตสายอักขระที่ประกอบด้วยอักขระจำนวนหนึ่งจากส่วนสำหรับอินพุตดังกล่าว; b) การแบ่งสายอักขระนั้นออกเป็นโทเคน (token) จำนวนหนึ่ง; c) การวิเคราะห์หาช่องว่าง (space) ภายในโทเคนดังกล่าวแต่ละโทเคน โดยพิจารณาคำที่อยู่รอบ ข้าง (contextual word) ของช่องว่างดังกล่าวการระบุชนิดของคำด้วยวิธีการทางสถิติ (statistical POS tagging) เพื่อตัดสินว่าชองว่างดังกล่าวเป็นตำแหน่งตัดประโยคหรือไม่; โดยมีลักษณะเฉพาะคือ กรรมวิธีดังกล่าวยังประกอบด้วยขั้นตอนของ d) การตรวจสอบช่องว่างระหว่างโทเคนแต่ละโทเคนดังกล่าวเพื่อหาว่าช่องว่างที่พบดังกล่าวเป็น ตำแหน่งตัดประโยคหรือไม่โดยใช้ผลของความน่าจะเป็นทางสถิติ; e) การนำโทเคนนั้นไปต่อเรียงกับโทเคนที่อยู่ก่อนหน้า พร้อมทั้งทำซ้ำขั้นตอน b), c) และ d) ถ้า หากพบว่าช่องว่างที่พบดังกล่าวไม่ใช่ช่องว่างที่เป็นตำแหน่งตัดประโยค โดยจะทำซ้ำจนกว่า จะพบช่องว่างที่เป็นตำแหน่งตัดประโยค; f) ทำการเอาต์พุตโทเคนทั้งหมดดังกล่าวในฐานะที่เป็นประโยคที่ได้รับการตัดแบ่งแล้ว 2. วิธีการตัดประโยคตามข้อถือสิทธิ 1 ที่ซึ่งภาษาที่มีรอยต่อประโยคไม่ชัดเจนดังกล่าว คือ ภาษาไทย 3. ระบบตัดแบ่งข้อความ ซึ่งประกอบรวมด้วยหน่วยอินพุตข้อมูลสายอักขระ เช่น คีย์บอร์ด ฐานข้อมูล เป็น ตัน ส่วนประมวลผล หน่วยความจำ และหน่วยแสดงผล ที่ใช้กรรมวิธีตัดประโยคตามข้อถือสิทธิ 1 หรือ 2 4. ระบบสำหรับการสังเคราะห์เสียงพูดจากข้อความอักษรเบรลล์เพื่อการแปลงข้อความที่ป้อนเข้ามาใน ระบบดังกล่าวให้กลายเป็นเสียงพูดสำหรับการสื่อสารของคนตาบอดที่ใช้กรรมวิธีตัดประโยคตามข้อถือ สิทธิ 1 หรือ 2 5. ระบบแสดงผลสำหรับข้อความสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจนและใช้ช่องว่างเป็นตัวกำหนดขอบเขต ของประโยคแต่ละประโยค โดยที่ระบบแสดงผลดังกล่าวสามารถตัดแบ่งข้อความที่อินพุตเข้ามาใน ระบบออกเป็นประโยคได้ โดยใช้กรรมวิธีตามข้อถือสิทธิ 1 หรือ 2 -------------------------------------------------------- แก้ไข 6/2/2558 1. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่ประโยคไม่ชัดเจน ประกอบด้วย อุปกรณ์ภายนอก (11) ที่ทำหน้าที่อินพุตข้อความที่ต่อเนื่องกันเข้าสู่อุปกรณ์ตัดแบ่งประโยค (10) อุปกรณ์ตัดแบ่งประโยค (10) ที่ทำหน้าที่ควบคุมการทำงานของระบบตัดแบ่งประโยค ที่ประกอบด้วย -หน่วยอินพุต (12) ที่ทำหน้าที่รับข้อมูลข้อความที่ต่อเนื่องกันหรือสายอักขระจากฐานข้อมูล (17) หรือ จากอุปกรณ์ภายนอก (11) ดังกล่าว -หน่วยความจำ (16) ที่ทำหน้าที่เก็บข้อมูลที่ได้รับจากหน่วยอินพุต (12) -ส่วนประมวลผล (14) ที่ทำหน้าที่ควบคุมการทำงานของระบบและประมวลผลข้อมูลที่ได้รับจาก หน่วยอินพุต (12) หรือจากหน่วยความจำ (16) และ -ส่วนสำหรับเอาต์พุต (13) ที่ทำหน้าที่ส่งข้อมูลที่ได้รับจากส่วนประมวลผล (14) ออกไปยังหน่วย แสดงผล (19) และ/หรือส่งข้อมูลดังกล่าวไปเก็บในฐานข้อมูล (17) ที่มีลักษณะเฉพาะคือ ส่วนประมวลผล (14) ทำการตรวจสอบช่องว่างระหว่างโทเคนแต่ละโทเคนว่าเป็นตำแหน่ง ตัดประโยคหรือไม่ โดยใช้ผลของความน่าจะเป็นทางสถิติ ด้วยวิธีการนำโทเคนนั้นไปต่เรียงกับโทเคนที่อยู่ก่อน หน้าจนกว่าจะพบช่องว่างที่เป็นตำแหน่งตัดประโยค จากนั้นส่งประโยคที่ได้รับการตัดแบ่งแล้วไปยังส่วนสำหรับ เอาต์พุต (13) เพื่อแสดงผลข้อมูลการตัดประโยคดังกล่าว 2. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่ประโยคไม่ชัดเจน ตามข้อถือสิทธิที่ 1 ที่ซึ่งส่วน ประมวลผลมีระบบสำหรับการสังเคราะห์เสียงพูดจากข้อความอักษรเบรลล์เพื่อการแปลงข้อความที่ป้อนเข้ามาใน ระบบดังกล่าวให้กลายเป็นเสียงพูดสำหรับการสื่อสารของคนตาบอดด้วยการใช้วิธีการในการตัดแบ่งประโยค 3. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่ประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 หรือ 2 ที่ซึ่ง ที่ซึ่งวิธีการในการตัดแบ่งประโยคดังกล่าว ประกอบด้วยขั้นตอนดังต่อไปนี้ ก) การรับอินพุตสายอักขระที่ประกอบด้วยอักขระจำนวนหนึ่ง (21) จากฐานข้อมูล (17) หรือจาก อุปกรณ์ภายนอก (11) ข) การแบ่งสายอักขระนั้นออกเป็นโทเคน (token) จำนวนหนึ่ง (22) ค) การวิเคราะห์หาช่องว่าง (space) ภายในโทเคนดังกล่าวแต่ละโทเคน โดยพิจารณาคำที่อยู่รอบข้าง (contextual word) ของช่องว่างดังกล่าว (23) ด้วยการระบุชนิดของคำด้วยวิธีการทางสถิติ (statistical POS tagging) (24) เพื่อตัดสินว่าช่องว่างดังกล่าวเป็นตำแหน่งตัดประโยคหรือไม่ ง) การตรวจสอบช่องว่างระหว่างโทเคนแต่ละโทเคนดังกล่าวเพื่อว่าช่องว่างที่พบดังกล่าวเป็น ตำแหน่งตัดประโยคหรือไม่โดยใช้ผลของความน่าจะเป็นทางสถิติ(25) จ) การนำโทเคนนั้นไปต่อเรียงกับโทเคนที่อยู่ก่อนหน้า (26) พร้อมทั้งทำซ้ำขั้นตอน ข), ค) และ ง) ถ้า หากพบว่าช่องว่างที่พบดังกล่าวไม่ใช่ช่องว่างที่เป็นตำแหน่งตัดประโยค โดยทำซ้ำจนกว่าจะพบช่องว่างที่เป็น ตำแหน่งตัดประโยค (27) ฉ)ทำการเอาต์พุตโทเคนทั้งหมดดังกล่าวในฐานะที่เป็นประโยคที่ได้รับการตัดแบ่งแล้ว (28) 4. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่ประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 ถึง 3 ข้อใดข้อ หนึ่ง ที่ซึ่งส่วนประมวลผลทำการตัดแบ่งภาษาที่มีรอยต่อประโยคไม่ชัดเจนดังกล่าวคือ ภาษาไทย 5. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่ประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 ที่ซึ่งอุปกรณ์ ภายนอก (11) คือ คีย์บอร์ด และ/หรือฐานข้อมูล 6. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่ประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 ที่ซึ่งอุปกรณ์ตัด แบ่งประโยค (10) คือไมโครโปรเซสเซอร์ คอมพิวเตอร์ หรือตัวประมวลผลสัญญาณดิจิตอล -------------------------------------------Disclaimer (all) which will not appear on the advertisement page: EDIT 24/03/2017 1. Sentence cutting system and process for languages with indistinct sentence boundaries, consisting of external devices (11) that perform input functions. The continuous text enters the sentence cutter (10), the sentence cutter (10) that controls the function of the sentence cutter. Contains - An input unit (12) that receives data, contiguous text or strings from a database (17) or from an external device (11), such - a memory (16) that stores the resulting data. Received from the input unit (12) - the processor (14) that controls the operation of the system and processes the statistical value of the data that Received from the input unit (12) or from the memory (16) - the part for the output (13) that transmits the received data from the processor (14) to the display unit (19) and / or. It is transmitted to the database (17) and is unique in that the processor (14) checks the gap between each token as a cut-off position. Sentence or not The results of the statistical probability are the trigram probability of the word type and the word probability value when determining the word type. With the method of bringing the token to the previous token Page until you find a gap in the intersection position. Then send the clipped sentence to the output section (13) to display the clipping information. The processor (14) has a synthetic system. Speech to convert processed text into speech 2. Sentence cutting systems and processes for languages with unclear sentence boundaries. According to claim 1, where the method in To cut the said sentence It consists of the following steps: a) Getting a string input consisting of a certain number of characters (21) from a database (17) or from an external device (11) is unique. Complete with step b) token (22) string break, using space as a separator between the words. Space into tokens c) Building a series of words (23) by breaking the string into a series of words. By word series Has a structure consisting of Previous address token (PREVIOUS_TOKEN), space, current token (CURRENT_TOKEN), respectively, to process the word type identification by statistical method (24) d) statistical POS tagging (24) to identify the word type of the gap. By using the statistical values of words and spaces in a word series, namely the trigram probability of the word type and the word probability when determining the word type, e) the channel word type detection. Space in the word series (25) When the word type of the space is found as a sentence break, the sentence will be omitted at the gap position. And send all of the token chains preceding the gap Display or save in database (28) as trimmed sentence and search for the next space by repeating steps b) to e) until the incoming string is exhausted. 3. Cutting system and process. Break sentences for languages where sentence boundaries are not clearly visible. According to claim 1 or 2, where the sentence breakdown system for languages with indistinct sentence boundaries is Thai language. 4. Sentence cutting systems and procedures for languages with unclear sentence boundaries. According to claim 1, where external devices (11) are keyboards and / or databases, 5. Sentence cutting systems and procedures for languages with unclear sentence boundaries. According to claim 1, where the sentence-cutting device (10) is a computer microprocessor or digital signal processor. --------------- Edited 1/13/2015 1. A method for sentence breaks for languages that have inconsistent sentences and use space as the boundaries. Of each sentence, for use in a sentence cutting system that includes the memory processor, the part for the input. And a section for output Where the above method Contains the steps of a) taking a string input consisting of a number of characters from the section for such input; b) splitting the string into a number of tokens; c) Analysis of the space within each such token. It takes into account the contextual word of the gap, statistical POS tagging, to determine whether the space is the intersection position or not; With unique characteristics The process also consists of d) examining the gaps between each token to determine whether the gaps found were Sentence intersection position or not using statistical probability results; e) Continuing the token with the previous one. Also repeat steps b), c) and d) if the gap found is not the intersection position. It will repeat until Will find a gap at the intersection position; f) Output all the token as a clause clause 2. How to cut clause according to claim 1, where the language with such indistinct syntax is Thai 3. System Cut text It includes a ton of string data input units such as keyboards, databases, processors, memory, and display units. The process of cutting sentences according to claim 1 or 2. 4. System for speech synthesis of Braille text for the conversion of input into the text. The system becomes a voice for blind communication using a clause-cutting method according to claim 1 or 2. 5. Text display system for languages with indistinct sentence boundaries and using spaces as boundaries. Of each sentence Where the display system can cut the input text into The system can be sentence. By using the method according to claim 1 or 2 ---------------------------------------- ---------------- EDIT 6/2/2015 1. Sentence cutting systems and procedures for languages with indistinct sentences, consisting of external devices (11) that act as text input. Continuously into the sentence cutting device (10), the sentence cutting device (10) that controls the function of the sentence cutting system. Contains - An input unit (12) that receives data, contiguous text or strings from a database (17) or from an external device (11), such - a memory (16) that stores the resulting data. Received from the input unit (12) - the processor (14) that controls the operation of the system and processes the information received from the input unit (12) or from the memory (16), and - the part for the output (13). ) That transmits the data received from the processor (14) to the display unit (19) and / or transmits it to a database (17), characterized by the processor (14). ) Check the gap between each token as a position. Cut the sentence or not Using statistical probability results With the method of bringing that token to the previous token Page until you find a gap in the intersection position. The clipped sentence is then sent to the output section (13) to display the clipping information. 2. Sentence cutting systems and processes for languages with indistinct sentences. According to claim 1, where the processor has a system for the speech synthesis of Braille text for the conversion of the text entered into Such a system becomes the voice for communication of the blind by means of sentence cutting. 3. Sentence cutting systems and methods for languages with indistinct sentences. According to claim 1 or 2, where the method of dividing the said sentence It consists of the following steps: a) Getting a string containing a certain number of characters (21) from a database (17) or from an external device (11) b) splitting that string into a number of tokens. One (22) c) Analysis of the space within each such token. The contextual word of the gap (23) is considered by statistical POS tagging (24) to determine whether the gap is the intersection position, or D) checking the gaps between each such token so that the gaps found are The intersection position or not using the statistical probability result (25) e) the next token is applied to the previous one (26), and repeats steps b), c) and d. ) If it is found that the said gap is not the intersection position. Repeat until you find a space that is Sentence Cut Position (27) f) All the aforementioned token outputs as a clause clause (28) 4. Sentence cutting systems and procedures for languages with indistinct sentences. According to one of the claims 1 to 3, where the processor cuts the language with unclear sentence boundaries, the said language is Thai. 5. The system and process of sentence cutting for languages with unclear sentence boundaries. According to claim 1, where external devices (11) are keyboards and / or databases. 6. Sentence cutting systems and procedures for languages with unclear sentences. According to claim 1, where the sentence-cutting device (10) is a computer microprocessor or digital signal processor. ------------------------------------------- 1. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ประกอบด้วย อุปกรณ์ภายนอก (11) ที่ทำหน้าที่อินพุตข้อความที่ต่อเนื่องกันเข้าสู่อุปกรณ์ตัดแบ่งประโยค (10) อุปกรณ์ตัดแบ่งประโยค (10) ที่ทำหน้าที่ควบคุมการทำงานของระบบตัดแบ่งประโยค ที่ประกอบด้วย -หน่วยอินพุต (12)ที่ทำหน้าที่รับข้อมูลข้อความที่ต่อเนื่องกันหรือสายอักขระจากฐานข้อมูล (17) หรือ จากอุปกรณ์ภายนอก (11) ดังกล่าว -หน่วยความจำ (16) ที่ทำหน้าที่เก็บข้อมูลที่ได้รับจากหน่วยอินพุต (12) -ส่วนประมวลผล (14) ที่ทำหน้าที่ควบคุมการทำงานของระบบและประมวลผลข้อมูลที่ได้รับจาก หน่วยอินพุต (12) หรือจากหน่วยความจำ (16) และ -ส่วนสำหรับเอาต์พุต (13) ที่ทำหน้าที่ส่งข้อมูลที่ได้รับจากส่วนประมวลผล (14) ออกไปยังหน่วย แสดงผล (19) และ/หรือส่งข้อมูลดังกล่าวไปเก็บฐานข้อมูล (17) ที่มีลักษณะเฉพาะคือ ส่วนประมาณผล (14) ทำการตรวจสอบช่องว่างระหว่างโทเคนแต่ละโทเคนว่าเป็นตำแหน่ง ตัดประโยคหรือไม่ โดยใช้ผลของความน่าจะเป็นทางสถิติ ด้วยวิธีการนำโทเคนนั้นไปต่อเรียงกับโทเคนที่อยู่ก่อน หน้าจนกว่าจะพบช่องว่างที่เป็นตำแหน่งตัดประโยค จากนั้นส่งประโยคที่ได้รับการตัดแบ่งแล้วไปยังส่วนสำหรับ เอาต์พุต (13) เพื่อแสดงผลข้อมูลการตัดประโยคดังกล่าว1. Syntax cutting systems and processes for languages with indistinct sentences consist of an external device (11) that performs a continuous input of text into a sentence-cutting device (10), a sentence-cutting device (10). Function to control the function of the sentence cutting system. Contains - An input unit (12) that receives data, contiguous text or strings from a database (17) or from an external device (11), such - a memory (16) that stores the resulting data. Received from the input unit (12) - the processor (14) that controls the operation of the system and processes the information received from the input unit (12) or from the memory (16), and - the part for the output (13). ) That transmits the data received from the processor (14) to the display unit (19) and / or transmits such information to the database (17), whose characteristics are the approximation (14). Check the gap between each token as a position. Cut the sentence or not Using statistical probability results With the method of bringing the token to the previous token Page until you find a gap in the intersection position. Then send the clipped sentence to the output section (13) to display the clipping information. 2. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 ที่ซึ่งส่วน ประมวลผลมีระบบสำหรับการสังเคราะห์เสียงพูดจากข้อความอักษรเบรลล์เพื่อการแปลงข้อความที่ป้อนเข้ามาใน ระบบดังกล่าวให้กลายเป็นเสียงพูดสำหรับการสื่อสารของคนตาบอดด้วยการใช้วิธีการในการตัดแบ่งประโยค2. Sentence cutting systems and processes for languages with unclear sentence boundaries. According to claim 1, where the processor has a system for speech synthesis from Braille text for the conversion of the text entered into The system becomes a speech for the blind by means of sentence cutting. 3. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 หรือ 2 ที่ซึ่ง ที่ซึ่งวิธีการในการตัดแบ่งประโยคดังกล่าว ปรกอบด้วยขั้นตอนดังต่อไปนี้ ก) การรับอินพุตสายอักขระที่ประกอบด้วยอักขระจำนวนหนึ่ง (21) จากฐานข้อมูล (17) หรือจาก อุปกรณ์ภานอก(11) ข) การแบ่งสายอักขระนั้นออกเป็นโทเคน (token) จำนวนหนึ่ง (22) ค) การวิเคราะห์หาช่องว่าง (space) ภายในโทเคนดังกล่าวแต่ละโทเคน โดยพิจารณาคำที่อยู่รอบข้าง (contextul word) ของช่องว่างดังกล่าว (23) ด้วยการระบุชนิดของคำด้วยวิธีการทางสถิติ (statistical POS tagging) (24) เพื่อตัดสินว่าช่องว่างดังกล่าวเป็นตำแหน่งตัดประโยคหรือไม่ ง) การตรวจสอบช่องว่างระหว่างโทเคนแต่ละโทเคนดังกล่าวเพื่อหาว่าช่องว่างที่พบดังกล่าวเป็น ตำแหน่งตัดประโยคหรือไม่โดยใช้ผลของความน่าจะเป็นทางสถิติ (25) จ) การรำโคเคนนั้นไปต่อเรียงกับโคเทนที่อยู่ก่อนหน้า (26) พร้อมทั้งทำซ้ำขั้นตอน ข), ค) และ ง) ถ้า หากพบว่าช่องว่างที่พบดังกล่าวไม่ใช่ช่องว่างที่เป็นตำแหน่งตัดประโยค โดยจะทำซ้ำจนกว่าจะพบช่องว่างที่เป็น ตำแหน่งตัดประโยค (27) ฉ) ทำการเอาต์พุตโทเคนทั้งหมดดังกล่าวในฐานะที่เป็นประโยคที่ได้รับการตัดแบ่งแล้ว (28)3. Sentence cutting systems and procedures for languages with unclear sentence boundaries. According to claim 1 or 2, where the method of dividing the said sentence The following steps are included: a) Getting string input consisting of a certain number of characters (21) from a database (17) or from external devices (11) b) splitting that string into tokens. A) number (22) c) Analysis of the space within each such token. The contextul word of the gap (23) is considered by statistical POS tagging (24) to determine if the gap is the intersection position, or D) checking the gaps between each such token to determine whether the gaps found were The intersection position or not, using statistical probability results (25) e), the cocaine braning continues with the preceding cocaine (26) and repeats steps b), c) and D) If it is found that the said gap is not the intersection position. It will repeat until you find an empty space. The clause (27) f) outputs all of the token as a clipped sentence (28). 4. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 หรือ 3 ข้อใด ข้อหนึ่ง ที่ซึ่งส่วนประมวลผลทำการตัดแบ่งภาษาที่มีรอยต่อประโยคไม่ชัดเจนดังกล่าวคือ ภาษาไทย4. Sentence cutting systems and processes for languages with unclear sentence boundaries. According to claims 1 or 3, where the processor cuts the language with indistinct sentence boundaries, such is Thai. 5. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 ที่ซึ่งอุปกรณ์ ภายนอก (11) คือ คีย์บอร์ด และ/หรือฐานข้อมูล5. Sentence cutting systems and procedures for languages with unclear sentence boundaries. According to claim 1, where external devices (11) are keyboards and / or databases. 6. ระบบและกรรมวิธีตัดแบ่งประโยคสำหรับภาษาที่มีรอยต่อประโยคไม่ชัดเจน ตามข้อถือสิทธิ 1 ที่ซึ่งอุปกรณ์ตัด แบ่งประโยค (10) คือไมโครโปรเซสเซอร์ คอมพิวเตอร์ หรือตัวประมวลผลสัญญาณดิจิตอล6. Sentence cutting systems and processes for languages with unclear sentence boundaries. According to claim 1, where the sentence-cutting device (10) is a computer microprocessor or digital signal processor.
TH401003011A 2004-08-05 Systems and procedures for indistinct sentences for languages with unclear sentence boundaries. TH65852B (en)

Publications (2)

Publication Number Publication Date
TH116194A TH116194A (en) 2012-09-04
TH65852B true TH65852B (en) 2018-10-26

Family

ID=

Similar Documents

Publication Publication Date Title
US7440889B1 (en) Sentence reconstruction using word ambiguity resolution
US5634084A (en) Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US7263488B2 (en) Method and apparatus for identifying prosodic word boundaries
JP3476008B2 (en) A method for registering voice information, a method for specifying a recognition character string, a voice recognition device, a storage medium storing a software product for registering voice information, and a software product for specifying a recognition character string are stored. Storage media
JP2001249922A (en) Word segmentation method and device
JP2002517039A (en) Word segmentation in Chinese text
KR20100072997A (en) System for string matching based on tokenization and method thereof
EP1627325B1 (en) Automatic segmentation of texts comprising chunks without separators
EP2950306A1 (en) A method and system for building a language model
KR100481598B1 (en) Apparatus and method for analyzing compounded morpheme
JPH10326275A (en) Method and device for morpheme analysis and method and device for japanese morpheme analysis
US6968308B1 (en) Method for segmenting non-segmented text using syntactic parse
Tsarfaty Integrated morphological and syntactic disambiguation for modern hebrew
CN109062891B (en) Media processing method, device, terminal and medium
JP2633824B2 (en) Kana-Kanji conversion device
TH116194A (en) Systems and procedures for indistinct sentences for languages with unclear sentence boundaries.
TH65852B (en) Systems and procedures for indistinct sentences for languages with unclear sentence boundaries.
KR101777141B1 (en) Apparatus and method for inputting chinese and foreign languages based on hun min jeong eum using korean input keyboard
KR102278288B1 (en) Apparatus and method for searching text based on phoneme
JP3767180B2 (en) Document structure analysis method and apparatus, and storage medium storing document structure analysis program
JP3470930B2 (en) Natural language analysis method and device
JPH01205265A (en) Document shaping device
KR860000681B1 (en) Hangul/hanja(korean character/chinese character)word processor
JPH0546612A (en) Sentence error detector
JP2693467B2 (en) Priority control method for homophone candidates in Kana-Kanji conversion processing