RU2004127924A - Способ перевода данных и устройство для осуществления этого способа - Google Patents
Способ перевода данных и устройство для осуществления этого способа Download PDFInfo
- Publication number
- RU2004127924A RU2004127924A RU2004127924/09A RU2004127924A RU2004127924A RU 2004127924 A RU2004127924 A RU 2004127924A RU 2004127924/09 A RU2004127924/09 A RU 2004127924/09A RU 2004127924 A RU2004127924 A RU 2004127924A RU 2004127924 A RU2004127924 A RU 2004127924A
- Authority
- RU
- Russia
- Prior art keywords
- segments
- elements
- input data
- data stream
- segment
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Claims (29)
1. Способ обработки данных потока (200) входных данных, содержащих элементы (211, 212, 231, 221, 222, 223), путем использования содержащей сегменты базы знаний, включающий в себя стадии: чтения обрабатываемой части потока (200) входных данных и разделения ее на элементы (211, 212, 213, 221, 222, 223); группирования обрабатываемой части потока (200) входных данных в сегменты, каждый из которых содержит один или несколько элементов (211, 212, 213, 221, 222, 223), отличающийся тем, что содержит следующие стадии: анализ элементов обрабатываемой части потока входных данных и получение индивидуальной классификации сегментов на основе результата анализа; сравнение классификации сегментов (210, 220) потока входных данных с классификациями сегментов (31, 32) базы знаний и ассоциирование сегмента базы знаний с имеющим соответствующую классификацию сегментом потока входных данных, и создание отчета о результате обработки, состоящем из данных о ряде сегментов базы знаний, ассоциированных с обработанной частью потока входных данных.
2. Способ по п.1, отличающийся тем, что по меньшей мере один сегмент (210, 220) содержит по меньшей мере два элемента (211, 212, 231, 221, 222, 223), а индивидуальную классификацию сегментов устанавливают на основе результата анализа по меньшей мере двух из указанных элементов (211, 212, 231, 221, 222, 223).
3. Способ по п.1, отличающийся тем, что результаты анализа элементов объединяют для установления индивидуальной классификации сегментов.
4. Способ по п.1, отличающийся тем, что классификацию сегмента потока входных данных используют в качестве ключа поиска в базе знаний сегмента с той же классификацией.
5. Способ по п.1, отличающийся тем, что после стадии группирования в сегменты выполняют стадию, на которой обрабатываемую часть потока входных данных сравнивают посегментно (210, 220) с сегментами (31, 32) базы знаний и взаимно эквивалентные сегменты ассоциируют друг с другом, после чего стадию анализа выполняют только для тех элементов, для которых эквивалентный сегмент базы знаний не был найден.
6. Способ по п.5, отличающийся тем, что если для одного сегмента потока входных данных при сравнении с сегментами базы знаний найдено несколько эквивалентных сегментов, то выбирают один из них по меньшей мере одному из следующих критериев: выбирают сегмент с наибольшим числом элементов потока входных данных; выбирают сегмент по указанию пользователя; выбирают наиболее часто использующийся сегмент; выбирают сегмент, семантическая классификация которого соответствует классификации соответствующей части потока входных данных; выбирают сегмент, семантическая классификация элементов которого соответствует классификации соответствующей части потока входных данных.
7. Способ по п.1, отличающийся тем, что в базу знаний включают сегменты разной длины и с частично сходным содержимым, посредством чего обрабатываемую часть потока входных данных группируют на сегменты оптимальным образом в зависимости от конкретного случая.
8. Способ по п.1, отличающийся тем, что группирование потока входных данных на сегменты выполняют по меньшей мере одним из следующих методов:
выбранным сегментом является сегмент, уже содержащийся в базе знаний, т.е. эквивалентный по своим элементам или своей классификации для части потока входных данных; сегмент определяют в соответствии с инструкциями пользователя; в сегмент превращают языковую единицу; в сегмент превращают фразу; сегмент нарезают по знаку препинания; сегмент нарезают по заданным, занесенным в список промежуточным словам; сегмент образуют из оставшейся части потока входных данных после того, как сегменты, найденные другими средствами, удалены из части потока входных данных.
9. Способ по п.1, отличающийся тем, что сегменты образуют иерархические конструкции, в которых данный высокоуровневый сегмент содержит информацию о данных низкоуровневых сегментах, причем способ включает в себя стадию ассоциирования высокоуровневых сегментов (509) базы знаний с обрабатываемой частью потока (200) входных данных, при этом указанные высокоуровневые сегменты содержат низкоуровневые сегменты базы знаний, ассоциированные с сегментами потока входных данных.
10. Способ по п.1, отличающийся тем, что сегмент потока входных данных подвергают специальной обработке в соответствии с заданными инструкциями, если соответствующая классификация сегмента не найдена в базе знаний.
11. Способ по п.1, отличающийся тем, что в качестве анализа элементов используют морфологический анализ, а в качестве результата этого анализа получают определенные признаки, описывающие указанные элементы.
12. Способ по п.1, отличающийся тем, что с целью перевода данных на выходной язык, для входных элементов (210, 220) отыскивают эквивалентные элементы (33) в базе знаний двух или более языков, а в качестве результирующего потока получают ряд эквивалентных сегментов, содержащих эквивалентные элементы (401, 402, 403).
13. Способ по п.12, отличающийся тем, что для тех элементов (211, 212, 213, 221, 222, 223) потока входных данных, для которых в базе знаний не найдены эквивалентные элементы, последние получают в соответствии с установленными результатами анализа элементов (331, 332, 333) базы знаний и/или с помощью отдельного генератора элементов.
14. Способ по п.12, отличающийся тем, что поток выходных данных, получаемый при переводе данных, содержит элементы (401, 402, 403) эквивалентных сегментов (400) и отдельно полученные элементы в виде последовательности сегментов, при этом внутренний порядок эквивалентных элементов внутри каждого сегмента определяют на основе информации о порядке, включенной в эквивалентные сегменты.
15. Способ по п.12, отличающийся тем, что получаемый при переводе данных поток выходных данных содержит элементы (401, 402, 403) эквивалентных сегментов (400) и отдельно полученные элементы в виде последовательности сегментов, при этом внутренний порядок эквивалентных элементов внутри каждого сегмента определяют на основе информации об эквивалентности между сегментами и их эквивалентными сегментами.
16. Способ по п.1, отличающийся тем, что для формирования базы знаний прочитывают две взаимно соответствующих части потока входных данных и разделяют их на элементы, классифицируют те части потока входных данных, которые должны быть обработаны в данный момент времени, для обрабатываемой части потока входных данных отыскивают данные о сегментном делении, эквивалентные сегменты и информацию об их эквивалентности на основе содержащихся в базе знаний сегментов и их классификации, и несегментированные части потока входных данных, которые остались без эквивалентных элементов, сопоставляют друг с другом и формируют в сегменты, а для указанных сегментов генерируют эквивалентные сегменты и информацию об их взаимной эквивалентности.
17. Способ по п.16, отличающийся тем, что информацию об эквивалентности, эквивалентные сегменты и данные о сегментном делении генерируют на основе ранее сохраненных в базе знаний сегментов (33) и/их классификации.
18. Устройство для обработки данных потока (200) входных данных, включающих в себя (211, 212, 231, 221, 222, 223), содержащее блоки памяти (104, 105) для хранения содержащей сегменты базы знаний, найденных индексов, информации и обрабатываемой части потока входных данных; средства для чтения потока входных данных; средства для деления потока входных данных на элементы и средства для группирования потока входных данных по сегментам, содержащим элементы, отличающееся тем, что оно снабжено средствами анализа элементов потока входных данных и получения индивидуальной классификации сегментов на основе результатов анализа; средствами для сравнения классификации сегментов потока входных данных с классификациями сегментов базы знаний и для ассоциирования эквивалентных сегментов друг с другом, а также средствами для создания отчета о классификации сегментов.
19. Устройство по п.18, отличающееся тем, что оно снабжено средствами для сравнения сегментов потока входных данных с сегментами базы знаний.
20. Устройство по п.18, отличающееся тем, что оно снабжено средствами для получения эквивалентных сегментов в виде последовательности, которая формирует поток выходных данных.
21. Устройство по п.18, отличающееся тем, что оно снабжено связью с генератором элементов для генерирования элементов на основе результатов анализа.
22. Устройство по п.18, отличающееся тем, что блоки памяти (104, 105) содержат информацию о сегментах для деления части потока входных данных на сегменты и информацию о порядке для определения соответствующего порядка элементов в сегментах потока входных данных.
23. Устройство по п.18, отличающееся тем, что блок памяти (104, 105) содержит базу знаний для хранения сегментов, элементов, классификаций, эквивалентных сегментов и эквивалентных элементов.
24. Устройство по п.18, отличающееся тем, что оно снабжено интерфейсами (106) ввода-вывода для передачи и приема потоков входных и выходных данных и для установления подключений к другим системам и/или пользователям.
25. Устройство по п.18, отличающееся тем, что оно снабжено средствами для сравнения в целом обрабатываемой части потока входных данных с сегментами базы данных по размеру сегментов.
26. Устройство по п.18, отличающееся тем, что оно снабжено средствами для чтения и обработки математических выражений.
27. Устройство по п.18, отличающееся тем, что оно снабжено средствами для чтения и обработки формальных языков.
28. Устройство по п.18, отличающееся тем, что устройство оно снабжено средствами для чтения естественных языков, средствами для деления естественных языков на элементы, являющиеся словами с их аффиксами, средствами для группирования естественного языка в сегменты, являющиеся, блоками, содержащими слова, средствами для классификации обрабатываемой части естественного языка на основе лексического, морфологического, синтаксического или семантического анализа и средствами для генерирования эквивалентных сегментов, содержащих эквивалентные слова.
29. Устройство по п.28, отличающееся тем, что устройство снабжено средством телекоммуникационной связи с соответствующим устройством для выполнения подфункции.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20020532 | 2002-03-20 | ||
FI20020532A FI114347B (fi) | 2002-03-20 | 2002-03-20 | Menetelmä ja laitteisto datan kääntämiseksi |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2004127924A true RU2004127924A (ru) | 2005-06-10 |
Family
ID=8563608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2004127924/09A RU2004127924A (ru) | 2002-03-20 | 2003-03-14 | Способ перевода данных и устройство для осуществления этого способа |
Country Status (7)
Country | Link |
---|---|
US (1) | US20050256698A1 (ru) |
EP (1) | EP1485819A1 (ru) |
AU (1) | AU2003219191A1 (ru) |
FI (1) | FI114347B (ru) |
PL (1) | PL371547A1 (ru) |
RU (1) | RU2004127924A (ru) |
WO (1) | WO2003079223A1 (ru) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7941310B2 (en) * | 2003-09-09 | 2011-05-10 | International Business Machines Corporation | System and method for determining affixes of words |
US7636857B2 (en) * | 2004-05-24 | 2009-12-22 | Interdigital Technology Corporation | Data-mover controller with plural registers for supporting ciphering operations |
JP4473702B2 (ja) * | 2004-11-02 | 2010-06-02 | 株式会社東芝 | 機械翻訳システム、機械翻訳方法及びプログラム |
US8738360B2 (en) | 2008-06-06 | 2014-05-27 | Apple Inc. | Data detection of a character sequence having multiple possible data types |
CN101803205B (zh) * | 2008-08-15 | 2013-12-18 | Lsi公司 | 近码字的ram列表解码 |
US9189475B2 (en) * | 2009-06-22 | 2015-11-17 | Ca, Inc. | Indexing mechanism (nth phrasal index) for advanced leveraging for translation |
KR101356417B1 (ko) * | 2010-11-05 | 2014-01-28 | 고려대학교 산학협력단 | 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법 |
US8635059B2 (en) * | 2010-11-15 | 2014-01-21 | Google Inc. | Providing alternative translations |
US20190102390A1 (en) * | 2017-09-29 | 2019-04-04 | Novabase Sgps, S.A. | Semantic search engine and visualization platform |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6161083A (en) * | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
EP1080424B1 (en) * | 1998-05-27 | 2006-07-12 | Master's Innovations Ltd Oy | A method and arrangement for translation of information |
CN1102271C (zh) * | 1998-10-07 | 2003-02-26 | 国际商业机器公司 | 具有习惯用语处理功能的电子词典 |
US6243669B1 (en) * | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
-
2002
- 2002-03-20 FI FI20020532A patent/FI114347B/fi active IP Right Grant
-
2003
- 2003-03-14 AU AU2003219191A patent/AU2003219191A1/en not_active Abandoned
- 2003-03-14 US US10/507,144 patent/US20050256698A1/en not_active Abandoned
- 2003-03-14 PL PL03371547A patent/PL371547A1/xx not_active Application Discontinuation
- 2003-03-14 WO PCT/FI2003/000195 patent/WO2003079223A1/en not_active Application Discontinuation
- 2003-03-14 EP EP03714987A patent/EP1485819A1/en not_active Withdrawn
- 2003-03-14 RU RU2004127924/09A patent/RU2004127924A/ru not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
US20050256698A1 (en) | 2005-11-17 |
FI114347B (fi) | 2004-09-30 |
AU2003219191A1 (en) | 2003-09-29 |
PL371547A1 (en) | 2005-06-27 |
EP1485819A1 (en) | 2004-12-15 |
WO2003079223A1 (en) | 2003-09-25 |
FI20020532A0 (fi) | 2002-03-20 |
FI20020532A (fi) | 2003-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7389224B1 (en) | Natural language search method and apparatus, including linguistically-matching context data | |
KR100546743B1 (ko) | 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템 | |
CN104252533B (zh) | 搜索方法和搜索装置 | |
US8024177B2 (en) | Method of transforming natural language expression into formal language representation | |
US20040117352A1 (en) | System for answering natural language questions | |
Bjarnadóttir | The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls) | |
CN108804592A (zh) | 知识库检索实现方法 | |
US20050065776A1 (en) | System and method for the recognition of organic chemical names in text documents | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
KR20040101678A (ko) | 복합 형태소 분석 장치 및 방법 | |
RU2004127924A (ru) | Способ перевода данных и устройство для осуществления этого способа | |
JPH1196177A (ja) | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 | |
Chandrasekar et al. | Gleaning information from the web: Using syntax to filter out irrelevant information | |
Chandrasekar et al. | Institute for Research in Cognitive Science | |
KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JP2004334602A (ja) | 文書検索装置、文書検索処理プログラム及び記録媒体 | |
JPS5856071A (ja) | 日本語による検索システム | |
JP4635585B2 (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
Pa_ca et al. | The informative role of WordNet in open-domain question answering | |
Olivo et al. | CRFPOST: Part-of-Speech Tagger for Filipino Texts using Conditional Random Fields | |
US20240070387A1 (en) | Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method | |
US20240046039A1 (en) | Method for News Mapping and Apparatus for Performing the Method | |
US20240070175A1 (en) | Method for Determining Company Related to News Based on Scoring and Apparatus for Performing the Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA92 | Acknowledgement of application withdrawn (lack of supplementary materials submitted) |
Effective date: 20070716 |