RU2004127924A - Способ перевода данных и устройство для осуществления этого способа - Google Patents

Способ перевода данных и устройство для осуществления этого способа Download PDF

Info

Publication number
RU2004127924A
RU2004127924A RU2004127924/09A RU2004127924A RU2004127924A RU 2004127924 A RU2004127924 A RU 2004127924A RU 2004127924/09 A RU2004127924/09 A RU 2004127924/09A RU 2004127924 A RU2004127924 A RU 2004127924A RU 2004127924 A RU2004127924 A RU 2004127924A
Authority
RU
Russia
Prior art keywords
segments
elements
input data
data stream
segment
Prior art date
Application number
RU2004127924/09A
Other languages
English (en)
Inventor
Ари БЕКС (FI)
Ари БЕКС
Original Assignee
Мастер`С Инновейшенс Лтд. Ой (Fi)
Мастер`С Инновейшенс Лтд. Ой
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Мастер`С Инновейшенс Лтд. Ой (Fi), Мастер`С Инновейшенс Лтд. Ой filed Critical Мастер`С Инновейшенс Лтд. Ой (Fi)
Publication of RU2004127924A publication Critical patent/RU2004127924A/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Claims (29)

1. Способ обработки данных потока (200) входных данных, содержащих элементы (211, 212, 231, 221, 222, 223), путем использования содержащей сегменты базы знаний, включающий в себя стадии: чтения обрабатываемой части потока (200) входных данных и разделения ее на элементы (211, 212, 213, 221, 222, 223); группирования обрабатываемой части потока (200) входных данных в сегменты, каждый из которых содержит один или несколько элементов (211, 212, 213, 221, 222, 223), отличающийся тем, что содержит следующие стадии: анализ элементов обрабатываемой части потока входных данных и получение индивидуальной классификации сегментов на основе результата анализа; сравнение классификации сегментов (210, 220) потока входных данных с классификациями сегментов (31, 32) базы знаний и ассоциирование сегмента базы знаний с имеющим соответствующую классификацию сегментом потока входных данных, и создание отчета о результате обработки, состоящем из данных о ряде сегментов базы знаний, ассоциированных с обработанной частью потока входных данных.
2. Способ по п.1, отличающийся тем, что по меньшей мере один сегмент (210, 220) содержит по меньшей мере два элемента (211, 212, 231, 221, 222, 223), а индивидуальную классификацию сегментов устанавливают на основе результата анализа по меньшей мере двух из указанных элементов (211, 212, 231, 221, 222, 223).
3. Способ по п.1, отличающийся тем, что результаты анализа элементов объединяют для установления индивидуальной классификации сегментов.
4. Способ по п.1, отличающийся тем, что классификацию сегмента потока входных данных используют в качестве ключа поиска в базе знаний сегмента с той же классификацией.
5. Способ по п.1, отличающийся тем, что после стадии группирования в сегменты выполняют стадию, на которой обрабатываемую часть потока входных данных сравнивают посегментно (210, 220) с сегментами (31, 32) базы знаний и взаимно эквивалентные сегменты ассоциируют друг с другом, после чего стадию анализа выполняют только для тех элементов, для которых эквивалентный сегмент базы знаний не был найден.
6. Способ по п.5, отличающийся тем, что если для одного сегмента потока входных данных при сравнении с сегментами базы знаний найдено несколько эквивалентных сегментов, то выбирают один из них по меньшей мере одному из следующих критериев: выбирают сегмент с наибольшим числом элементов потока входных данных; выбирают сегмент по указанию пользователя; выбирают наиболее часто использующийся сегмент; выбирают сегмент, семантическая классификация которого соответствует классификации соответствующей части потока входных данных; выбирают сегмент, семантическая классификация элементов которого соответствует классификации соответствующей части потока входных данных.
7. Способ по п.1, отличающийся тем, что в базу знаний включают сегменты разной длины и с частично сходным содержимым, посредством чего обрабатываемую часть потока входных данных группируют на сегменты оптимальным образом в зависимости от конкретного случая.
8. Способ по п.1, отличающийся тем, что группирование потока входных данных на сегменты выполняют по меньшей мере одним из следующих методов:
выбранным сегментом является сегмент, уже содержащийся в базе знаний, т.е. эквивалентный по своим элементам или своей классификации для части потока входных данных; сегмент определяют в соответствии с инструкциями пользователя; в сегмент превращают языковую единицу; в сегмент превращают фразу; сегмент нарезают по знаку препинания; сегмент нарезают по заданным, занесенным в список промежуточным словам; сегмент образуют из оставшейся части потока входных данных после того, как сегменты, найденные другими средствами, удалены из части потока входных данных.
9. Способ по п.1, отличающийся тем, что сегменты образуют иерархические конструкции, в которых данный высокоуровневый сегмент содержит информацию о данных низкоуровневых сегментах, причем способ включает в себя стадию ассоциирования высокоуровневых сегментов (509) базы знаний с обрабатываемой частью потока (200) входных данных, при этом указанные высокоуровневые сегменты содержат низкоуровневые сегменты базы знаний, ассоциированные с сегментами потока входных данных.
10. Способ по п.1, отличающийся тем, что сегмент потока входных данных подвергают специальной обработке в соответствии с заданными инструкциями, если соответствующая классификация сегмента не найдена в базе знаний.
11. Способ по п.1, отличающийся тем, что в качестве анализа элементов используют морфологический анализ, а в качестве результата этого анализа получают определенные признаки, описывающие указанные элементы.
12. Способ по п.1, отличающийся тем, что с целью перевода данных на выходной язык, для входных элементов (210, 220) отыскивают эквивалентные элементы (33) в базе знаний двух или более языков, а в качестве результирующего потока получают ряд эквивалентных сегментов, содержащих эквивалентные элементы (401, 402, 403).
13. Способ по п.12, отличающийся тем, что для тех элементов (211, 212, 213, 221, 222, 223) потока входных данных, для которых в базе знаний не найдены эквивалентные элементы, последние получают в соответствии с установленными результатами анализа элементов (331, 332, 333) базы знаний и/или с помощью отдельного генератора элементов.
14. Способ по п.12, отличающийся тем, что поток выходных данных, получаемый при переводе данных, содержит элементы (401, 402, 403) эквивалентных сегментов (400) и отдельно полученные элементы в виде последовательности сегментов, при этом внутренний порядок эквивалентных элементов внутри каждого сегмента определяют на основе информации о порядке, включенной в эквивалентные сегменты.
15. Способ по п.12, отличающийся тем, что получаемый при переводе данных поток выходных данных содержит элементы (401, 402, 403) эквивалентных сегментов (400) и отдельно полученные элементы в виде последовательности сегментов, при этом внутренний порядок эквивалентных элементов внутри каждого сегмента определяют на основе информации об эквивалентности между сегментами и их эквивалентными сегментами.
16. Способ по п.1, отличающийся тем, что для формирования базы знаний прочитывают две взаимно соответствующих части потока входных данных и разделяют их на элементы, классифицируют те части потока входных данных, которые должны быть обработаны в данный момент времени, для обрабатываемой части потока входных данных отыскивают данные о сегментном делении, эквивалентные сегменты и информацию об их эквивалентности на основе содержащихся в базе знаний сегментов и их классификации, и несегментированные части потока входных данных, которые остались без эквивалентных элементов, сопоставляют друг с другом и формируют в сегменты, а для указанных сегментов генерируют эквивалентные сегменты и информацию об их взаимной эквивалентности.
17. Способ по п.16, отличающийся тем, что информацию об эквивалентности, эквивалентные сегменты и данные о сегментном делении генерируют на основе ранее сохраненных в базе знаний сегментов (33) и/их классификации.
18. Устройство для обработки данных потока (200) входных данных, включающих в себя (211, 212, 231, 221, 222, 223), содержащее блоки памяти (104, 105) для хранения содержащей сегменты базы знаний, найденных индексов, информации и обрабатываемой части потока входных данных; средства для чтения потока входных данных; средства для деления потока входных данных на элементы и средства для группирования потока входных данных по сегментам, содержащим элементы, отличающееся тем, что оно снабжено средствами анализа элементов потока входных данных и получения индивидуальной классификации сегментов на основе результатов анализа; средствами для сравнения классификации сегментов потока входных данных с классификациями сегментов базы знаний и для ассоциирования эквивалентных сегментов друг с другом, а также средствами для создания отчета о классификации сегментов.
19. Устройство по п.18, отличающееся тем, что оно снабжено средствами для сравнения сегментов потока входных данных с сегментами базы знаний.
20. Устройство по п.18, отличающееся тем, что оно снабжено средствами для получения эквивалентных сегментов в виде последовательности, которая формирует поток выходных данных.
21. Устройство по п.18, отличающееся тем, что оно снабжено связью с генератором элементов для генерирования элементов на основе результатов анализа.
22. Устройство по п.18, отличающееся тем, что блоки памяти (104, 105) содержат информацию о сегментах для деления части потока входных данных на сегменты и информацию о порядке для определения соответствующего порядка элементов в сегментах потока входных данных.
23. Устройство по п.18, отличающееся тем, что блок памяти (104, 105) содержит базу знаний для хранения сегментов, элементов, классификаций, эквивалентных сегментов и эквивалентных элементов.
24. Устройство по п.18, отличающееся тем, что оно снабжено интерфейсами (106) ввода-вывода для передачи и приема потоков входных и выходных данных и для установления подключений к другим системам и/или пользователям.
25. Устройство по п.18, отличающееся тем, что оно снабжено средствами для сравнения в целом обрабатываемой части потока входных данных с сегментами базы данных по размеру сегментов.
26. Устройство по п.18, отличающееся тем, что оно снабжено средствами для чтения и обработки математических выражений.
27. Устройство по п.18, отличающееся тем, что оно снабжено средствами для чтения и обработки формальных языков.
28. Устройство по п.18, отличающееся тем, что устройство оно снабжено средствами для чтения естественных языков, средствами для деления естественных языков на элементы, являющиеся словами с их аффиксами, средствами для группирования естественного языка в сегменты, являющиеся, блоками, содержащими слова, средствами для классификации обрабатываемой части естественного языка на основе лексического, морфологического, синтаксического или семантического анализа и средствами для генерирования эквивалентных сегментов, содержащих эквивалентные слова.
29. Устройство по п.28, отличающееся тем, что устройство снабжено средством телекоммуникационной связи с соответствующим устройством для выполнения подфункции.
RU2004127924/09A 2002-03-20 2003-03-14 Способ перевода данных и устройство для осуществления этого способа RU2004127924A (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20020532 2002-03-20
FI20020532A FI114347B (fi) 2002-03-20 2002-03-20 Menetelmä ja laitteisto datan kääntämiseksi

Publications (1)

Publication Number Publication Date
RU2004127924A true RU2004127924A (ru) 2005-06-10

Family

ID=8563608

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2004127924/09A RU2004127924A (ru) 2002-03-20 2003-03-14 Способ перевода данных и устройство для осуществления этого способа

Country Status (7)

Country Link
US (1) US20050256698A1 (ru)
EP (1) EP1485819A1 (ru)
AU (1) AU2003219191A1 (ru)
FI (1) FI114347B (ru)
PL (1) PL371547A1 (ru)
RU (1) RU2004127924A (ru)
WO (1) WO2003079223A1 (ru)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941310B2 (en) * 2003-09-09 2011-05-10 International Business Machines Corporation System and method for determining affixes of words
US7636857B2 (en) * 2004-05-24 2009-12-22 Interdigital Technology Corporation Data-mover controller with plural registers for supporting ciphering operations
JP4473702B2 (ja) * 2004-11-02 2010-06-02 株式会社東芝 機械翻訳システム、機械翻訳方法及びプログラム
US8738360B2 (en) 2008-06-06 2014-05-27 Apple Inc. Data detection of a character sequence having multiple possible data types
CN101803205B (zh) * 2008-08-15 2013-12-18 Lsi公司 近码字的ram列表解码
US9189475B2 (en) * 2009-06-22 2015-11-17 Ca, Inc. Indexing mechanism (nth phrasal index) for advanced leveraging for translation
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US8635059B2 (en) * 2010-11-15 2014-01-21 Google Inc. Providing alternative translations
US20190102390A1 (en) * 2017-09-29 2019-04-04 Novabase Sgps, S.A. Semantic search engine and visualization platform

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
EP1080424B1 (en) * 1998-05-27 2006-07-12 Master's Innovations Ltd Oy A method and arrangement for translation of information
CN1102271C (zh) * 1998-10-07 2003-02-26 国际商业机器公司 具有习惯用语处理功能的电子词典
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method

Also Published As

Publication number Publication date
US20050256698A1 (en) 2005-11-17
FI114347B (fi) 2004-09-30
AU2003219191A1 (en) 2003-09-29
PL371547A1 (en) 2005-06-27
EP1485819A1 (en) 2004-12-15
WO2003079223A1 (en) 2003-09-25
FI20020532A0 (fi) 2002-03-20
FI20020532A (fi) 2003-09-21

Similar Documents

Publication Publication Date Title
US7389224B1 (en) Natural language search method and apparatus, including linguistically-matching context data
KR100546743B1 (ko) 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
CN104252533B (zh) 搜索方法和搜索装置
US8024177B2 (en) Method of transforming natural language expression into formal language representation
US20040117352A1 (en) System for answering natural language questions
Bjarnadóttir The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls)
CN108804592A (zh) 知识库检索实现方法
US20050065776A1 (en) System and method for the recognition of organic chemical names in text documents
JP2011118689A (ja) 検索方法及びシステム
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
KR20040101678A (ko) 복합 형태소 분석 장치 및 방법
RU2004127924A (ru) Способ перевода данных и устройство для осуществления этого способа
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
Chandrasekar et al. Gleaning information from the web: Using syntax to filter out irrelevant information
Chandrasekar et al. Institute for Research in Cognitive Science
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2004334602A (ja) 文書検索装置、文書検索処理プログラム及び記録媒体
JPS5856071A (ja) 日本語による検索システム
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム
Pa_ca et al. The informative role of WordNet in open-domain question answering
Olivo et al. CRFPOST: Part-of-Speech Tagger for Filipino Texts using Conditional Random Fields
US20240070387A1 (en) Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method
US20240046039A1 (en) Method for News Mapping and Apparatus for Performing the Method
US20240070175A1 (en) Method for Determining Company Related to News Based on Scoring and Apparatus for Performing the Method

Legal Events

Date Code Title Description
FA92 Acknowledgement of application withdrawn (lack of supplementary materials submitted)

Effective date: 20070716