KR20190095860A - 다종 언어 조판의 디스플레이 방법, 장치, 브라우저, 단말 및 매체 - Google Patents

다종 언어 조판의 디스플레이 방법, 장치, 브라우저, 단말 및 매체 Download PDF

Info

Publication number
KR20190095860A
KR20190095860A KR1020180108443A KR20180108443A KR20190095860A KR 20190095860 A KR20190095860 A KR 20190095860A KR 1020180108443 A KR1020180108443 A KR 1020180108443A KR 20180108443 A KR20180108443 A KR 20180108443A KR 20190095860 A KR20190095860 A KR 20190095860A
Authority
KR
South Korea
Prior art keywords
language text
text
subject
subject language
language
Prior art date
Application number
KR1020180108443A
Other languages
English (en)
Other versions
KR102218248B1 (ko
Inventor
치우건 샤오
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20190095860A publication Critical patent/KR20190095860A/ko
Application granted granted Critical
Publication of KR102218248B1 publication Critical patent/KR102218248B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/454Multi-language systems; Localisation; Internationalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 다종 언어 조판의 디스플레이 방법, 장치, 브라우저, 단말 및 컴퓨터 판독가능 저장 매체를 제기한다. 여기서 다종 언어 조판의 디스플레이 방법은, 조판 대기 텍스트를 획득하는 단계; 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계 - 삽입된 언어 내용은 상기 주체 언어 텍스트에 삽입된 적어도 하나의 비주체 언어의 내용을 포함함 -; 상기 삽입된 언어 내용의 대체내용을 확정하는 단계 - 여기서, 상기 대체내용은 상기 삽입된 언어 내용과 대응되는 주체 언어 텍스트 또는 삽입된 언어 내용에서 비주체 언어 텍스트의 약어를 포함함 -; 및 삽입된 언어 내용을 상기 대체내용으로 대체하는 단계를 포함한다. 본 발명의 실시예는 다종 언어 조판 프런트 엔드의 디스플레이에서 문자 간격의 기형적 변화 상황을 피면하여, 완정한 다종 언어 내용을 보여줄 수 있을 뿐만 아니라, 또한 페이지 디스플레이가 더욱 더 깔끔하고 보기 좋도록 하여, 사용자의 체험을 향상한다.

Description

다종 언어 조판의 디스플레이 방법, 장치, 브라우저, 단말 및 매체{Method for displaying multi-language typesetting, and device, browser, terminal and medium thereof}
본 발명은 정보 기술 분야에 관한 것으로, 특히 다종 언어 조판의 디스플레이 방법, 장치, 브라우저, 단말 및 컴퓨터 판독가능 저장 매체에 관한 것이다.
현재 다종 언어 조판의 텍스트에서, 예를 들어 중국어와 영어가 혼합한 조판의 텍스트에서, 중국어 한자 사이에 띄여쓰기로 단어를 커팅하는 부호가 없고, 영어 단어에는 스페이스로 단어를 커팅하는 부호가 존재하고 또한 단어의 문자 부호 스트링(word string) 길이가 서로 다르기에, 중국어와 영어가 혼합된 조판이 문서의 열독과 편집의 역사에서, 조판 중 문자 간격의 기형적 변화 문제가 항상 존재하는 것을 초래하여, 판면(layout)이 깔끔하지 않고 보기 좋지 않게 되어, 다종 언어 조판의 프런트 엔드 디스플레이의 효과에 영향을 준다. 특히, 모바일단의 응용에서, 스크린이 작기에, 이 부분의 통점은 더욱 더 뚜렷하고, 간격의 기형적 변화 문제가 더욱 더 돌출하여, 사용자의 열독 체험에 영향을 준다.
본 발명의 실시예는 다종 언어 조판의 디스플레이 방법, 장치, 브라우저, 단말 및 컴퓨터 판독가능 저장 매체를 제공하여, 적어도 기존 기술에서의 상술한 기술적 문제를 해결한다.
제1 측면에서, 본 발명의 실시예는 다종 언어 조판의 디스플레이 방법을 제공하는 바, 상기 방법은, 조판 대기 텍스트를 획득하는 단계; 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계 - 상기 삽입된 언어 내용은 상기 주체 언어 텍스트에 삽입된 적어도 하나의 비주체 언어의 내용을 포함함 -; 상기 삽입된 언어 내용의 대체내용을 확정하는 단계 - 여기서, 상기 대체내용은 상기 삽입된 언어 내용과 대응되는 주체 언어 텍스트 또는 삽입된 언어 내용에서 비주체 언어 텍스트의 약어를 포함함 -; 및 상기 삽입된 언어 내용을 상기 대체내용으로 대체하는 단계를 포함한다.
제1 측면을 결합하여, 본 발명이 제1 측면의 제1 실시형태에서, 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계는, 상기 주체 언어 텍스트에 제1 단어 쌍이 존재하는지 여부를 식별하는 단계 - 여기서, 상기 제1 단어 쌍은 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 구성되는 단어 쌍임 -를 포함하고, 상기 삽입된 언어 내용의 대체내용을 확정하는 단계는, 상기 제1 단어 쌍에서의 주체 언어 텍스트를 상기 대체내용으로 확정하는 단계를 포함한다.
제1 측면의 제1 실시형태를 결합하여, 본 발명이 제1 측면의 제2 실시형태에서, 상기 주체 언어 텍스트에 상기 제1 단어 쌍이 존재하는지 여부를 식별하는 단계는, 주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하는 단계; 번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계를 포함한다.
제1 측면의 제2 실시형태를 결합하여, 본 발명이 제1 측면의 제3 실시형태에서, 번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계는, 상기 비주체 언어 텍스트를 주체 언어 텍스트로 번역하거나, 또는 상기 서로 인접한 주체 언어 텍스트를 비주체 언어 텍스트로 번역하는 단계; 상기 비주체 언어 텍스트와 상기 서로 인접한 주체 언어 텍스트의 매칭도를 판단하는 단계 - 여기서, 상기 매칭도는 상기 번역 결과에 따라 판단하는 편집 거리 데이터, 단어 벡터의 유사도, 및 텍스트에서의 함께 나타나는 횟수 중의 적어도 하나를 포함함 -; 상기 매칭도에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는 확률을 계산하는 단계; 상기 확률에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는지 여부를 확정하는 단계를 포함한다.
제1 측면의 제3 실시형태를 결합하여, 본 발명이 제1 측면의 제4 실시형태에서, 상기 편집 거리 데이터는 상기 번역 후의 텍스트 및 서로 인접한 텍스트의 편집 거리, 또는 상기 편집 거리가 상기 번역 후의 텍스트의 길이에서 차지하는 비율을 포함한다.
제1 측면의 제2 실시형태를 결합하여, 본 발명이 제1 측면의 제5 실시형태에서, 번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계는, 기계를 통해 언어 자료를 번역하고, 신경망 기계 모델을 이용하여 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계를 포함한다.
제1 측면을 결합하여, 본 발명이 제1 측면의 제6 실시형태에서, 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계는, 상기 주체 언어 텍스트에 제2 단어 쌍이 존재하는지 여부를 식별하는 단계 - 여기서, 상기 제2 단어 쌍은 상기 비주체 언어 텍스트의 약어와 상기 비주체 언어 텍스트의 전칭으로 구성된 단어 쌍임 -;를 더 포함하고, 상기 삽입된 언어 내용의 대체내용을 확정하는 단계는, 상기 제2 단어 쌍에서의 상기 비주체 언어 텍스트의 약어를 상기 대체내용으로 확정하는 단계를 더 포함한다.
제1 측면의 제6 실시형태를 결합하여, 본 발명이 제1 측면의 제7 실시형태에서, 상기 주체 언어 텍스트에 제2 단어 쌍이 존재하는지 여부를 식별하는 단계는, 주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하는 단계; 머리글자 판단을 통해, 상기 비주체 언어 텍스트가 상기 제2 단어 쌍에 속하는지 여부를 식별하는 단계를 포함한다.
제1 측면을 결합하여, 본 발명이 제1 측면의 제8 실시형태에서, 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계는, 상기 주체 언어 텍스트에 단독 비주체 언어 텍스트가 존재하는지 여부를 식별하는 단계 - 여기서, 상기 단독 비주체 언어 텍스트는 단어 쌍을 구성하지 않는 독립적으로 존재하는 비주체 언어 텍스트임 -;를 더 포함하고, 상기 삽입된 언어 내용의 대체내용을 확정하는 단계는, 상기 단독 비주체 언어 텍스트를 주체 언어 텍스트로 번역하여, 상기 번역된 주체 언어 텍스트를 상기 대체내용으로 확정하는 단계를 더 포함한다.
제1 측면의 제8 실시형태를 결합하여, 본 발명이 제1 측면의 제9 실시형태에서, 상기 삽입된 언어 내용의 대체내용을 확정하는 단계는, 번역한 후의 주체 언어 텍스트가 두 가지 이상의 번역 결과가 존재하면, 상기 두 가지 이상 번역 결과와 상기 단독 비주체 언어 텍스트의 문맥의 관련도를 판단하는 단계; 및 관련도가 제일 큰 상기 번역 결과를 상기 단독 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 확정하는 단계를 더 포함한다.
제1 측면, 제1 측면의 제1 실시형태, 제1 측면의 제2 실시형태, 제1 측면의 제3 실시형태, 제1 측면의 제4 실시형태, 제1 측면의 제5 실시형태, 제1 측면의 제6 실시형태, 제1 측면의 제7 실시형태, 제1 측면의 제8 실시형태, 제1 측면의 제9 실시형태를 결합하여, 본 발명이 제1 측면의 제10 실시형태에서, 상기 삽입된 언어 내용을 상기 대체내용으로 대체한 후, 상기 대체내용에 제시 마크를 설치하는 단계 - 상기 제시 마크는 미리 설정된 상기 대체내용의 글자체 및 미리 설정된 상기 대체내용의 마크 부호 중의 적어도 하나를 포함함 -; 미리 설정된 조작 동작에 응답하여, 상기 대체내용과 대응되는 상기 삽입된 언어 내용을 디스플레이하는 단계를 더 포함한다.
제2 측면에서, 본 발명의 실시예는 다종 언어 조판의 디스플레이 장치를 제공하는 바, 상기의 디스플레이 장치는 획득 유닛, 식별 유닛, 확정 유닛 및 대체 유닛을 포함하고, 상기 획득 유닛은 조판 대기 텍스트를 획득하기 위한 것이고; 상기 식별 유닛은 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하기 위한 것이고, 상기 삽입된 언어 내용은 상기 주체 언어 텍스트에 삽입된 적어도 하나의 비주체 언어의 내용을 포함하며; 상기 확정 유닛은 상기 삽입된 언어 내용의 대체내용을 확정하기 위한 것이고, 여기서, 상기 대체내용은 상기 삽입된 언어 내용과 대응되는 주체 언어 텍스트 또는 삽입된 언어 내용에서 비주체 언어 텍스트의 약어를 포함하며; 상기 대체 유닛은 상기 삽입된 언어 내용을 상기 대체내용으로 대체하기 위한 것이다.
제2 측면을 결합하여, 본 발명이 제2 측면의 제1 실시형태에서, 상기 식별 유닛은 제1 식별 서브 유닛을 포함하고, 상기 제1 식별 서브 유닛은 상기 주체 언어 텍스트에 제1 단어 쌍이 존재하는지 여부를 식별하기 위한 것이고, 여기서, 상기 제1 단어 쌍은 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 구성되는 단어 쌍이며; 및상기 확정 유닛은 제1 확정 서브 유닛을 포함하고, 상기 제1 확정 서브 유닛은 상기 제1 단어 쌍에서의 주체 언어 텍스트를 상기 대체내용으로 확정하기 위한 것이다.
제2 측면의 제1 실시형태를 결합하여, 본 발명이 제2 측면의 제2 실시형태에서, 상기 제1 식별 서브 유닛은 텍스트 식별 서브 유닛, 번역 식별 서브 유닛을 포함하고, 상기 텍스트 식별 서브 유닛은 주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하기 위한 것이고; 상기 번역 식별 서브 유닛은, 번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하기 위한 것이다.
제2 측면의 제2 실시형태를 결합하여, 본 발명이 제2 측면의 제3 실시형태에서, 상기 번역 식별 서브 유닛은 또한, 상기 비주체 언어 텍스트를 주체 언어 텍스트로 번역하거나, 또는 상기 서로 인접한 주체 언어 텍스트를 비주체 언어 텍스트로 번역하고; 상기 비주체 언어 텍스트와 상기 서로 인접한 주체 언어 텍스트의 매칭도를 판단하고 - 여기서 상기 매칭도는 상기 번역 결과에 따라 판단하는 편집 거리 데이터, 단어 벡터의 유사도, 및 텍스트에서의 함께 나타나는 횟수 중의 적어도 하나를 포함함 -; 상기 매칭도에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는 확률을 계산하고; 상기 확률에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는지 여부를 확정하기 위한 것이다.
제2 측면의 제3 실시형태를 결합하여, 본 발명이 제2 측면의 제4 실시형태에서, 상기 편집 거리 데이터는 상기 번역 후의 텍스트 및 서로 인접한 텍스트의 편집 거리, 또는 상기 편집 거리가 상기 번역 후의 텍스트의 길이에서 차지하는 비율을 포함한다.
제2 측면의 제2 실시형태를 결합하여, 본 발명이 제2 측면의 제5 실시형태에서, 상기 번역 식별 서브 유닛은 또한 기계를 통해 언어 자료를 번역하고, 신경망 기계 모델을 이용하여 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하기 위한 것이다.
제2 측면을 결합하여, 본 발명이 제2 측면의 제6 실시형태에서, 상기 식별 유닛은 제2 식별 서브 유닛을 포함하고, 상기 제2 식별 서브 유닛은 상기 주체 언어 텍스트에 제2 단어 쌍이 존재하는지 여부를 식별하기 위한 것이고, 여기서, 상기 제2 단어 쌍은 상기 비주체 언어 텍스트의 약어와 상기 비주체 언어 텍스트의 전칭으로 구성된 단어 쌍이며; 상기 확정 유닛은 제2 확정 서브 유닛을 포함하고, 상기 제2 확정 서브 유닛은 상기 제2 단어 쌍에서의 상기 비주체 언어 텍스트의 약어를 상기 대체내용으로 확정하기 위한 것이다.
제2 측면의 제6 실시형태를 결합하여, 본 발명이 제2 측면의 제7 실시형태에서, 상기 제2 식별 서브 유닛은 또한, 주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하고; 머리글자 판단을 통해, 상기 비주체 언어 텍스트가 상기 제2 단어 쌍에 속하는지 여부를 식별하기 위한 것이다.
제2 측면을 결합하여, 본 발명이 제2 측면의 제8 실시형태에서, 상기 식별 유닛은 제3 식별 서브 유닛을 포함하고, 상기 제3 식별 서브 유닛은 상기 주체 언어 텍스트에 단독 비주체 언어 텍스트가 존재하는지 여부를 식별하기 위한 것이고, 여기서, 상기 단독 비주체 언어 텍스트는 단어 쌍을 구성하지 않는 독립적으로 존재하는 비주체 언어 텍스트이고; 상기 확정 유닛은 제3 확정 서브 유닛을 포함하고, 상기 제3 확정 서브 유닛은 상기 단독 비주체 언어 텍스트를 주체 언어 텍스트로 번역하여, 상기 번역된 주체 언어 텍스트를 상기 대체내용으로 확정하기 위한 것이다.
제2 측면의 제8 실시형태를 결합하여, 본 발명이 제2 측면의 제9 실시형태에서, 상기 제3 확정 서브 유닛은 또한, 번역한 후의 주체 언어 텍스트가 두 가지 이상의 번역 결과가 존재하면, 상기 두 가지 이상 번역 결과와 상기 단독 비주체 언어 텍스트의 문맥의 관련도를 판단하고; 및 관련도가 제일 큰 상기 번역 결과를 상기 단독 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 확정하기 위한 것이다.
제2 측면, 제2 측면의 제1 실시형태, 제2 측면의 제2 실시형태, 제2 측면의 제3 실시형태, 제2 측면의 제4 실시형태, 제2 측면의 제5 실시형태, 제2 측면의 제6 실시형태, 제2 측면의 제7 실시형태, 제2 측면의 제8 실시형태, 제2 측면의 제9 실시형태를 결합하여, 본 발명이 제2 측면의 제10 실시형태에서, 인터랙션 유닛을 더 포함하고, 상기 인터랙션 유닛은 상기 대체내용에 제시 마크를 설치하고 - 상기 제시 마크는 미리 설정된 상기 대체내용의 글자체 및 미리 설정된 상기 대체내용의 마크 부호 중의 적어도 하나를 포함함 -; 미리 설정된 조작 동작에 응답하여, 상기 대체내용과 대응되는 상기 삽입된 언어 내용을 디스플레이하기 위한 것이다.
하나의 가능한 디자인에서, 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 구조에는 프로세서와 메모리를 포함하고, 상기 메모리는 다종 언어 조판을 지원하는 프런트 엔드의 디스플레이 장치가 상술한 제1 측면에서의 다종 언어 조판의 프런트 엔드의 디스플레이 방법을 수행하는 프로그램을 저장하기 위한 것이고, 상기 프로세서는 상기 메모리에 저장된 프로그램을 수행하도록 구성된다.
제3 측면에서, 본 발명의 실시예는 브라우저를 제공하는 바, 상기 브라우저는 상술한 제2 측면 중 어느 한 항의 다종 언어 조판의 프런트 엔드의 디스플레이 장치를 포함한다.
제4 측면에서, 본 발명의 실시예는 단말을 제공하는 바, 상기 단말은 하나 또는 복수의 프로세서, 저장 장치를 포함하고; 상기 저장 장치는 하나 또는 복수의 프로그램을 저장하기 위한 것이고;
상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 수행될 경우, 상기 하나 또는 복수의 프로세서가 상술한 제1 측면 중 어느 한 항의 방법을 구현하도록 하는 것이다.
제5 측면에서, 본 발명의 실시예는 컴퓨터 판독가능 저장 매체를 제공하는 바, 상기 컴퓨터 판독가능 저장 매체는 컴퓨터 프로그램이 저장되어 있고, 당해 프로그램이 프로세서에 의해 수행될 경우 상술한 제1 측면 중 어느 한 항의 방법을 구현한다.
상술한 기술적 수단에서의 기술적 수단은 하기의 장점 또는 유익한 효과를 구비한다. 다종 언어 조판의 프런트 엔드의 디스플레이에서 나타나는 문자 간격의 기형적 변화 상황을 피면하여, 완정한 다종 언어 내용을 보여줄 수 있을 뿐만 아니라, 또한 페이지 디스플레이가 더욱 더 깔끔하고 보기 좋도록 하여, 사용자의 체험을 향상한다.
상술한 기술적 수단에서의 다른 하나의 기술적 수단은 하기의 장점 또는 유익한 효과를 구비한다. 상기 편집 거리가 상기 번역 후의 텍스트의 길이에서 차지하는 비율을 이용하여, 상기 비주체 언어 텍스트와 상기 서로 인접한 주체 언어 텍스트의 매칭도로 하는 것을 고려하여, 단어 쌍 판단의 정확도를 더 향상한다.
상술한 기술적 수단에서의 또 다른 하나의 기술적 수단은 하기의 장점 또는 유익한 효과를 구비한다. 번역 결과에 대해 다른 뜻 제거 처리를 하여, 두 가지 이상의 번역 결과와 단독 비주체 언어 텍스트의 문맥의 관련도를 판단하여, 문장 의미의 일관성을 확보하며, 뜻이 바뀌는 가능성을 감소한다.
상술 요점은 단지 명세서의 목적을 위한 것이지, 임의의 방식으로 한정하는 의도가 아니다. 상술한 설명의 예시적인 측면, 실시형태와 특징 외에, 도면과 하기의 상세한 설명을 참조하는 것을 통해, 본 발명의 추가적인 측면, 실시형태와 특징은 쉽게 명백해질 것이다.
도면에서, 별도의 규정을 하지 않는 한, 다수개의 도면을 관통한 동일한 도면 부호는 동일하거나 유사한 부품 또는 요소를 표시한다. 이러한 도면은 반드시 비례에 따라 제도한 것이 아니다. 이러한 도면은 단지 본 발명의 공개에 따른 일부 실시형태를 묘사한 것일 뿐, 본 발명의 범위를 제한한 것으로 간주하여서는 안됨으로 이해하여야 한다.
도 1은 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 전체 구성도이고;
도 2는 기존 기술의 다종 언어 조판의 텍스트에서 문자 간격의 기형적 변화가 나타난 페이지의 개략도이며;
도 3은 본 발명이 제공하는 다종 언어 조판의 디스플레이 방법의 바람직한 실시예의 절차의 흐름도이고;
도 4는 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 제1 단어 쌍(word pair)의 재구성과 인터랙션 효과의 개략도이며;
도 5는 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 제1 단어 쌍을 식별하는 절차의 흐름도이고;
도 6은 본 발명이 제공하는 다종 언어 조판의 디스플레이 방법의 또 하나의 바람직한 실시예의 단계의 흐름도이며;
도 7은 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 제2 단어 쌍의 재구성과 인터랙션 효과의 개략도이고;
도 8은 본 발명이 제공하는 다종 언어 조판의 디스플레이 방법의 또 다른 하나의 바람직한 실시예의 절차의 흐름도이며;
도 9는 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 단독 비주체 언어 텍스트를 대체하는 단계의 흐름도이고;
도 10은 본 발명의 실시예의 다종 언어 조판의 디스플레이 장치의 전체 구성도이며;
도 11은 본 발명이 제공하는 다종 언어 조판의 디스플레이 장치의 바람직한 실시예의 구조 개략도이다.
아래 문장에서, 단지 일부 예시적인 실시예를 간단히 설명한다. 본 기술 분야의 통상의 지식을 가진자가 인식할 수 있는 바와 같이, 본 발명의 정신 또는 범위를 벗어나지 않은 상황하에서, 설명된 실시예를 여러가지 다양한 방식을 통해 보정할 수 있다. 따라서, 도면과 설명은 본질적으로 한정하는 것이 아니라 예시적인 것으로 간주되어야 한다.
본 발명의 실시예는 다종 언어 조판의 디스플레이 방법을 제공한다. 도 1은 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 전체 구성도이다. 도 1에 도시된 바와 같이, 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법은 하기의 단계를 포함한다. 단계 S110, 조판 대기 텍스트를 획득한다. 단계 S120, 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하되, 상기 삽입된 언어 내용은 상기 주체 언어 텍스트에 삽입된 적어도 하나의 비주체 언어의 내용을 포함한다. 단계 S130, 상기 삽입된 언어 내용의 대체내용을 확정하되, 여기서, 상기 대체내용은 상기 삽입된 언어 내용과 대응되는 주체 언어 텍스트 또는 삽입된 언어 내용에서 비주체 언어 텍스트의 약어를 포함한다. 단계 S140, 상기 삽입된 언어 내용을 상기 대체내용으로 대체한다.
여기서, 상기 삽입된 언어 내용은 제1 단어 쌍, 제2 단어 쌍 또는 단독 비주체 언어 텍스트를 포함하고, 상기 제1 단어 쌍은 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 조성되는 단어 쌍이고, 상기 제2 단어 쌍은 비주체 언어 텍스트의 약자와 전칭으로 조성되는 단어 쌍이며, 상기 단독 비주체 언어 텍스트는 단어 쌍을 구성하지 않는 독립적으로 존재하는 비주체 언어 텍스트이고; 상기 대체내용은 상기 삽입된 언어 내용과 서로 대응되는 페이지 적응 내용(adaptive content)이고, 주체 언어 텍스트 또는 비주체 언어 텍스트의 약어를 포함한다.
다종 언어 조판의 텍스트에서, 통상적으로 모국어 또는 자기 민족어가 주체이므로, 이를 주체 언어로 하고; 많은 상황에서, 주체 언어에 적어도 하나의 기타 언어를 삽입할 수 있는 바, 예를 들어 중국어에 영어를 삽입하며, 주체 언어에 삽입된 기타 언어를 삽입 언어라고 한다. 다시 말하자면, 주체 언어 텍스트와 삽입된 언어 텍스트에 사용되는 언어가 서로 다르다. 다종 언어 조판의 텍스트에서, 조판에서 문자 간격의 기형적 변화 문제가 존재하기에, 판면이 깔끔하지 않고 보기 좋지 않게 되어, 다종 언어 조판의 프런트 엔드(front-end)의 디스플레이의 효과에 영향을 준다. 특히 모바일단의 응용에서, 스크린이 작기에, 간격의 기형적 변화 문제가 더욱 더 뚜렷하고, 사용자의 열독 체험에 영항을 주며, 사용자가 현재의 목표(디자이너에 의해 영조됨)에 집중하고 있는 정경에서, 기쁨과 만족을 느끼는 것에 빠져 있는 상태를 파괴한다.
도 2는 기존 기술의 다종 언어 조판의 텍스트에서 문자 간격의 기형적 변화가 나타난 페이지의 개략도이다. 도 2에 도시된 바와 같이, 사각형 프레임에서의 영어에는 문자 간격의 기형적 변화가 나타난다. 여기서, 좌측 사각형 프레임에서 제1 단어 쌍에 속하는 상황인 바, 즉 비주체 언어 텍스트"International Consortium of Investigative Journalists"와 서로 대응되는 주체 언어 텍스트"국제기자조사연맹”으로 조성되는 단어 쌍이고; 우측 사각형 프레임에서 제2 단어 쌍에 속하는 상황인 바, 즉 비주체 언어 텍스트의 약어 "FID"와 전칭 "Frechet Inception Distance"으로 조성되는 단어 쌍이다.
본 발명의 실시예에서, 문자 간격의 기형적 변화 문제를 해결하기 위해, 삽입된 언어 내용을 서로 대응되는 페이지 적응 내용으로 대체한다. 상기 페이지 적응 내용은 주체 언어의 프런트 엔드의 디스플레이와 서로 적응되는 디스플레이 내용이인 바, 즉 삽입된 언어 내용을 서로 대응되는 주체 언어 텍스트 또는 비주체 언어 텍스트의 약어로 대체하는 것이다. 예를 들어 중국어-영어가 혼합되어 배열된 텍스트에서, 길이가 서로 다른 영어 단어를 서로 대응되는 한자 텍스트 또는 영어 약어로 대체하는 것이다. 따라서, 다종 언어 조판의 프런트 엔드의 디스플레이에서 나타나는 문자 간격의 기형적 변화 상황을 피면하여, 페이지 디스플레이가 더욱 더 깔끔하고 보기 좋게 되도록 하여, 사용자의 체험을 향상한다.
도 3은 본 발명이 제공하는 다종 언어 조판의 디스플레이 방법의 바람직한 실시예의 절차의 흐름도이다. 도 3에 도시된 바와 같이, 본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계는, 단계 S210, 상기 주체 언어 텍스트에 제1 단어 쌍이 존재하는지 여부를 식별하는 단계를 포함하고, 여기서, 상기 제1 단어 쌍은 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 조성되는 단어 쌍이다. 상기 삽입된 언어 내용의 대체내용을 확정하는 단계는, 단계 S220, 상기 제1 단어 쌍에서의 주체 언어 텍스트를 상기 대체내용으로 확정하는 단계를 포함한다.
도 4는 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 제1 단어 쌍(word pair)의 재구성과 인터랙션 효과의 개략도이다. 도 4에 도시된 바와 같이, 재구성을 거친 후, 제1 단어 쌍에서, 주체 언어 텍스트“국제기자조사연맹”만 보류하고, 이와 서로 대응되는 비주체 언어 텍스트“International Consortium of Investigative Journalists"를 숨기며, 동시에 주체 언어 텍스트 "국제기자조사연맹”의 뒤에 제시 마크(1)를 설치하여, 여기에 숨겨진 내용이 있고 조회를 대기하는 것을 나타낸다.
본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 상기 주체 언어 텍스트에 상기 제1 단어 쌍이 존재하는지 여부를 식별하는 단계는, 주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하는 단계; 번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계를 포함한다. 영어-중국어가 혼합되어 배열된 것을 예로, 통상적인 상황에서, 제1 단어 쌍을 조성하는 영어 텍스트와 서로 대응되는 중국어 텍스트는 서로 인접된 텍스트일 수 있으며, 일반적으로 앞은 중국어 텍스트이고, 이어서 뒤의 괄호 안에는 영어 텍스트이다. 따라서, 괄호와 같은 이러한 식별 부호(소괄호, 중괄호, 대괄호 또는 대시 등을 포함함)를 통해 중국어-영어 단어 쌍을 보조하여 식별할 수 있다.
도 5는 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 제1 단어 쌍을 식별하는 절차의 흐름도이다. 도 5에 도시된 바와 같이, 본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계는 하기의 단계를 포함한다. 단계 S310, 상기 비주체 언어 텍스트를 주체 언어 텍스트로 번역하거나, 또는 상기 서로 인접한 주체 언어 텍스트를 비주체 언어 텍스트로 번역한다. 단계 S320, 상기 비주체 언어 텍스트와 상기 서로 인접한 주체 언어 텍스트의 매칭도를 판단하되, 상기 매칭도는 상기 번역 결과에 따라 판단하는 편집 거리 데이터, 단어 벡터의 유사도, 및/또는, 텍스트에서의 함께 나타나는 횟수를 포함한다. 단계 S330, 상기 매칭도에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는 확률을 계산한다. 단계 S340, 상기 확률에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는지 여부를 확정한다.
이러한 실시형태에서, 영어를 중국어로 번역하거나 또는 중국어를 영어로 번역하고, 양자가 중국어-영어 단어 쌍인 확률을 계산한다. 그의 구체적인 기술에서의 구현은 같은 언어로 번역하는 것을 통하여, 편집 거리, 단어 벡터 유사도, 텍스트에서 함께 나타나는 횟수 등 특징을 통해 판정을 행한다.
여기서, 단어 벡터는 언어에서의 단어를 수학화하는데 사용되는 하나의 방식이다. 자연 언어를 기계학습에서의 알고리즘에 넘겨 처리하는 것은, 통상적으로 먼저 언어를 수학화하는 것이 필요하기 때문이다. 예를 들어, 하나의 가장 간단한 단어 벡터 방식은 하나의 아주 긴 벡터로 하나의 단어를 표시하는 것이고, 벡터의 길이가 사전의 사이즈이고, 벡터의 분량에는 단 하나의 1이 있고, 기타가 전부 0이며, 1의 위치가 당해 단어가 사전에서의 위치에 대응된다. 코퍼스(curpus)를 사용하여 단어 벡터 모델을 훈련하여, 단어의 유사도를 계산할 수 있다.
이러한 실시형태에서, 상술한 특징(편집 거리 데이터, 단어 벡터의 유사도 및/또는 텍스트에서의 함께 나타나는 횟수를 포함함)을 결합하고, 상술한 특징을 이용하며, 기계학습 모델을 사용하여 단어 쌍인지 여부를 식별한다.
본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 상기 편집 거리 데이터는 상기 번역 후의 텍스트 및 서로 인접한 텍스트의 편집 거리, 또는 상기 편집 거리가 상기 번역 후의 텍스트의 길이에서 차지하는 비율을 포함한다. 편집 거리는 2개의 문자열(character string) 사이에서, 하나로부터 다른 하나로 전환하는데 수요되는 최소 편집 조작 횟수이고, 허가하는 편집 조작은 하나의 문자 부호를 다른 하나의 문자 부호로 대체하고, 하나의 문자 부호를 삽입하며, 하나의 문자 부호를 삭제하는 것을 포함한다. 일반적으로 말하면, 편집 거리가 작을 수록, 2개의 문자열의 유사도는 크다. 이러한 실시형태에서 구체적인 판정 모델은 제한되지 않을 수 있는 바, 편집 거리의 특징에 따라 양자가 중국어-영어 단어 쌍인 확률을 계산하거나, 또는 그의 연장 특징, 예를 들어 편집 거리가 원래 세그먼트의 길이에서 차지하는 비율에 따라, 회귀 모델로 하나의 유사도를 계산하여 판정한다. 편집 거리를 단순히 사용하여 2개의 단어의 매칭도를 판정하는 것은 아주 정확한 것이 아닌 바, 일부 상황에서 편집 거리가 큰 것은 텍스트 그 자체의 길이가 크 것이기 때문이지, 유사도가 낮은 원인이 아니기 때문이다. 상기 편집 거리가 상기 번역 후의 텍스트의 길이에서 차지하는 비율을 이용하여 상기 비주체 언어 텍스트와 상기 서로 인접한 주체 언어 텍스트의 매칭도로 하는 것을 고려하여, 단어 쌍 판단의 정확도를 더 향상한다.
본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계는, 기계를 통해 언어 자료를 번역하고, 신경망 기계 모델을 이용하여 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 것을 포함한다. 이러한 실시형태에서, 신경망을 이용하여 중국어와 영어의 유사도를 직접 학습하고, 기계를 통해 언어 자료를 번역하고, 텍스트 정렬 관계를 찾아낼 수 있다. 이중 언어 텍스트 정렬은 이중 언어 코퍼스에서 소스 언어와 목표 언어의 동일한 언어 단위 사이의 대응 관계를 건립하는 것인 바, 즉 소스 언어 텍스트에서의 어느(어떤) 언어 단위와 목표 언어 텍스트에서의 어느(어떤) 언어 단위가 서로 번역 관계인 가를 확정하는 것이다. 신경망의 학습 방식에서, 소스 언어 세그먼트와 목표 언어 시퀀스를 입력으로 하여, 대응되는 유사도를 피팅(fitting)한다.
도 6은 본 발명이 제공하는 다종 언어 조판의 디스플레이 방법의 또 하나의 바람직한 실시예의 절차의 흐름도이다. 도 6에 도시된 바와 같이, 본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계는, 단계 S410, 상기 주체 언어 텍스트에 제2 단어 쌍이 존재하는지 여부를 식별하는 단계를 더 포함하되, 여기서, 상기 제2 단어 쌍은 상기 비주체 언어 텍스트의 약어와 상기 비주체 언어 텍스트의 전칭으로 조성된 단어 쌍이다. 그리고 상기 삽입된 언어 내용의 대체내용을 확정하는 단계는, 단계 S420, 상기 제2 단어 쌍에서의 상기 비주체 언어 텍스트의 약어를 상기 대체내용으로 확정하는 단계를 더 포함한다.
도 7은 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 제2 단어 쌍의 재구성과 인터랙션 효과의 개략도이다. 도 7에 도시된 바와 같이, 재구성을 거친 후, 제2 단어 쌍에서, 비주체 언어 텍스트의 약어 "FID"만 보류하고, 이와 서로 대응되는 비주체 언어 텍스트의 전칭“Frechet Inception Distance"을 숨겼으며, 동시에 비주체 언어 텍스트의 약어 "FID"의 뒤에 제시 마크(1)를 설치하여, 여기에 숨겨진 내용이 있어 조회를 대기하는 것을 나타낸다.
본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 상기 주체 언어 텍스트에 제2 단어 쌍이 존재하는지 여부를 식별하는 단계는, 주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하는 단계; 머리글자 판단을 통하여, 상기 비주체 언어 텍스트가 상기 제2 단어 쌍에 속하는지 여부를 식별하는 단계를 포함한다. 영어-중국어가 혼합되어 배열된 것을 예로 들면, 제2 단어 쌍을 구성하는 비주체 언어 텍스트의 약어와 전칭은, 통상적인 상황에서, 앞은 비주체 언어 텍스트의 약어이고, 이어서 뒤의 괄호 안에는 비주체 언어 텍스트의 전칭이다. 따라서, 괄호와 같은 이러한 식별 부호(소괄호, 중괄호, 대괄호 또는 줄표 등을 포함함)를 통해 비주체 언어 텍스트의 약어와 전칭을 보조하여 식별할 수 있다.
도 8은 본 발명이 제공하는 다종 언어 조판의 디스플레이 방법의 또 다른 하나의 바람직한 실시예의 단계의 흐름도이이다. 도 8에 도시된 바와 같이, 본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계는, 단계 S510, 상기 주체 언어 텍스트에 단독 비주체 언어 텍스트가 존재하는지 여부를 식별하는 단계를 더 포함하되, 여기서, 상기 단독 비주체 언어 텍스트는 단어 쌍을 구성하지 않는 독립적으로 존재하는 비주체 언어 텍스트이다. 상기 삽입된 언어 내용의 대체내용을 확정하는 단계는, 단계 S520, 상기 단독 비주체 언어 텍스트를 주체 언어 텍스트로 번역하여, 상기 번역된 주체 언어 텍스트를 상기 대체내용으로 확정하는 단계를 더 포함한다. 이러한 실시형태에서, 만약 삽입된 언어 내용이 단어 쌍의 형식으로 나타나지 않고, 독립적으로 존재하는 비주체 언어 텍스트이면, 삽입된 언어 내용을 번역한 후의 서로 대응되는 주체 언어 텍스트로 직접 대체한다.
도 9는 본 발명의 실시예의 다종 언어 조판의 디스플레이 방법의 단독 비주체 언어 텍스트를 대체하는 절차의 흐름도이다. 도 9에 도시된 바와 같이, 본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 상기 삽입된 언어 내용의 대체내용을 확정하는 단계는 하기의 단계를 더 포함한다. 단계 S620, 만약 번역한 후의 주체 언어 텍스트가 두 가지 이상의 번역 결과가 존재하면, 상기 두 가지 이상 번역 결과와 상기 단독 비주체 언어 텍스트의 문맥의 관련도를 판단하는 단계이다. 단계 S630, 관련도가 제일 큰 상기 번역 결과를 상기 단독 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 확정하는 단계이다.
이러한 실시형태에서, 영어를 중국어로 번역하고, 다른 뜻 제거 판단을 행하는 바, 예를 들어 하나의 영어 단어가 중국어에 대응되어 서로 다른 번역 결과(예를 들어 UPS는 "무정전 전원장치”의 약어이고, 동시에Universit*?* Paris-Sudn의 약칭이기도 함)가 있을 경우, 서로 다른 번역 결과와 문맥의 관련도를 판단하여, 다른 뜻을 제거하고, 문장 의미의 일관성을 확보하며, 뜻이 바뀌는 가능성을 감소한다.
본 발명의 다종 언어 조판의 디스플레이 방법의 실시형태에 따르면, 상기 삽입된 언어 내용을 상기 대체내용으로 대체한 후, 상기 대체내용에 제시 마크를 설치하는 단계; 미리 설정된 조작 동작에 응답하여, 상기 대체내용과 대응되는 상기 삽입된 언어 내용을 디스플레이하는 단계를 더 포함하고, 상기 제시 마크는 미리 설정된 상기 대체내용의 글자체 및/또는 미리 설정된 상기 대체내용의 마크 부호를 포함하고, 상기 미리 설정된 조작 동작은 상기 페이지 적응 내용 또는 상기 마크 부호를 클릭하거나 길게 누르는 것을 포함한다.
이러한 실시형태에서, 프런트 엔드 기술의 동적 인터랙션에 기반하여, APP플로우팅 레이어 컨트롤(floating layer control) 또는 HTML(HyperText Markup Language, 하이퍼텍스트 기술용 언어)를 이용하여 개발한 javascript스크립트를 호출하여 프런트 엔드의 인터랙션 형태를 완성하고, 프런트 엔드의 인터랙션 형태를 완성하여, 클릭 또는 길게 누르는 조작의 응답을 구현하고, 중국어와 대응되는 영어 정보의 효과를 디스플레이한다.
도 4에서 주체 언어 텍스트“국제기자조사연맹”의 뒤에 제시 마크(1)를 설치하고, 도 7에서 비주체 언어 텍스트 약어“FID"의 뒤에 제시 마크(1)를 설치하여, 여기에 숨겨진 내용이 있어 조회를 대기하는 것을 나타내고, 제시 마크(1)를 클릭하거나 길게 누르면 숨겨진 삽입된 비주체 언어의 내용을 디스플레이할 수 있으며, 도 4와 도 7에서 인터랙션한 후의 페이지 효과를 나타내었다. 이 외에, 제시 마크는 예를 들어 글자체 컬러 제시, 기울임 꼴 제시 또는 밑줄 글자체 제시, 또는 다양한 글자체 방식의 조합으로 눈에 뜨이는 제시 작용을 하게 하는 미리 설정된 상기 페이지 적응 내용의 글자체일 수도 있다. 구체적인 제시 마크 글자체의 텍스트를 클릭하거나 길게 누르면 숨겨진 삽입된 비주체 언어의 내용을 디스플레이할 수 있다. 본 발명의 실시예는 다종 언어 조판 프런트 엔드의 디스플레이에서 문자 간격의 기형적 변화 상황을 피면하는 바, 완정한 다종 언어 내용을 보여줄 수 있을 뿐만 아니라, 페이지 디스플레이가 더욱 더 깔끔하고 보기 좋도록 하여, 사용자의 체험을 향상한다.
다른 하나의 측면에서, 본 발명의 실시예는 다종 언어 조판의 디스플레이 장치를 제공한다. 도 10은 본 발명의 실시예의 다종 언어 조판의 디스플레이 장치의 전체 구성도이다. 도 10에 도시된 바와 같이, 본 발명의 실시예의 다종 언어 조판의 디스플레이 장치는 획득 유닛(105), 식별 유닛(100), 확정 유닛(200) 및 대체 유닛(300)을 포함한다. 획득 유닛(105)은 조판 대기 텍스트를 획득하기 위한 것이고; 식별 유닛(100)은 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하기 위한 것이고, 상기 삽입된 언어 내용은 상기 주체 언어 텍스트에 삽입된 적어도 하나의 비주체 언어의 내용을 포함한다. 확정 유닛(200)은 상기 삽입된 언어 내용의 대체내용을 확정하기 위한 것이고, 여기서, 상기 대체내용은 상기 삽입된 언어 내용과 대응되는 주체 언어 텍스트 또는 삽입된 언어 내용에서 비주체 언어 텍스트의 약어를 포함한다. 대체 유닛(300)은 상기 삽입된 언어 내용을 상기 대체내용으로 대체하기 위한 것이고, 즉 서로 대응되는 페이지 적응 내용으로 대체하기 위한 것이다. 상기 삽입된 언어 내용은 제1 단어 쌍, 제2 단어 쌍 또는 단독 비주체 언어 텍스트를 포함하고, 상기 제1 단어 쌍은 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 조성되는 단어 쌍이고, 상기 제2 단어 쌍은 비주체 언어 텍스트의 약자와 전칭으로 조성되는 단어 쌍이며, 상기 단독 비주체 언어 텍스트는 단어 쌍을 구성하지 않는 독립적으로 존재하는 비주체 언어 텍스트이고; 상기 서로 대응되는 페이지 적응 내용은 주체 언어 텍스트 또는 비주체 언어 텍스트의 약어를 포함한다.
도 11은 본 발명이 제공하는 다종 언어 조판의 디스플레이 장치의 바람직한 실시예의 구조 개략도이다. 도 11에 도시된 바와 같이, 본 발명에 따른 다종 언어 조판의 디스플레이 장치의 실시형태에서, 상기 식별 유닛(100)은 제1 식별 서브 유닛(110)을 포함하고, 상기 주체 언어 텍스트에 제1 단어 쌍이 존재하는지 여부를 식별하기 위한 것이고, 여기서, 상기 제1 단어 쌍은 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 조성되는 단어 쌍이다. 상기 확정 유닛(200)은 제1 확정 서브 유닛(210)을 포함하고, 상기 제1 단어 쌍에서의 주체 언어 텍스트를 상기 대체내용으로 확정하기 위한 것이다.
본 발명의 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 실시형태에 따르면, 상기 제1 식별 서브 유닛(110)은 텍스트 식별 서브 유닛(112), 번역 식별 서브 유닛(114)을 포함하고, 텍스트 식별 서브 유닛(112)은 주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하기 위한 것이고; 번역 식별 서브 유닛(114)은 번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하기 위한 것이다.
본 발명의 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 실시형태에 따르면, 상기 번역 식별 서브 유닛(114)은 또한 상기 비주체 언어 텍스트를 주체 언어 텍스트로 번역하거나, 또는 상기 서로 인접한 주체 언어 텍스트를 비주체 언어 텍스트로 번역하고; 상기 비주체 언어 텍스트와 상기 서로 인접한 주체 언어 텍스트의 매칭도를 판단하고; 상기 매칭도에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는 확률을 계산하고; 상기 확률에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는지 여부를 확정하기 위한 것이며, 상기 매칭도는 상기 번역 결과에 따라 판단하는 편집 거리 데이터, 단어 벡터의 유사도, 및/또는, 텍스트에서의 함께 나타나는 횟수를 포함한다. 이러한 실시형태에서, 상술한 특징(편집 거리 데이터, 단어 벡터의 유사도 및/또는 텍스트에서의 함께 나타나는 횟수를 포함함)을 결합하고, 상술한 특징을 이용하며, 기계학습 모델을 사용하여 단어 쌍인지 여부를 식별한다.
본 발명의 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 실시형태에 따르면, 상기 편집 거리 데이터는 상기 번역 후의 텍스트 및 서로 인접한 텍스트의 편집 거리, 또는 상기 편집 거리가 상기 번역 후의 텍스트의 길이에서 차지하는 비율을 포함한다.
본 발명의 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 실시형태에 따르면, 상기 번역 식별 서브 유닛(114)은 또한 기계를 통해 언어 자료를 번역하고, 신경망 기계 모델을 이용하여 상기 비주체 언어 텍스트가 그의 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하기 위한 것이다.
본 발명의 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 실시형태에 따르면, 상기 식별 유닛(100)은 제2 식별 서브 유닛(120)을 포함하고, 상기 제2 식별 서브 유닛(120)은 상기 주체 언어 텍스트에 제2 단어 쌍이 존재하는지 여부를 식별하기 위한 것이고, 여기서, 상기 제2 단어 쌍은 상기 비주체 언어 텍스트의 약어와 상기 비주체 언어 텍스트의 전칭으로 구성된 단어 쌍이다. 상기 확정 유닛(200)은 제2 확정 서브 유닛(220)을 포함하고, 상기 제2 확정 서브 유닛(220)은 상기 제2 단어 쌍에서의 상기 비주체 언어 텍스트의 약어를 상기 대체내용으로 확정하기 위한 것이다.
본 발명의 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 실시형태에 따르면, 상기 제2 식별 서브 유닛(120)은 또한 주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하고; 머리글자 판단을 통해, 상기 비주체 언어 텍스트가 상기 제2 단어 쌍에 속하는지 여부를 식별하기 위한 것이다.
본 발명의 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 실시형태에 따르면, 상기 식별 유닛(100)은 제3 식별 서브 유닛(130)을 포함하고, 상기 제3 식별 서브 유닛(130)은 상기 주체 언어 텍스트에 단독 비주체 언어 텍스트가 존재하는지 여부를 식별하기 위한 것이고, 여기서, 상기 단독 비주체 언어 텍스트는 단어 쌍을 구성하지 않는 독립적으로 존재하는 비주체 언어 텍스트이다. 상기 확정 유닛(200)은 제3 확정 서브 유닛(230)을 포함하고, 상기 제3 확정 서브 유닛(230)은 상기 단독 비주체 언어 텍스트를 주체 언어 텍스트로 번역하여, 상기 번역된 주체 언어 텍스트를 상기 대체내용으로 확정하기 위한 것이다.
본 발명의 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 실시형태에 따르면, 상기 제3 확정 서브 유닛(230)은 또한 만약 번역한 후의 주체 언어 텍스트가 두 가지 이상의 번역 결과가 존재하면, 상기 두 가지 이상 번역 결과와 상기 단독 비주체 언어 텍스트의 문맥의 관련도를 판단하고; 관련도가 제일 큰 상기 번역 결과를 상기 단독 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 확정하기 위한 것이다.
본 발명의 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 실시형태에 따르면, 인터랙션 유닛(400)을 더 포함하되, 상기 인터랙션 유닛(400)은 상기 대체내용에 제시 마크를 설치하고; 미리 설정된 조작 동작에 응답하여, 상기 대체내용과 대응되는 상기 삽입된 언어 내용을 디스플레이하기 위한 것이며, 상기 제시 마크는 미리 설정된 상기 대체내용의 글자체 및/또는 미리 설정된 상기 대체내용의 마크 부호를 포함하고, 상기 미리 설정된 조작 동작은 상기 페이지 적응 내용 또는 상기 마크 부호를 클릭하거나 길게 누르는 것을 포함한다.
하나의 가능한 디자인에서, 다종 언어 조판의 프런트 엔드의 디스플레이 장치의 구조에는 프로세서와 메모리를 포함하고, 상기 메모리는 다종 언어 조판을 지원하는 프런트 엔드의 디스플레이 장치가 상술한 제1 측면에서의 다종 언어 조판의 프런트 엔드의 디스플레이 방법을 수행하는 프로그램을 저장하기 위한 것이고, 상기 프로세서는 상기 메모리에 저장된 프로그램을 수행하도록 구성된다.
또 하나의 측면에서, 본 발명의 실시예는 브라우저를 제공하는 바, 상술한 어느 한 항의 다종 언어 조판의 프런트 엔드의 디스플레이 장치를 포함한다.
또 다른 하나의 측면에서, 본 발명의 실시예는 단말을 제공하는 바, 상기 단말은 하나 또는 복수의 프로세서, 저장 장치를 포함하되; 저장 장치는 하나 또는 복수의 프로그램을 저장하고; 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 수행될 경우, 상기 하나 또는 복수의 프로세서가 상술한 어느 한 항의 방법을 구현하도록 한다.
또 다른 하나의 측면에서, 본 발명의 실시예는 컴퓨터 판독가능 저장 매체를 제공하고, 이는 컴퓨터 프로그램이 저장되어 있고, 당해 프로그램이 프로세서의 의해 수행될 경우 상술한 어느 한 항의 방법을 구현한다.
상술한 기술적 수단에서의 하나의 기술적 수단은 하기의 장점 또는 유익한 효과를 구비한다. 다종 언어 조판의 프런트 엔드의 디스플레이에서 나타나는 문자 간격의 기형적 변화 상황을 피면하여, 완정한 다종 언어 내용을 보여줄 수 있을 뿐만 아니라, 또한 페이지 디스플레이가 더욱 더 깔끔하고 보기 좋도록 하여, 사용자의 체험을 향상한다.
상술한 기술적 수단에서의 다른 하나의 기술적 수단은 하기의 장점 또는 유익한 효과를 구비한다. 상기 편집 거리가 상기 번역 후의 텍스트의 길이에서 차지하는 비율을 이용하여, 상기 비주체 언어 텍스트와 상기 서로 인접한 주체 언어 텍스트의 매칭도로 하는 것을 고려하여, 단어 쌍 판단의 정확도를 더 향상한다.
상술한 기술적 수단에서의 또 다른 하나의 기술적 수단은 하기의 장점 또는 유익한 효과를 구비한다. 번역 결과에 대해 다른 뜻 제거 처리를 하여, 두 가지 이상의 번역 결과와 단독 비주체 언어 텍스트의 문맥의 관련도를 판단하여, 문장 의미의 일관성을 확보하며, 뜻이 바뀌는 가능성을 감소한다.
본 명세서의 설명에서 참조 용어 "일 실시예”, "일부 실시예”, "예시적인 실시예”, "예시”, "구체적 예시” 또는 "일부 예시” 등의 설명은 당해 실시예 또는 예시를 결합하여 설명하는 구체적인 특징, 구조, 재료 또는 특점이 본 발명의 적어도 하나의 실시예 또는 예시에 포함된다는 것을 의미한다. 그리고, 설명된 구체적 특징, 구조, 재료 또는 특점은 임의의 하나 또는 복수의 실시예 또는 예시에서 적합한 방식으로 결합될 수 있다. 이 외에, 서로 모순이 없는 상황에서, 본 기술 분야의 통상의 지식을 가진자들은 본 명세서에서 설명한 다른 실시예 또는 실례 및 다른 실시예 또는 실례의 구성을 결합 및 조합할 수 있다.
이 외에, 용어“제1", "제2"는 단지 설명의 목적을 위한 것일 뿐, 상대적인 중요성을 지시하거나 암시하는 것 또는 지시된 기술 특징의 수량을 함축적으로 제시하는 것으로 이해해서는 안된다. 이에 따라, "제1", "제2"로 한정된 특징은 적어도 하나의 당해 특징을 명시하거나 함축적으로 포함할 수 있다. 본 발명의 설명에서, 별도로 명확하게 구체적인 한정을 하지 않는 한 "복수”의 함의는 두개 또는 두개 이상이다.
흐름도에서 또는 여기에서 기타 방식으로 설명되는 어떠한 과정 또는 방법 설명은 한개 또는 더 많은 수량의 특정 로직 기능이나 과정의 단계를 실현하기 위한 수행가능 명령의 코드의 모듈, 단락 또는 부분을 포함하는 것을 나타내는 것으로 이해할 수 있다. 그리고 본 발명의 바람직한 실시예의 범위는 별도의 실현을 포함하는 바, 여기서 관련되는 기능은 제시되거나 토론된 순서대로가 아닌, 거의 동시의 방식 또는 상반되는 순서를 포함한 순서에 따라 수행될 수 있는 바, 이는 본 발명의 실시예가 속하는 기술분야의 통상의 지식을 가진 자들에 의해 이해될 수 있다.
흐름도에서 표시되거나 여기서 기타 방식으로 설명되는 로직 및/또는 단계는, 예를 들면, 로직 기능을 실현하기 위한 수행 가능한 명령의 서열 리스트로 여길 수 있으며, 구체적으로 어떠한 컴퓨터 판독가능 매체에서 실현되어 명령 수행 시스템, 장치 또는 설비(예를 들면, 컴퓨터에 기초한 시스템, 프로세서를 포함한 시스템 또는 기타 명령 수행 시스템, 장치나 설비로부터 명령을 취득하고 명령을 수행할 수 있는 시스템)에 제공되어 사용될 수 있거나 또는 이런 명령 수행 시스템, 장치 또는 설비를 결부하여 사용할 수 있다. 본 명세서에 대해 말하자면, "컴퓨터 판독가능 매체”는 어떠한 프로그램을 포함, 저장, 통신, 전파 또는 전송하여 명령 수행 시스템, 장치 또는 설비에 제공할 수 있거나 또는 이런 명령 수행 시스템, 장치 또는 설비를 결부하여 사용하는 장치 일 수 있다. 컴퓨터 판독가능 매체의 더 구체적인 예시(비 전면 리스트임)는 하기와 같은 것을 포함한다. 하나의 또는 복수개의 배선을 갖는 전기 연결부(전기 장치), 휴대용 컴퓨터 디스크 케이스(자기 장치), 랜덤 액세스 메모리(RAM), 판독 전용 기억 장치(ROM), 소거 프로그램 가능 랜덤 액세스 메모리(EPROM또는 플래시 메모리), 광섬유 장치 및 시디롬(CDROM)이다. 이 외에, 컴퓨터 판독 가능 매체는 심지어 그 위에 상기 프로그램을 프린트할 수 있는 종이나 기타 적합한 매체일 수 있는 바. 종이 또는 기타 매체에 대해 광학 스캐닝을 행하고 이어 편집, 해독을 행하거나 필요할 때 기타 적합한 방식으로 처리하는 것을 통하여 전자 방식으로 상기 프로그램을 획득하고, 다음 그를 컴퓨터 메모리에 저장할 수 있기 때문이다.
본 발명의 각 부분은 하드웨어, 소프트웨어, 펌웨어 또는 그들의 조합으로 실현될 수 있다는 것으로 이해되어야 한다. 상기 실시예에서, 복수개의 단계나 방법은 메모리에 저장된 적합한 명령 수행 시스템이 수행하는 소프트웨어 또는 펌웨어로 실현할 수 있다. 예를 들면, 만약 하드웨어로 실현한다면 다른 한 실시예에서처럼 본 분야에서 공지된 아래에 열거한 기술 중의 어느 한 항 또는 그들의 조합으로 실현할 수 있다. 데이터 신호에 대해 로직 기능을 실현하기 위한 로직 게이트 회로를 구비한 이산 로직 회로, 적합한 조합 로직 게이트 회로를 구비한 전용 집적 회로, 프로그램 가능 게이트 어레이(PGA), 필드 프로그램 가능 게이트 어레이(FPGA)등이다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자들은, 상술한 실시예 방법이 지닌 전부 또는 일부 단계의 실현은 프로그램을 통하여 관련 하드웨어를 명령하여 완성할 수 있고, 상기 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 당해 프로그램이 수행될 때 방법 실시예의 단계 중의 하나 또는 그 조합을 포함한다는 것을 이해할 수 있다. 여기서 장치의 실시형태와 방법의 실시형태는 서로 대응되고, 따라서 장치의 실시형태의 설명은 비교적 간략하고, 관련된 설명은 방법의 실시형태의 설명을 참조할 수 있다.
이 외에, 본 발명의 각각의 실시예에서 각 기능 유닛은 하나의 처리 모듈에 집적될 수 있고, 각 유닛이 단독으로 물리적으로 존재할 수도 있으며 두개 또는 두개 이상의 유닛이 하나의 모듈에 집적될 수도 있다. 상기 집적된 모듈은 하드웨어의 형식으로 실현될 수도 있고, 소프트웨어 기능 모듈의 형식을 적용하여 실현할 수도 있다. 상기 통합된 모듈이 만약 소프트웨어 기능 모듈의 형식으로 실현되고 독립된 제품으로 판매되거나 사용될 때 하나의 컴퓨터 판독 가능한 저장 매체에 저장될 수도 있다. 상기 저장 매체는 읽기 전용 기억 장치, 디스크 또는 CD일 수 있다.
이상에서 기술한 것은, 단지 본 발명의 구체적인 실시형태일 뿐이고, 본 발명의 보호 범위는 이에 한정되지 않고, 본 기술 분야를 숙지한 통상의 지식을 가진자가 본 발명에서 밝혀진 기술 범위내에서, 그의 여러가지 변화 또는 대체를 용이하게 생각할 수 있으며, 이들은 모두 본 발명의 보호 범위 내에 포함되어야 한다. 따라서, 본 발명의 보호 범위는 상기 청구항의 보호 범위를 기준으로 하여야 한다.

Claims (25)

  1. 다종 언어 조판의 디스플레이 방법에 있어서,
    조판 대기 텍스트를 획득하는 단계;
    상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계 - 상기 삽입된 언어 내용은 상기 주체 언어 텍스트에 삽입된 적어도 하나의 비주체 언어의 내용을 포함함 -;
    상기 삽입된 언어 내용의 대체내용을 확정하는 단계 - 여기서, 상기 대체내용은 상기 삽입된 언어 내용과 대응되는 주체 언어 텍스트 또는 삽입된 언어 내용에서 비주체 언어 텍스트의 약어를 포함함 -; 및
    상기 삽입된 언어 내용을 상기 대체내용으로 대체하는 단계를 포함하는 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  2. 제1 항에 있어서,
    상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계는,
    상기 주체 언어 텍스트에 제1 단어 쌍이 존재하는지 여부를 식별하는 단계 - 여기서, 상기 제1 단어 쌍은 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 구성되는 단어 쌍임 -를 포함하고,
    상기 삽입된 언어 내용의 대체내용을 확정하는 단계는,
    상기 제1 단어 쌍에서의 주체 언어 텍스트를 상기 대체내용으로 확정하는 단계를 포함하는 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  3. 제2 항에 있어서,
    상기 주체 언어 텍스트에 상기 제1 단어 쌍이 존재하는지 여부를 식별하는 단계는,
    주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하는 단계;
    번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계를 포함하는 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  4. 제3 항에 있어서,
    번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계는,
    상기 비주체 언어 텍스트를 주체 언어 텍스트로 번역하거나, 또는 상기 서로 인접한 주체 언어 텍스트를 비주체 언어 텍스트로 번역하는 단계;
    상기 비주체 언어 텍스트와 상기 서로 인접한 주체 언어 텍스트의 매칭도를 판단하는 단계 - 여기서, 상기 매칭도는 상기 번역 결과에 따라 판단하는 편집 거리 데이터, 단어 벡터의 유사도, 및 텍스트에서의 함께 나타나는 횟수 중의 적어도 하나를 포함함 -;
    상기 매칭도에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는 확률을 계산하는 단계;
    상기 확률에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는지 여부를 확정하는 단계를 포함하는 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  5. 제4 항에 있어서,
    상기 편집 거리 데이터는 상기 번역 후의 텍스트 및 서로 인접한 텍스트의 편집 거리, 또는 상기 편집 거리가 상기 번역 후의 텍스트의 길이에서 차지하는 비율을 포함하는 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  6. 제3 항에 있어서,
    번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계는,
    기계를 통해 언어 자료를 번역하고, 신경망 기계 모델을 이용하여 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하는 단계를 포함하는 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  7. 제1 항에 있어서,
    상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계는, 상기 주체 언어 텍스트에 제2 단어 쌍이 존재하는지 여부를 식별하는 단계 - 여기서, 상기 제2 단어 쌍은 상기 비주체 언어 텍스트의 약어와 상기 비주체 언어 텍스트의 전칭으로 구성된 단어 쌍임 -;를 더 포함하고,
    상기 삽입된 언어 내용의 대체내용을 확정하는 단계는, 상기 제2 단어 쌍에서의 상기 비주체 언어 텍스트의 약어를 상기 대체내용으로 확정하는 단계를 더 포함하는 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  8. 제7 항에 있어서,
    상기 주체 언어 텍스트에 제2 단어 쌍이 존재하는지 여부를 식별하는 단계는,
    주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하는 단계;
    머리글자 판단을 통해, 상기 비주체 언어 텍스트가 상기 제2 단어 쌍에 속하는지 여부를 식별하는 단계를 포함하는 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  9. 제1 항에 있어서,
    상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하는 단계는, 상기 주체 언어 텍스트에 단독 비주체 언어 텍스트가 존재하는지 여부를 식별하는 단계 - 여기서, 상기 단독 비주체 언어 텍스트는 단어 쌍을 구성하지 않는 독립적으로 존재하는 비주체 언어 텍스트임 -;를 더 포함하고,
    상기 삽입된 언어 내용의 대체내용을 확정하는 단계는, 상기 단독 비주체 언어 텍스트를 주체 언어 텍스트로 번역하여, 상기 번역된 주체 언어 텍스트를 상기 대체내용으로 확정하는 단계를 더 포함하는 것,
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  10. 제9 항에 있어서,
    상기 삽입된 언어 내용의 대체내용을 확정하는 단계는,
    번역한 후의 주체 언어 텍스트가 두 가지 이상의 번역 결과가 존재하면, 상기 두 가지 이상 번역 결과와 상기 단독 비주체 언어 텍스트의 문맥의 관련도를 판단하는 단계; 및
    관련도가 제일 큰 상기 번역 결과를 상기 단독 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 확정하는 단계를 더 포함하는 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  11. 제1 항 내지 제10 항 중 어느 한 항에 있어서,
    상기 삽입된 언어 내용을 상기 대체내용으로 대체한 후,
    상기 대체내용에 제시 마크를 설치하는 단계 - 상기 제시 마크는 미리 설정된 상기 대체내용의 글자체 및 미리 설정된 상기 대체내용의 마크 부호 중의 적어도 하나를 포함함 -;
    미리 설정된 조작 동작에 응답하여, 상기 대체내용과 대응되는 상기 삽입된 언어 내용을 디스플레이하는 단계;를 더 포함하는 것,
    을 특징으로 하는 다종 언어 조판의 디스플레이 방법.
  12. 다종 언어 조판의 디스플레이 장치에 있어서,
    획득 유닛, 식별 유닛, 확정 유닛 및 대체 유닛을 포함하고,
    상기 획득 유닛은 조판 대기 텍스트를 획득하기 위한 것이고;
    상기 식별 유닛은 상기 조판 대기 텍스트의 주체 언어 텍스트에서의 삽입된 언어 내용을 식별하기 위한 것이고, 상기 삽입된 언어 내용은 상기 주체 언어 텍스트에 삽입된 적어도 하나의 비주체 언어의 내용을 포함하며;
    상기 확정 유닛은 상기 삽입된 언어 내용의 대체내용을 확정하기 위한 것이고, 여기서, 상기 대체내용은 상기 삽입된 언어 내용과 대응되는 주체 언어 텍스트 또는 삽입된 언어 내용에서 비주체 언어 텍스트의 약어를 포함하며;
    상기 대체 유닛은 상기 삽입된 언어 내용을 상기 대체내용으로 대체하기 위한 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  13. 제12 항에 있어서,
    상기 식별 유닛은 제1 식별 서브 유닛을 포함하고, 상기 제1 식별 서브 유닛은 상기 주체 언어 텍스트에 제1 단어 쌍이 존재하는지 여부를 식별하기 위한 것이고, 여기서, 상기 제1 단어 쌍은 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 구성되는 단어 쌍이며; 및
    상기 확정 유닛은 제1 확정 서브 유닛을 포함하고, 상기 제1 확정 서브 유닛은 상기 제1 단어 쌍에서의 주체 언어 텍스트를 상기 대체내용으로 확정하기 위한 것,
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  14. 제13 항에 있어서,
    상기 제1 식별 서브 유닛은 텍스트 식별 서브 유닛, 번역 식별 서브 유닛을 포함하고,
    상기 텍스트 식별 서브 유닛은 주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하기 위한 것이고;
    상기 번역 식별 서브 유닛은, 번역을 통해 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하기 위한 것,
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  15. 제14 항에 있어서,
    상기 번역 식별 서브 유닛은 또한,
    상기 비주체 언어 텍스트를 주체 언어 텍스트로 번역하거나, 또는 상기 서로 인접한 주체 언어 텍스트를 비주체 언어 텍스트로 번역하고;
    상기 비주체 언어 텍스트와 상기 서로 인접한 주체 언어 텍스트의 매칭도를 판단하고 - 여기서 상기 매칭도는 상기 번역 결과에 따라 판단하는 편집 거리 데이터, 단어 벡터의 유사도, 및 텍스트에서의 함께 나타나는 횟수 중의 적어도 하나를 포함함 -;
    상기 매칭도에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는 확률을 계산하고;
    상기 확률에 따라 상기 비주체 언어 텍스트 및 그와 서로 인접한 주체 언어 텍스트가 상기 제1 단어 쌍을 구성하는지 여부를 확정하기 위한 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  16. 제15 항에 있어서,
    상기 편집 거리 데이터는 상기 번역 후의 텍스트 및 서로 인접한 텍스트의 편집 거리, 또는 상기 편집 거리가 상기 번역 후의 텍스트의 길이에서 차지하는 비율을 포함하는 것,
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  17. 제14 항에 있어서,
    상기 번역 식별 서브 유닛은 또한 기계를 통해 언어 자료를 번역하고, 신경망 기계 모델을 이용하여 상기 비주체 언어 텍스트가 그와 서로 인접한 주체 언어 텍스트와 상기 제1 단어 쌍을 구성하는지 여부를 식별하기 위한 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  18. 제12 항에 있어서,
    상기 식별 유닛은 제2 식별 서브 유닛을 포함하고, 상기 제2 식별 서브 유닛은 상기 주체 언어 텍스트에 제2 단어 쌍이 존재하는지 여부를 식별하기 위한 것이고, 여기서, 상기 제2 단어 쌍은 상기 비주체 언어 텍스트의 약어와 상기 비주체 언어 텍스트의 전칭으로 구성된 단어 쌍이며;
    상기 확정 유닛은 제2 확정 서브 유닛을 포함하되, 상기 제2 확정 서브 유닛은 상기 제2 단어 쌍에서의 상기 비주체 언어 텍스트의 약어를 상기 대체내용으로 확정하기 위한 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  19. 제18 항에 있어서,
    상기 제2 식별 서브 유닛은 또한,
    주체 언어 텍스트에서의 비주체 언어 텍스트를 식별하고;
    머리글자 판단을 통해, 상기 비주체 언어 텍스트가 상기 제2 단어 쌍에 속하는지 여부를 식별하기 위한 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  20. 제12 항에 있어서,
    상기 식별 유닛은 제3 식별 서브 유닛을 포함하고, 상기 제3 식별 서브 유닛은상기 주체 언어 텍스트에 단독 비주체 언어 텍스트가 존재하는지 여부를 식별하기 위한 것이고, 여기서, 상기 단독 비주체 언어 텍스트는 단어 쌍을 구성하지 않는 독립적으로 존재하는 비주체 언어 텍스트이고;
    상기 확정 유닛은 제3 확정 서브 유닛을 포함하고, 상기 제3 확정 서브 유닛은 상기 단독 비주체 언어 텍스트를 주체 언어 텍스트로 번역하여, 상기 번역된 주체 언어 텍스트를 상기 대체내용으로 확정하기 위한 것,
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  21. 제20 항에 있어서,
    상기 제3 확정 서브 유닛은 또한,
    번역한 후의 주체 언어 텍스트가 두 가지 이상의 번역 결과가 존재하면, 상기 두 가지 이상 번역 결과와 상기 단독 비주체 언어 텍스트의 문맥의 관련도를 판단하고; 및
    관련도가 제일 큰 상기 번역 결과를 상기 단독 비주체 언어 텍스트와 서로 대응되는 주체 언어 텍스트로 확정하기 위한 것
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  22. 제12 항 내지 제21 항 중 어느 한 항에 있어서,
    인터랙션 유닛을 더 포함하고,
    상기 인터랙션 유닛은 상기 대체내용에 제시 마크를 설치하고 - 상기 제시 마크는 미리 설정된 상기 대체내용의 글자체 및 미리 설정된 상기 대체내용의 마크 부호중의 적어도 하나를 포함함 -;
    미리 설정된 조작 동작에 응답하여, 상기 대체내용과 대응되는 상기 삽입된 언어 내용을 디스플레이하기 위한 것,
    을 특징으로 하는 다종 언어 조판의 디스플레이 장치.
  23. 브라우저에 있어서,
    제12 항 내지 제21 항 중 어느 한 항의 다종 언어 조판의 프런트 엔드의 디스플레이 장치를 포함하는 것
    을 특징으로 하는 브라우저.
  24. 단말에 있어서,
    상기 단말은 하나 또는 복수의 프로세서, 저장 장치를 포함하고,
    상기 저장 장치는 하나 또는 복수의 프로그램을 저장하기 위한 것이고;
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 수행될 경우, 상기 하나 또는 복수의 프로세서가 제1 항 내지 제10 항 중 어느 한 항의 방법을 구현하도록 하는 것
    을 특징으로 하는 단말.
  25. 컴퓨터 판독가능 저장 매체에 있어서,
    상기 컴퓨터 판독가능 저장 매체는 컴퓨터 프로그램이 저장되어 있고, 당해 프로그램이 프로세서에 의해 수행될 경우 제1 항 내지 제10 항 중 어느 한 항의 방법을 구현하는 것
    을 특징으로 하는 컴퓨터 판독가능 저장 매체.
KR1020180108443A 2018-01-22 2018-09-11 다종 언어 조판의 디스플레이 방법, 장치, 브라우저, 단말 및 매체 KR102218248B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810061020.8 2018-01-22
CN201810061020.8A CN108170660B (zh) 2018-01-22 2018-01-22 多语言排版的显示方法、装置、浏览器、终端及介质

Publications (2)

Publication Number Publication Date
KR20190095860A true KR20190095860A (ko) 2019-08-16
KR102218248B1 KR102218248B1 (ko) 2021-02-22

Family

ID=62515516

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180108443A KR102218248B1 (ko) 2018-01-22 2018-09-11 다종 언어 조판의 디스플레이 방법, 장치, 브라우저, 단말 및 매체

Country Status (5)

Country Link
US (1) US10884771B2 (ko)
EP (1) EP3514701A1 (ko)
JP (1) JP6916155B2 (ko)
KR (1) KR102218248B1 (ko)
CN (1) CN108170660B (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984694B (zh) * 2018-07-04 2019-07-30 龙马智芯(珠海横琴)科技有限公司 网页的处理方法及装置、存储介质、电子装置
US11106873B2 (en) * 2019-01-22 2021-08-31 Sap Se Context-based translation retrieval via multilingual space
US11429789B2 (en) 2019-06-12 2022-08-30 International Business Machines Corporation Natural language processing and candidate response identification
US11163953B2 (en) * 2019-06-12 2021-11-02 International Business Machines Corporation Natural language processing and candidate response evaluation
CN111079396B (zh) * 2019-12-20 2023-06-16 方正国际软件(北京)有限公司 不规则单元格中文字排版方法及排版装置
CN111240962B (zh) * 2019-12-31 2023-09-05 中移(杭州)信息技术有限公司 测试方法、装置、计算机设备及计算机存储介质
CN112988297A (zh) * 2021-03-10 2021-06-18 深圳市创想三维科技有限公司 基于触摸屏的语言切换方法、装置、电子设备及存储介质
CN113569532B (zh) * 2021-09-22 2022-01-25 北京仁和汇智信息技术有限公司 一种html编辑方法、装置、电子设备及计算机可读存储介质
CN114330277B (zh) * 2021-12-31 2023-08-22 抖音视界有限公司 阅读排版方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148156A1 (en) * 2000-09-08 2004-07-29 Paul Hawkins Word processor systems or the like
WO2015056384A1 (ja) * 2013-10-18 2015-04-23 三菱電機株式会社 文字列表示装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133853A (ja) * 1996-10-29 1998-05-22 Nippon Telegr & Teleph Corp <Ntt> 電子メール書換え方法及び装置
US6115686A (en) * 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
WO2001044981A2 (en) * 1999-11-10 2001-06-21 Global Market Insite, Inc. Multi-region market research study creation
AU2001255599A1 (en) * 2000-04-24 2001-11-07 Microsoft Corporation Computer-aided reading system and method with cross-language reading wizard
US7266767B2 (en) * 2000-11-27 2007-09-04 Parker Philip M Method and apparatus for automated authoring and marketing
JP2003091344A (ja) * 2001-09-19 2003-03-28 Sony Corp 情報処理装置および情報処理方法、記録媒体、データ構造、並びにプログラム
US6934908B2 (en) * 2001-10-17 2005-08-23 International Business Machines Corporation Uniform handling of external resources within structured documents
US7418652B2 (en) * 2004-04-30 2008-08-26 Microsoft Corporation Method and apparatus for interleaving parts of a document
US8661332B2 (en) * 2004-04-30 2014-02-25 Microsoft Corporation Method and apparatus for document processing
US8819541B2 (en) * 2009-02-13 2014-08-26 Language Technologies, Inc. System and method for converting the digital typesetting documents used in publishing to a device-specfic format for electronic publishing
US8312390B2 (en) * 2009-06-10 2012-11-13 Microsoft Corporation Dynamic screentip language translation
US20110144972A1 (en) * 2009-12-11 2011-06-16 Christoph Koenig Method and System for Generating a Localized Software Product
WO2011156727A1 (en) * 2010-06-11 2011-12-15 Blueprint Growth Institute, Inc. Electronic document delivery, display, updating and interaction systems and methods
CN102455856A (zh) * 2010-10-27 2012-05-16 王博 一种句子的页面生成方法和设备
US9497184B2 (en) * 2011-03-28 2016-11-15 International Business Machines Corporation User impersonation/delegation in a token-based authentication system
CN104025479B (zh) * 2011-10-13 2018-10-19 三星电子株式会社 用于发送和接收多媒体服务的方法和装置
US9779063B1 (en) * 2013-03-15 2017-10-03 Not Invented Here LLC Document processor program having document-type dependent interface
CN104102630B (zh) * 2014-07-16 2017-07-07 复旦大学 一种针对中文社交网络中中英文混合文本的规范方法
US10318614B2 (en) * 2015-07-01 2019-06-11 Tnq Books And Journals Private Limited Transformation of marked-up content into a file format that enables automated browser based pagination

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148156A1 (en) * 2000-09-08 2004-07-29 Paul Hawkins Word processor systems or the like
WO2015056384A1 (ja) * 2013-10-18 2015-04-23 三菱電機株式会社 文字列表示装置

Also Published As

Publication number Publication date
US20190227823A1 (en) 2019-07-25
US10884771B2 (en) 2021-01-05
CN108170660A (zh) 2018-06-15
JP6916155B2 (ja) 2021-08-11
JP2019128943A (ja) 2019-08-01
EP3514701A1 (en) 2019-07-24
KR102218248B1 (ko) 2021-02-22
CN108170660B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
KR20190095860A (ko) 다종 언어 조판의 디스플레이 방법, 장치, 브라우저, 단말 및 매체
US8903707B2 (en) Predicting pronouns of dropped pronoun style languages for natural language translation
JP6754426B2 (ja) 世界共通翻訳
US9772998B2 (en) Indicating and correcting errors in machine translation systems
US8635059B2 (en) Providing alternative translations
JP2018037095A (ja) フレーズに基づく辞書抽出及び翻訳品質評価
US20120109625A1 (en) Synchro translation verification test for software applications
TW201250498A (en) Transliteration device, program, recording medium, and method
JP5528420B2 (ja) 翻訳装置、翻訳方法及びコンピュータプログラム
JP5235135B2 (ja) 機械翻訳システム及び機械翻訳方法
CN117436417A (zh) 演示文稿生成方法、装置、电子设备和存储介质
CN103268314B (zh) 一种获取泰文断句规则的方法及装置
CN115249019A (zh) 一种目标多语言神经机器翻译模型的构建方法和装置
JP2010157066A (ja) 機械翻訳システム及び機械翻訳方法
JP5604276B2 (ja) 文書画像生成装置および文書画像生成方法
CN117313754B (zh) 智能翻译方法、装置以及翻译机
Krajka Correcting student work with the computer-using dedicated software and a word processor
McWhorter Why I Still Love'West Side Story'.
JP2011186507A (ja) 翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラム
Jancewicz et al. Cree syllabic fonts: development, compatibility and usage in the digital world
Barbour et al. Bilingual/multi-lingual business software: the spreadsheet
JP2004280275A (ja) 多言語マニュアル作成装置およびその方法と、プログラムおよびその記録媒体
Boitet Gradable quality translations through mutualization of human translation and revision, and UNL-based MT and coedition
CN117151126A (zh) 文本翻译方法、装置、电子设备和存储介质
CN114791987A (zh) 一种网页翻译方法和相关设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant