KR20070083757A - 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체 - Google Patents

텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체 Download PDF

Info

Publication number
KR20070083757A
KR20070083757A KR1020077009140A KR20077009140A KR20070083757A KR 20070083757 A KR20070083757 A KR 20070083757A KR 1020077009140 A KR1020077009140 A KR 1020077009140A KR 20077009140 A KR20077009140 A KR 20077009140A KR 20070083757 A KR20070083757 A KR 20070083757A
Authority
KR
South Korea
Prior art keywords
character
sentence
text data
conversion
data
Prior art date
Application number
KR1020077009140A
Other languages
English (en)
Inventor
타다시 혼다
Original Assignee
어드밴스드 디자인 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 어드밴스드 디자인 가부시키가이샤 filed Critical 어드밴스드 디자인 가부시키가이샤
Publication of KR20070083757A publication Critical patent/KR20070083757A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 번역 프로그램의 용량이나 처리 시간을 절감할 수 있도록 하는 것을 과제로 하여 적어도 표의문자를 포함하는 각 문자의 문자종류를 특정 가능한 문자 코드 데이터가 배열되어 이루어지는 텍스트 데이터 구조로서 입력된 표음문자열을 표의문자를 포함하는 문자열로 변환하는 변환 처리 프로그램으로부터 취득한 그 표의문자로의 변환단위가 되는 문절 정보를 근거로 변환후의 각 문절에 포함되는 문자코드 데이터를 특정 가능한 문절 특정 데이터를 그 문자 코드 데이터와 함께 포함한다.

Description

텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트 데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을 기록한 기록 매체{Text data structure, text data processing method, text data processing program and text data processing program recorded recording medium}
본 발명은 적어도 표의문자(表意文字)를 포함하는 언어의 텍스트 데이터 구조, 그 데이터 구조의 텍스트 데이터를 생성하기 위한 텍스트 데이터 처리방법, 텍스트 데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을 기록한 기록 매체에 관한 것이다.
종래 한자 등의 표의문자를 포함하는 텍스트 데이터에서는 그 입력에 있어서 한자의 읽기나 발음을 로마자나 히라가나 등의 표음문자(表音文字)로 입력하여서 한자로 변환하는 것으로 이루어져 있다.
도 1은 본 발명의 실시예에 이용된 변환처리 프로그램의 처리내용을 나타내는 흐름도이고,
도 2는 본 발명의 실시예의 텍스트 데이터 처리 프로그램의 처리내용을 나타내는 흐름도이고,
도 3은 본 발명의 실시예의 텍스트 데이터 처리 프로그램에 의해 생성되는 텍스트 테이터의 구성을 나타내는 도면이다.
이들 변환된 표의문자를 포함하는 텍스트 데이터를 다른 언어 등으로 기계 번역하는 경우에 번역기는 이들 표의문자를 이해할 수 없어서 이들 표시문자의 구획이 어디인지를 정확하게는 판단할 수 없고 이들 표의문자의 단어를 여러 개 포함하는 문장, 예를 들면 「合衆國最高裁判所近道」라는 문장을 변환하려면 그 구획에 따라서 여러 개의 의미 있는 번역이 존재하므로 이들 표시문자의 구획을 정확하게 파악하여서 정확한 번역을 수행하는 것이 어렵고 이들 구획을 정확하게 파악하기 위해서 여러 가지의 다양한 구획 방법을 선택하기 위한 처리나 프로그램을 필요로 하여 그 결과 번역 프로그램의 용량이 커져 버리게 되면서 또한 번역에 시간을 필요로 하는 문제가 있었다.
본 발명은 이와 같은 문제점을 감안하여서 이루어진 것으로 표의문자를 포함하는 문장을 다른 언어로 변환하는 경우에 번역 프로그램의 용량이나 처리시간을 절감하기 위하여 번역문의 구획(문절)을 정확하게 파악할 수 있는 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트 데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을 기록한 기록매체를 제공하는 것을 목적으로 한다.
상기 과제를 해결하기 위하여 본 발명의 청구항 1에서 기재하고 있는 텍스트 데이터 구조는 적어도 표의문자를 포함하는 각 문자의 문자종류를 특정할 수 있는 문자코드 데이터가 배열되어 이루어지는 텍스트 데이터구조로서 입력된 표음 문자열을 표의문자를 포함하는 문자열로 변환하는 변환 처리 프로그램으로부터 취득한 그 표의문자로의 변환 단위가 되는 문절 정보를 근거로 하여 변환후의 각 문절에 포함되는 문자 코드 데이터를 특정 가능한 문절 특정 데이터를 그 문자 코드 데이터와 함께 포함하는 것을 특징으로 한다.
이 특징에 따르면 텍스트 데이터 중에 포함되는 문절 특정 데이터에 따라서 각 문절에 포함되는 문자를 특정하여서 문절에 의한 문장의 구획을 정확하게 파악할 수 있기 때문에 이들 텍스트 데이터 구조를 갖는 텍스트 데이터를 기반으로 하는 표의문자를 포함하는 문장을 다른 언어로 변환하는 경우에 있어서 번역 프로그램의 용량이나 처리시간을 절감하는 것이 가능해진다.
본 발명의 청구항 2에 기재된 텍스트 데이터 구조는 청구항 1에 기재된 텍스트 데이터구조로서 상기 표의문자로의 변환원인 표음문자의 문자 코드 데이터를 변환후의 문자열의 후리가나(한자 옆에 읽는 법을 가나문자로 단 것) 데이터로 하여서 변환후의 문자열의 문절에 대응지어서 포함하는 것을 특징으로 한다.
이 특징에 따르면 후리가나를 정확하게 특정할 수 있으며 이들 후리가나를 번역에 유용하게 쓰는 일도 가능해진다.
본 발명의 청구항 3에 기재된 텍스트 데이터 구조는 청구항 1 또는 2에 기재된 텍스트 데이터 구조로서 상기 변환 프로그램에서 취득한 각 문절에 포함되는 문자열의 품사를 특정 가능한 품사 데이터에를 해당 문절에 대응지어서 포함하는 것을 특징으로 한다.
이 특징에 따르면 각 문절에 포함되는 문자열의 품사를 특정하여서 그 특정된 품사를 근거로 더 한층 정확한 번역을 실시할 수 있다.
본 발명의 청구항 4에 기재된 텍스트 데이터 처리방법은 입력된 표음문자열을 표의문자를 포함하는 문자열로 변환하는 변환처리 프로그램으로부터 그 표의문자로의 변환단위가 되는 문절 정보를 취득하여 그 취득한 문절 정보를 근거로 하여 변환후의 문자열 중의 각 문절에 포함되는 문자 코드 데이터를 특정 가능한 문절 특정 데이터를 변환후의 문자열의 텍스트 데이터 중에 삽입하는 것을 특징으로 한다.
이 특징에 따르면 텍스트 데이터 중에 포함되는 문절 특정 데이터에 따라서 각 문절에 포함되는 문자를 특정하여서 문절에 따른 문장의 구획을 정확하게 파악할 수 있기 때문에 이들 문절 특정 테이터를 포함하는 텍스트 데이터에 근거한 문장을 다른 언어로 변환하는 경우에 있어서 번역 프로그램의 용량이나 처리시간을 절감하는 것이 가능해진다.
본 발명의 청구항 5에 기재된 텍스트 데이터 처리방법은 청구항 4에 기재된 텍스트 데이터 처리방법으로서 상기 변환 처리 프로그램으로부터 취득한 상기 표의문자로의 변환원인 표음문자의 문자 코드 데이터를 변환후의 문자열의 후리가나 데이터로 하여서 변환후의 문자열의 문절에 대응지어서 그 변환후의 문자열의 텍스트 데이터 중에 삽입하는 것을 특징으로 한다.
이 특징에 따르면 후리가나를 정확하게 특정할 수 있으며 이들 후리가나를 번역에 유용하게 쓰는 것도 가능해진다.
본 발명의 청구항 6에 기재된 텍스트 데이터 처리방법은 청구항 4 또는 5에 기재된 텍스트 데이터 처리방법으로서 상기 변환 처리 프로그램으로부터 취득한 각 문절에 포함되는 문자열의 품사를 특정할 수 있는 품사 테이터를 해당 문절에 대응지어서 상기 텍스트 데이터 중에 삽입하는 것을 특징으로 한다.
이 특징에 따르면 각 문절에 포함되는 문자열의 품사를 특정하여서 그 특정한 품사를 근거로 더 한층 정확한 번역을 실시할 수 있다.
본 발명의 청구항 7에 기재된 텍스트 데이터 처리 프로그램은 입력된 표음 문자열을 표의문자를 포함하는 문자열로 변환하는 변환 처리 프로그램으로부터 그 표의문자로의 변환단위가 되는 문절 정보를 취득하는 문절 정보 취득 단계와, 그 취득한 문절 정보를 근거로 하여 변환후의 문자열 중의 각 문절에 포함되는 문자 코드 데이터를 특정 가능한 문절 특정 데이터를 변환후의 문자열의 텍스트 데이터 중에 삽입하는 문절 특정 데이터 삽입 단계를 포함하는 것을 특징으로 한다.
이 특징에 따르면 텍스트 데이터 중에 포함되는 문절 특정 데이터에 따라서 각 문절에 포함되는 문자를 특정하여서 문절에 의한 문장의 구획을 정확하게 파악할 수 있기 때문에 이들 문절 특정 데이터를 포함하는 텍스트 데이터를 근거로 하는 문장을 다른 언어로 변환하는 경우에 번역 프로그램의 용량이나 처리시간을 절감하는 것이 가능해진다.
본 발명의 청구항 8에 기재된 텍스트 데이터 처리 프로그램은 청구항 7에 기재된 텍스트 데이터 처리 프로그램으로서 상기 변환 처리 프로그램으로부터 취득한 상기 표의문자로의 변환원인 표음문자의 문자 코드 데이터를 변환후의 문자열의 후리가나 데이터로 하여 변환후의 문자열의 문절에 대응지어서 그 변환후의 문자열의 텍스트 데이터 중에 삽입하는 후리가나 데이터 삽입 단계를 포함하는 것을 특징으로 한다.
이 특징에 따르면 후리가나를 정확하게 특정할 수 있고 이들 후리가나를 번역에 유용하게 쓰는 것도 가능해진다.
본 발명의 청구항 9에 기재된 텍스트 데이터 처리 프로그램은 청구항 7 또는 8에 기재된 텍스트 데이터 처리 프로그램으로서 상기 변환 처리 프로그램으로부터 취득한 각 문절에 포함되는 문자열의 품사를 특정 가능한 품사 데이터를 해당 문절에 대응지어서 상기 텍스트 데이터 중에 삽입하는 품사 데이터 삽입 단계를 포함하는 것을 특징으로 한다.
이 특징에 따르면 각 문절에 포함되는 문자열의 품사를 특정하여서 그 특정된 품사를 근거로 더 한층 정확한 번역을 실시할 수 있다.
본 발명의 청구항 10에 기재된 텍스트 데이터 처리 프로그램을 기록한 기록매체는 청구항7~9의 어느 것에 기재된 텍스트 데이터 처리 프로그램을 기록한 것을 특징으로 한다.
이 특징에 따르면 텍스트 데이터 처리 프로그램을 기록매체로부터 읽어내어서 간편하게 이용할 수 있다.
본 발명의 실시예를 아래에서 설명한다.
도 1은 본 실시예에 이용한 변환 처리 프로그램인 가나 한자 변환 처리 프로그램에서의 처리내용을 나타내는 흐름도이고, 도 2는 본 실시예에 이용한 텍스트 데이터 처리 프로그램의 처리내용을 나타내는 흐름도이다.
이들 본 실시예에 이용된 가나(한자의 일부를 따서 만든 일본의 음절문자로 보통 가타가나와 히라가나를 일컫는다) 한자 변환 처리 프로그램 및 텍스트 데이터 처리 프로그램은 미도시된 PC 등의 컴퓨터에 CD-ROM 등의 기록매체로부터 인스톨되어서 그 컴퓨터에서 실시된다.
그리고 본 실시예의 텍스트 데이터 처리 프로그램은 메인 프로그램이 되는 상기 가나 한자 변환 프로그램의 플러그인 모듈 프로그램으로 되어 있으며 이들 가나 한자 변환 처리 프로그램은 텍스트 데이터 처리 프로그램이 없어도 동작 가능하도록 이루어져 있다.
이들 가나 한자 변환 처리 프로그램으로서는 시판되는 공지의 일본어 입력도구로서 사용되고 있는 가나 한자 변환 처리 프로그램(FEP)를 사용할 수 있으며 그 처리내용을 도1 및 도3을 근거로 하여 간결하게 설명하면 한자 변환 처리 프로그램은 예를 들면 도3에서 나타내는 바와 같이 변환문으로서 「がっしゅうこくさいこうさいばんしょちかみち」의 입력을 접수받은 경우에(S1), 그 접수된 변환문의 문절을 특정한다. 이들 문절의 특정은 예를 들면 공지의 최소 코스트법 등을 이용하여서 특정하면 되고 구체적으로는 변환문이 「がっしゅうこく」,「さいこうさいばんしょ」, 「ちかみち」로 문절이 특정된다(S2).
그리고 그 특정된 각 문절에 포함되는 표음문자열인 가나 문자열에 해당하는 표의문자가 되는 한자의 변환 후보의 문자열을 해당 가나 한자 변환 처리 프로그램에 포함되어 있는 사전 데이터로부터 모두 추출하고(S3), 변환 조작에 따라서 각 문절의 변환 후보의 대표를 변환문으로서 표시 출력하면서 동시에 한층 더 변환 조작이 있는 경우에는 상기(S3)에서 추출한 변환 후보의 문자열을 선택 가능하게 표시 출력한다(S4). 그리고 변환 후보의 문자열의 선택조작(확정 조작)에 의한 변환어의 접수를 실시한 후(S5), 그 접수에 의해 확정된 표의문자인 한자를 포함하는 텍스트 데이터, 구체적으로는 「合衆國最高裁判所近道」의 한자 텍스트 데이터를 전술의 텍스트 데이터 처리 프로그램에 대하여 출력한다.
이 한자 텍스트 데이터 출력에 따라서 텍스트 데이터 처리 프로그램은 도 2에서 나타내는 바와 같이 (Sb1)에 있어서 그 한자 텍스트 데이터의 출력을 검지하여서 (Sb2)로 진행하고, 그 출력되어 온 한자 텍스트 데이터의 가나 한자 변환에 있어서 특정한 문절의 정보와 각 문절에 포함되는 변환전의 가나 문자열인 후리가나와 각 문절에 포함되는 변환된 한자를 포함하는 단어(변환어)의 품사 데이터를 포함하는 변환 정보의 출력 요구를 가나 한자 변환 처리 프로그램으로 출력하여서 그 변환 정보를 한자 변환 처리 프로그램으로부터 취득한다(Sb2). 즉 그 (Sb2)에서 입력된 표음 문자열을 표의문자를 포함하는 문자열인 한자 텍스트 데이터로 변환하는 변환 처리 프로그램으로서의 가나 한자 변환 처리 프로그램으로부터 그 표의문자로의 변환 단위가 되는 문절 정보를 취득하여 그 (Sb2)에 의해 본 발명에서의 문절 정보 취득 스텝이 형성된다.
또한 본 실시예에서는 가나 한자 변환 처리 프로그램에 대하여 텍스트 데이터 처리 프로그램으로부터 변환 정보의 출력 요구를 출력하도록 하고 있는데 본 발명은 이에 한정되는 것은 아니며, 예를 들면 가나 한자 변환 처리 프로그램이 변환한 한자를 포함하는 변환문 텍스트와 함께 그 변환 텍스트의 변환에서의 변환 정보를 텍스트 데이터 처리 프로그램에 대해서 가나 한자 변환 처리 프로그램이 출력하도록 하여도 된다.
이 변환 정보의 출력 요구에 따라서 가나 한자 변환 처리 프로그램은 출력한 한자 텍스트 데이터의 가나 한자 변환에 있어서 특정한 문절 정보와 각 문절에 포함되는 변환전의 가나 문자열인 후리가나와 각 문절에 포함되는 변환된 한자를 포함하는 단어(변환어)의 품사 데이터를 포함하는 변환 정보를 텍스트 데이터 처리 프로그램으로 출력한다.
이와 같이 하여서 가나 한자 변환 처리 프로그램으로부터 취득한 변환정보에 포함되는 문절정보를 근거로 하여서 본 실시예의 텍스트 데이터 처리 프로그램은 가나 한자 변환 처리 프로그램으로부터 출력되어 온 상기 변환문이 되는 한자 텍스트 데이터 중의 각 문절의 범위를 특정하고 그 특정한 각 문절의 경계선, 즉 구획을 짓는 위치에 구체적으로는 도 3에서 나타내는 바와 같이 「合衆國」의 문절과 「最高裁判所」의 문절이 구획 위치가 된다. 「國」과 「最」의 문자(캐릭터)코드 데이터 사이에 문자종류가 할당되어 있지 않은 문자(캐릭터)코드, 구체적으로는 시프트(S)-JIS코드의 「007F」에 대하여 문절을 특정하기 위해 할당된 특수 캐릭터인 좌하향 두 개 사선의 기호가 되는 「007F」의 코드 데이터를 문절 특정 캐릭터로서 삽입함으로써(Sb3) 이들 「007F」의 코드 데이터 사이에 존재하는 문자 코드에 의한 문자가 하나의 문절내에 포함되는 문자로서 특정할 수 있게 된다. 즉 그 (Sb3)에 있어서 상기 (Sb2)에서 가나 한자 변환 처리 프로그램으로부터 취득한 문절 정보를 근거로 변환후의 한자 문자열 중의 각 문절에 포함되는 문자 코드 데이터를 특정 가능한 문절 특정 데이터가 되는 특수 캐릭터를 변환후의 한자 문자열의 한자 텍스트 데이터 중에 삽입하여 그 (Sb3)에 따라서 본 발명에서의 문절 특정 데이터 삽입 단계가 형성된다.
그리고 이들 문절 특정 캐릭터를 삽입한 후에 (Sb4)로 진행하여서 가나 한자 변환 처리 프로그램으로부터 취득한 변환정보에 포함되는 각 문절에 포함되는 문자열의 품사 데이터, 구체적으로는 각 품사를 특정 가능한 각 품사에 고유하게 부여된 품사코드(실제로는 가나 한자 변환 처리프로그램의 사전 데이터에 각 단어에 대응하여 기억되어 있는 품사 코드에 해당한다)가 문절내에 포함되는 각 품사의 순으로 각 문절이 된 데이터 범위인 문절 특정 캐릭터 사이의 문미측 위치에 이들 삽입된 데이터가 변환문 이외의 데이터임을 나타내는 특수 캐릭터인 문자 종류가 할당되어 있지 않은 문자(캐릭터)코드, 구체적으로는 시프트(S)-JIS코드의 「008F」에 대하여 할당된 특수 캐릭터인 우하향 두 개 사선의 기호가 되는 「008F」의 코드 데이터를 상기 품사 코드로 이루어지는 품사 데이터의 선두에 붙여서 삽입한다. 즉 그 (Sb4)에 있어서 상기 (Sb2)에서 가나 한자 변환 처리 프로그램으로부터 취득한 각 문절에 포함되는 문자열의 품사를 특정 가능한 품사 코드로 이루어지는 품사 데이터를 해당 문절에 대응지어서 상기 텍스트 데이터 중에 삽입하고 그 (Sb4)에 의하여 본 발명에서의 품사 데이터 삽입 단계가 형성된다.
그리고 또한 그 품사 데이터의 후방(하위)이 되는 위치에 가나 한자 변환 처리 프로그램에서 취득한 변환 정보에 포함되는 각 문절의 후리가나가 되는 가나 문자의 데이터가 상기 품사 데이터와 마찬가지로 변환문 이외의 데이터임을 나타내는 특수 캐릭터인 우하향 두 개 사선의 기호가 되는 「008F」의 코드 데이터를 선두에 붙여서 삽입함으로써 도 3에서 나타내는 바와 같이 문절 특정 캐릭터인 좌하향 두 개 사선의 기호가 되는 「007F」의 코드 데이터에 의해 문절을 특정할 수 있으며 또한 이들 각 문절에 대응하도록 이들 각 문절이 되는 문절 특정 캐릭터 사이에 해당 문절에 포함되는 문자열의 품사 데이터나 후리가나 데이터가 포함되는 본 발명의 텍스트 데이터 구조를 갖는 확장 텍스트 데이터가 생성한다. 즉 그 (Sb4)에 있어서 상기 (Sb2)에서 가나 한자 변환 처리프로그램으로부터 취득한 상기 표의문자(한자문자)로의 변환원인 표음문자(가나문자)의 문자 코드 데이터를 변환후의 문자열의 후리가나 데이터로서 변환후의 문자열의 문절에 대응지어서 그 변환후의 문자열의 텍스트 데이터 중에 삽입하고 그 (Sb4)에 의해 본 발명에서의 후리가나 데이터 삽입 답계가 형성된다.
그리고 이들 「合衆國最高裁判所近道」의 변환문을 다른 언어로 번역하는 경우에는 변역되는 방법으로서는 「合衆國」,「最高裁判所」,「近道」의 문절을 근거로 하는 번역문과, 오역이 되는 「合衆國最高」,「裁判所」,「近道」로 문절을 구획 짓는 번역문이 존재하는데 본 실시예의 텍스트 데이터 구조를 갖는 확장 텍스트 데이터에 의하면 그 텍스트 데이터에 포함되는 문절 특정 캐릭터에 의해 각 문절에 포함되는 문자열을 「合衆國」,「最高裁判所」,「近道」로서 특정할 수 있으며 그리고 더 나아가서는 그 후리가나나 품사도 특정할 수 있어서 이들 문절의 판정을 실시하기 위한 처리를 수행하거나 이들 문절 판정 프로그램을 번역 프로그램이 포함할 필요가 없으며 따라서 번역 프로그램의 용량이나 처리시간을 절감할 수 있고, 예컨대 이들 텍스트 데이터 구조를 인터넷상의 홈페이지의 기술 언어로서 사용되고 있는 HTML중에 포함되는 문장에 적용함으로써 예를 들면 중국인이 일본어의 홈페이지를 열람하는 경우나 반대로 일본인이 중국어의 홈페이지를 열람하는 경우에 있어서 정확하고 신속하게 문장이 번역되어 표시되도록 되어 이용자의 편리성을 현저하게 향상시킬 수 있다.
이상 본 발명의 실시예를 도면에 의해 설명해 왔는데 구체적인 구성은 이들 실시예에 한정되는 것은 아니며 본 발명의 요지를 일탈하지 않는 범위에서의 변경이나 추가가 있어도 본 발명에 포함될 것이다.
예를 들면 상기 실시예에서는 문절 특정 캐릭터로서 특수 캐릭터를 사용하고 있는데 이와 같이 하는 것은 문절 특정 캐릭터가 다른 문자(캐릭터)와 구별하기 쉬우며 문절의 특정에 있어서 실수가 발생되는 것을 대폭적으로 절감할 수 있어서 바람직한데 본 발명은 이에 한정되는 것은 아니며 이들 문절 특성 캐릭터로서 이용되는 코드나 캐릭터는 적절하게 선택하면 된다.
또 상기 실시예에서는 변환후의 각 문절에 포함되는 문자 코드 데이터를 특정 가능한 문절 특정 데이터를 문절 특정 캐릭터로 하고 있는데 본 발명은 이에 한정되는 것은 아니며 이들 문절 특정 데이터를 예를 들면 문장중 선두에서부터 어떤 문자가 하나의 문절이고, 다음의 어떤 문자가 하나의 문절임을 나타내는 데이터와 같이 문절에 포함되는 문자의 수를 선두에서부터 차례로 배치한 문자수 맵 데이터 등을 이용하여서 문절에 포함되는 문자를 특정할 수 있도록 하여도 좋고 이들 문절 특정 데이터로서는 텍스트 데이터의 이용 형태 등에 맞추어서 적절하게 선택하면 된다.
또 상기 실시예에서는 품사 데이터나 후리가나 데이터를 포함하도록 하고 있는데 본 발명은 이에 한정되는 것은 아니며 이들 품사 데이터나 후리가나 데이터를 포함하지 않는 구성으로 하여도 좋다.
또 상기 실시예에서는 변환 처리 프로그램으로서 일본어인 가나 한자 변환 처리 프로그램을 예시하고 있는데 본 발명은 이에 한정되는 것은 아니며 이들 변환 처리 프로그램으로서는 핀인 입력된 로마 문자열을 한자로 변환하는 중국어의 로마자 변환 처리 프로그램이라도 되는 것은 물론일 뿐만 아니라 기타 표음문자를 표의 문자로 변환하는 경우에도 본 발명을 적용할 수 있다.
또 상기 실시예에서는 각 문절에 포함되는 문자열이 고유 명사 등의 읽기로 예를 들면 미국의 「마아크」라는 이름을 「眞握」으로 변환하면서 동시에 표의문자가 아니고 표음문자로서 사용하는 것을 번역 등에서 특정할 수 있도록 하기 위해 문절에 포함되는 문자열이 표의문자인지 표음문자인지를 특정할 수 있는 종별 코드를 품사 코드와 함께 품사 데이터로서 포함하도록 하거나 외국어에 대한 취음자들을 특정할 수 있도록 하기 위해 이들 외국어의 품사코드를 이들 품사 데이터로서 포함하도록 하여도 좋다. 또 이들 고유명사들의 입력시에 변환된 표의문자열이 명칭 등의 표음문자로서 사용하는 경우에 있어서는 표음문자로서 사용하는 것을 해당 변환의 지정시에 조작자로부터 변환 처리 프로그램을 접수하여서 그 표음문자로서 사용하는 것을 나타내는 상기 종별 데이터를 포함하는 변환정보를 텍스트 데이터 처리 프로그램이 취득하도록 하여도 된다.
또 상기 실시예에서는 텍스트 데이터 처리 프로그램을 가나 한자 변환 처리 프로그램의 플러그인 모듈 프로그램으로 한 형태를 나타내고 있으며 이들 텍스트 데이터 처리 프로그램을 가나 한자 변환 처리 프로그램과는 개별적으로 기록매체나 컴퓨터 네트워크를 통하여 배포되도록 하고 있는데 본 발명은 이에 한정되는 것은 아니며 이들 텍스트 데이터 처리 프로그램을 가나 한자 변환 처리 프로그램과는 분리 불가능하게 하여서 가나 한자 변환 처리 프로그램에 포함되도록 하여 그 텍스트 데이터 처리 프로그램을 포함하는 가나 한자 변환 처리 프로그램을 배포하도록 하여도 좋다.

Claims (10)

  1. 적어도 표의문자를 포함하는 각 문자의 문자종류를 특정 가능한 문자 코드 데이터가 배열되어 이루어지는 텍스트 데이터 구조로서, 입력된 표음문자열을 표의 문자를 포함하는 문자열로 변환하는 변환 처리 프로그램으로부터 취득한 그 표의문자로의 변환 단위가 되는 문절 정보를 근거로 하여 변환후의 각 문절에 포함되는 문자 코드 데이터를 특정할 수 있는 문절 특정 데이터를 그 문자 코드 데이터와 함께 포함하는 것을 특징으로 하는 텍스트 데이터 구조.
  2. 상기 제 1항에 있어서, 상기 표의문자로의 변환원인 표음문자의 문자 코드 데이터를 변환후의 문자열의 후리가나 데이터로 하여서 변환후의 문자열의 문절에 대응지어서 포함하는 것을 특징으로 하는 텍스트 데이터 구조.
  3. 상기 제 1항 또는 제 2항에 있어서, 상기 변환 처리 프로그램으로부터 취득한 각 문절에 포함되는 문자열의 품사를 특정 가능한 품사 데이터를 해당 문절에 대응지어서 포함하는 것을 특징으로 하는 텍스트 데이터 구조.
  4. 입력된 표음 문자열을 표의문자를 포함하는 문자열로 변환하는 변환 처리 프로그램으로부터 그 표의문자로의 변환 단위가 되는 문절 정보를 취득하고 그 취득한 문절 정보를 근거로 하여서 변환후의 문자열 중의 각 문절에 포함되는 문자 코드 데이터를 특정할 수 있는 문절 특정 데이터를 변환후의 문자열의 텍스트 데이터 중에 삽입하는 것을 특징으로 하는 텍스트 데이터 처리 방법.
  5. 상기 제 4항에 있어서, 상기 변환 처리 프로그램으로부터 취득한 상기 표의문자로의 변환원인 표음문자의 문자 코드 데이터를 변환후의 문자열의 후리가나 데이터로 하여서 변환후의 문자열의 문절에 대응지어서 그 변환후의 문자열의 텍스트 데이터 중에 삽입하는 것을 특징으로 하는 텍스트 데이터 처리 방법.
  6. 상기 제 4항 또는 5항에 있어서, 상기 변환 처리 프로그램으로부터 취득한 각 문절에 포함되는 문자열의 품사를 특정할 수 있는 품사 데이터를 해당 문절에 대응지어서 상기 텍스트 데이터 중에 삽입하는 것을 특징으로 하는 텍스트 데이터 처리 방법.
  7. 입력된 표음문자열을 표의문자를 포함하는 문자열로 변환하는 변환처리 프로그램으로부터 그 표의문자로의 변환 단위가 되는 문절 정보를 취득하는 문절 정보 취득 단계와,
    그 취득한 문절 정보를 근거로 변환후의 문자열 중의 각 문절에 포함되는 문자 코드 데이터를 특정 가능한 문절 특정 데이터를 변환후의 문자열의 텍스트 데이터 중에 삽입하는 문절 특정 데이터 삽입 단계를 포함하는 것을 특징으로 하는 텍스트 데이터 처리 프로그램.
  8. 상기 제 7항에 있어서, 상기 변환 처리 프로그램으로부터 취득한 상기 표의문자로의 변환원인 표음문자의 문자 코드 데이터를 변환후의 문자열의 후리가나 데이터로 하여서 변환후의 문자열의 문절에 대응지어서 그 변환후의 문자열의 텍스트 데이터 중에 삽입하는 후리가나 데이터 삽입 단계를 포함하는 것을 특징으로 하는 텍스트 데이터 처리 프로그램.
  9. 상기 제 7항 또는 제 8항에 있어서, 상기 변환 처리 프로그램으로부터 취득한 각 문절에 포함되는 문자열의 품사를 특정할 수 있는 품사 데이터를 해당 문절에 대응지어서 상기 텍스트 데이터 중에 삽입하는 품사 데이터 삽입 단계를 포함하는 것을 특징으로 하는 텍스트 데이터 처리 프로그램.
  10. 상기 제 7항부터 9항까지의 어느 항에 기재된 텍스트 데이터 처리 프로그램을 기록한 것을 특징으로 하는 텍스트 데이터 처리 프로그램을 기록한 기록 매체.
KR1020077009140A 2004-11-15 2005-09-08 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체 KR20070083757A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2004-00330696 2004-11-15
JP2004330696A JP2006139692A (ja) 2004-11-15 2004-11-15 テキストデータ構造、テキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
KR20070083757A true KR20070083757A (ko) 2007-08-24

Family

ID=36336330

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077009140A KR20070083757A (ko) 2004-11-15 2005-09-08 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체

Country Status (4)

Country Link
JP (1) JP2006139692A (ko)
KR (1) KR20070083757A (ko)
CN (1) CN101057234A (ko)
WO (1) WO2006051647A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2450805A4 (en) * 2009-06-26 2015-11-04 INFORMATION SEARCH, INFORMATION SEARCH PROCEDURE, INFORMATION SEARCH PROGRAM AND STORAGE MEDIUM WITH STORED SEARCH PROGRAM
CN107943763A (zh) * 2017-11-29 2018-04-20 广州迈安信息科技有限公司 一种大文本数据处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61279973A (ja) * 1985-06-06 1986-12-10 Ricoh Co Ltd 日本語処理装置
JPS638860A (ja) * 1986-06-27 1988-01-14 Matsushita Electric Ind Co Ltd かな漢字変換装置
JPH07141382A (ja) * 1993-11-19 1995-06-02 Sharp Corp 外国語文書作成支援装置

Also Published As

Publication number Publication date
JP2006139692A (ja) 2006-06-01
CN101057234A (zh) 2007-10-17
WO2006051647A1 (ja) 2006-05-18

Similar Documents

Publication Publication Date Title
US5832478A (en) Method of searching an on-line dictionary using syllables and syllable count
Buckwalter Issues in Arabic orthography and morphology analysis
US8041557B2 (en) Word translation device, translation method, and computer readable medium
US7676357B2 (en) Enhanced Chinese character/Pin Yin/English translator
KR19980080220A (ko) 언어 식별 장치, 언어 식별 방법 및 언어 식별의 프로그램을 기록한 기록매체
US7136803B2 (en) Japanese virtual dictionary
Josan et al. A Punjabi to Hindi machine transliteration system
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
KR100326936B1 (ko) 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법
JPH0344764A (ja) 機械翻訳装置
KR20070083757A (ko) 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체
Dhindsa et al. English to Hindi transliteration system using combination-based approach
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
Rabus et al. Linguistic Analysis of Church Slavonic Documents: A Mixed-Methods Approach
JP5922832B1 (ja) 文章評価装置、文章評価方法およびプログラム
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体
JP2003178087A (ja) 外国語電子辞書検索装置および方法
JP2005250525A (ja) 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム
JP4035111B2 (ja) 対訳語抽出装置、及び対訳語抽出プログラム
KR101080880B1 (ko) 외래어의 자동 음차 표기 방법 및 장치
JP2008217770A (ja) 言語データ表示システム、言語データ表示方法、及び言語データ表示プログラム
Lehal et al. A Hindi to Urdu transliteration system
JP2715875B2 (ja) 多言語要約生成装置
CN115310458A (zh) 一种人名翻译方法、系统、设备及计算机可读存储介质
JP3353873B2 (ja) 機械翻訳装置

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination