KR20010006632A - 정보 처리 시스템 - Google Patents

정보 처리 시스템 Download PDF

Info

Publication number
KR20010006632A
KR20010006632A KR1020000006634A KR20000006634A KR20010006632A KR 20010006632 A KR20010006632 A KR 20010006632A KR 1020000006634 A KR1020000006634 A KR 1020000006634A KR 20000006634 A KR20000006634 A KR 20000006634A KR 20010006632 A KR20010006632 A KR 20010006632A
Authority
KR
South Korea
Prior art keywords
character
pattern
chain
text
data
Prior art date
Application number
KR1020000006634A
Other languages
English (en)
Inventor
가타야마오사므
오야마타카마사
Original Assignee
모리시타 요이찌
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모리시타 요이찌, 마쯔시다덴기산교 가부시키가이샤 filed Critical 모리시타 요이찌
Publication of KR20010006632A publication Critical patent/KR20010006632A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 언어에서 빈번하게 발생하는 특정 문자를 관찰하는 동안 그 나라의 언어의 기술된 특성을 이용함에 의해, 즉 식별된 대상으로써 텍스트의 특정 문자의 발생률을 검출함에 의해서, 입력 텍스트의 언어를 식별하는 언어 식별 방법을 실현하는 정보 처리 시스템. 입력 텍스트의 특정 문자의 출현 횟수로부터 특정 문자의 출현율을 검출하는 특정 문자 카운터(102);검출된 목표 언어의 특정 문자의 표준 발생률을 저장하는 표준 발생률 메모리(105);입력 텍스트의 특정 문자 출현율을 검출된 목표 언어의 특정 문자의 표준 출현율과 비교하는 비교기(106)가 구비된다.

Description

정보 처리 시스템{Information Processing System}
본 발명은 문서의 언어를 식별하는 언어 식별 및 입력 텍스트를 검색/등록하는 전문 검색의 키워드 검색에 이용되고, 입력 문서에 포함된 텍스트(문자열)를 대상으로 하는 정보 처리 시스템과 관련된 것이다.
정보 검색 처리의 분야에서 문서에 기재된 텍스트(문자열)의 언어를 식별하는 위해 종래에 수행된 방법으로써, 미심사된 일본 공개 특허 평성 제 8-137886호에 기재된 바와 같이, 언어의 단어 사전을 구비해서 단어의 식별로부터 언어를 식별하는 방법; 미심사된 일본 공개 특허 평성 제 8-160929호에 기재된 바와 같이, 언어의 문자 코드의 특정 비트(여기서는 2 비트)에 의해 언어를 식별하는 방법; 및 미심사된 일본 공개 특허 평성 제 10-171810호에 기술된 바와 같이, 그 언어에 대응하는 특정 정보(도메인 명칭 등)로부터 언어를 식별하는 방법들이 있다.
또한, 정보 검색 처리의 분야에서 문서에 기재된 텍스트를 등록/검색하는 키워드 검색에서 종래에 실행된 방법으로써, 미심사된 일본 공개 특허 평성 제 8-16617호에서 기재된 것과 같이, 분리된 문자가 키워드의 처음과 끝에 추가되는 단어 테이블을 사용하는 방법이 있다.
상기에 추가적으로, 종래 기술로써, 다국어를 혼재시킨 텍스트를 효과적으로입력할 수 있는 다국어 입력 시스템은 미심사된 일본 공개 특허 평성 제 5-282360호에 개시된다. 더욱 특히, 그 시스템은 입력 텍스트를 각각의 사전을 참조해서 표시 텍스트로 변환하고, 표시 텍스트를 확정하고, 미지어(unknown words)의 수가 입력 언어로써 최소로 되거나 최소로 되는 언어를 입력 언어로 결정하거나 직전에 이용한 언어를 입력 언어로서 사용한다.
미심사된 일본 공개 특허 평성 제 7-262188호에서, 저장되거나 전송되는 문서의 언어 또는 장르를 식별하는 처리를 유형을 수행할 수 있는 언어 식별 처리 방법이 개시된다. 목표 언어의 일반적인 단어는 대상 언어/쟝르의 단어 출현 빈도 테이블에 포함되고, 단어 코드는 관련된 정규화 출현 빈도값을 갖고, 언어/쟝르는 정규화된 출현 빈도 값을 사용함에 의해 검출된다. 또한, 언어/쟝르 식별 처리는 입력 문서로부터 일련의 단어를 수신하고 그 단어를 단어 출현 빈도 테이블 내의 모든 단어들과 비교하고, 그 단어의 관련된 정규화 출현 빈도값을 관련된 누산기의 현재 합계로 가산하고, 그 후 문서의 단어를 판독함에 의해 모든 누산기로부터 누산된 합계를 언어 식별값으로서 식별하는 시스템이 개시되어 있다.
미심사된 일본 공개 특허 평성 제 10-124513호에서, 다수의 후보 언어의 각각에서 가장 빈번하게 사용되는 단어의 세트를 사용함에 의해 문서에 기술된 언어를 식별하는 언어 식별 방법 및 시스템이 기재되어 있다. 가장 빈번하게 사용되는 단어의 각 세트는 가장 빈번하게 사용되는 단어의 각 세트에서 문자 쌍에 따라서 각 후보 언어에 대한 단어 테이블의 각 세트에 저장된다. 각 단어 테이블은 NxN 비트 테이블이다. 비트는 하나의 후보 언어에서 가장 빈번하게 사용되는 단어의 하나의 특정 장소에서 주어진 문자 쌍을 나타낸다. 문서에서의 단어는 단어 테이블에 저장되어 있는 가장 빈번하게 사용되는 단어와 비교된다. 문서에서의 단어와 단어 테이블의 각 세트에 저장된 단어간에 매칭된 수는 카운트되고 개별적인 언어에 대해 유지된다. 일치되는 최대 매칭된 수를 갖는 후보 언어는 문서의 언어로서 선택된다.
그러나, 종래 기술인 위에서 설명한 방법, 예를 들면, 미심사된 일본 특허 공개 평성 제 8-137886호에서, 자동 식별은 모든 문서에서 얻어질 수 있으나, 사전은 단어를 식별하기 위해 반드시 필요하다. 미심사된 일본 특허 공개 평성 제 8-160929호에서는, 유니코드등과 같은 동일 문자 코드에 의해 JCK 통합 한자등의 다른 언어에 응답하기 어렵다. 미심사된 일본 특허 공개 평성 제 10-171810호에서는, 식별이 클라이언트 단위로 수행되는 문제가 있다.
종래 기술로 상기에서 설명된 방법(예를 들어, JP8-16617)에서, 단어 테이블 파일이 원래의 문서 검색에서 사용된 색인과 분리해서 작성되어야 하는 문제점이 있다.
종래 기술인 위에서 설명된 방법에서(즉, JP 5-282360), 같은 문자 코드가 텍스트에서 출현한다면, 문자 코드가 어느 언어에 속하는지를 결정하기가 어렵다는 문제점이 있다. 또한, 언어를 식별하기 위해 사용되는 사전이 이전에 준비되어야 하기 때문에, 미지의 용어에 대해 언어를 식별하는 것이 불가능하다는 문제점이 있다. 또한, 이미 공지된 용어, 예를 들면 일본어의 경우에 "인식"등은 유사한 용어는 사전 데이터로써 사전에 포함되어 있기 때문에 단어로써 인식될 수 있으나, 사전에 포함되어 있지 않으나 일상의 문장에서 보여지는 단어는 종래의 구성에 따라서 사전에 포함되어 있지 않기 때문에 식별할 수 없다는 문제가 있다. 더욱이. 단어를 삭제하기 위한 규칙이 식별된 언어마다 준비되어야 하기 때문에, 특정 언어에 적용되는 규칙이 존재하는 경우에, 처리를 할 수 있다는 것이 문제로 된다.
본 발명은 종래 기술로 상기 언급한 문제점들을 극복하기 위한 것이다. 첫째로, 본 발명의 목적은 그 국가의 언어의 기술적인 특성을 사용함에 의해, 즉, 그 언어에서 빈번하게 출현되는 특정 문자(예를 들면, 한국어의 공백문자)또는 특정 범위의 문자(예를 들면, 일본어에서 "히라가나", "한자")를 주목하는 동안 텍스트의 특정 문자 출현율을 식별 대상으로서 검출하고, 또는 특정 문자들 간의 텍스트 길이의 평균을 검출하고, 또는 특정 범위 문자의 출현율을 검출하는 것에 의해 어떤 언어에서 기술된 입력 텍스트의 언어를 식별하는 것이다.
두 번째로, 본 발명의 다른 목적은 문서 검색에 의해 작성된 색인으로서, 2 문자 연쇄를 사용하는 검색 시스템을 사용하고, 키워드의 시작과 끝에 분리 문자를 삽입게 하는 입력 텍스트에서 등록시에 작성된 색인에 분리 문자의 정보를 추가함으로써 키워드 검색을 가능하게 한다는 것이다.
세 번째로, 본 발명의 또 다른목적은 주어진 텍스트로부터 어떤 언어에 속하는지를 자동적으로 식별할 수 있는 정보 처리 시스템을 제공하는 것이고, 특히 언어, 또는 코드로써 결정된 텍스트의 상태 특성하의 그룹 형태를 자동으로 식별할 수 있는 정보 처리 시스템을 제공하기 위한 것이고 특히, 그 특성은 폰트(fonts)등을 예로하는 문자 패턴의 형상에 의해 분류된다.
도 1은 본 발명의 제 1 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시하는 블록 다이어그램이다.
도 2는 본 발명에 따라, 문자 코드 언어 식별의 제 1 방법을 도시하는 개념도.
도 3은 본 발명의 제 2 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시하는 블록 다이어그램.
도 4는 본 발명에 따라, 문자 코드 언어 식별의 제 2 방법을 도시하는 개념도.
도 5는 본 발명의 제 3 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시하는 블록 다이어그램.
도 6은 본 발명에 따라, 문자 코드 언어 식별의 제 3 방법을 도시하는 개념도.
도 7은 본 발명의 제 4 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시하는 블록 다이어그램.
도 8은 본 발명에 따라, 키워드를 검색하는 제 4 방법을 도시하는 개념도.
도 9는 본 발명의 제 5 방법의 실시예에 따라, 코드 테이블 도시도.
도 10은 본 발명의 제 5 방법의 실시예에 따라, 패턴 저장 장치의 구성도.
도 11은 본 발명의 제 5 방법의 실시예에 따라, 텍스트를 식별 대상으로 도시하는 개념도.
도 12는 본 발명의 제 5 방법의 실시예에 따라, 패턴 식별 중의 데이터 구조도.
도 13은 본 발명의 제 5 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시하는 블록 다이어그램.
도 14는 본 발명의 제 6 방법의 실시예에 따라, 샘플 데이터를 도시하는 개념도.
도 15는 본 발명의 제 6 방법의 실시예에 따라, 문자 연쇄 출현율을 도시하는 설명도.
도 16은 본 발명의 제 6 방법의 실시예에 따라, 빈도 메모리의 데이터 구조 및 데이터의 개념도.
도 17은 본 발명의 제 6 방법의 실시예에 따라, 시험 텍스트를 도시하는 개념도.
도 18은 본 발명의 제 6 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시하는 블록 다이어그램.
도 19는 본 발명의 제 7 방법의 실시예에 따라, 샘플 데이터를 도시하는 개념도.
도 20은 본 발명의 제 7 방법의 실시예에 따라, 연쇄 변환된 데이터를 도시하는 개념도.
도 21은 본 발명의 제 7 방법의 실시예에 따라, 빈도 메모리의 데이터 구조 및 데이터의 도시하는 개념도.
도 22는 본 발명의 제 7 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시하는 블록 다이어그램.
도 23은 본 발명의 제 8 방법의 실시예에 따라, 코드 테이블을 도시하는 개념도.
도 24는 본 발명의 제 8 방법의 실시예에 따라, 문자 연쇄 데이터를 도시하는 개념도.
도 25는 본 발명의 제 8 방법의 실시예에 따라, 문자 연쇄 대조시의 문자 연쇄 데이터를 도시하는 개념도.
도 26은 본 발명의 제 8 방법의 실시예에 따라, 빈도 메모리의 데이터 구조및 데이터를 도시하는 개념도.
도 27은 본 발명의 제 8 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시하는 블록 다이어그램.
도 28은 본 발명의 제 9 방법의 실시예에 따라, 개별 문자 세트 코드 테이블 메모리의 구성도.
도 29는 본 발명의 제 9 방법의 실시예에 따라, 개별 언어 분포 테이블 메모리의 구성도.
도 30은 본 발명의 제 9 방법의 실시예에 따라, 입력 텍스트 데이터를 도시하는 개념도.
도 31은 본 발명의 제 9 방법의 실시예에 따라, 거리 판정을 계산하는 방법을 도시하는 설명도.
도 32는 본 발명의 제 9 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시하는 블록 다이어그램.
(도면의 주요 부분에 대한 부호의 설명)
101 : 특정 문자 식별기
102 : 특정 문자 카운터
103 : 입력 문자 카운터
104 : 출현율 발생기
105 : 표준 출현율 메모리
106 : 비교기
107 : 텍스트 종료 검출기
301 : 특정 문자 구분기
302 : 텍스트 길이 카운터
303 : 가산기
304 : 특정 문자 카운터
305 : 평균 텍스트 길이 계산기
306 : 표준 텍스트 길이 메모리
307 : 비교기
308 : 텍스트 종료 검출기
501 : 특정 범위 문자 식별기
502 : 특정 범위 문자 카운터
503 : 입력 문자 카운터
504 : 출현율 계산기
505 : 표준 출현율 메모리
506 : 비교기
507 : 텍스트 종료 검출기
701 : 텍스트 변환기
702 : 분리 문자 검출기
703 : 2개 문자 연쇄 발생기
704 : 분리 문자 연쇄 변환기
705 : 2개 문자 연쇄 메모리
706 : 텍스트 변환기
707 : 2개 문자 연쇄 검출기
708 : 비교기
709 : 제어부
901 : A 그룹의 패턴 코드
902 : B 그룹의 패턴 코드
903 : C 그룹의 패턴 코드
1101 : 문자열 데이터
1301 : 문자 연쇄 추출기
1302 : 패턴 계산기
1303 : 코드 테이블
1304 : 패턴 식별기
1305 : 패턴 메모리
1401 : 샘플 데이터(중국어)
1402 : 2개 문자 연쇄
1403 : 2개 문자 연쇄
1403 : 2개 문자 연쇄
1404 : 2개 문자 연쇄
1405 : 2개 문자 연쇄
1406 : 샘플 데이터(일본어)
1407 : 2개 문자 연쇄
1408 : 2개 문자 연쇄
1410 : 2 문자 연쇄
1411 : 2개 문자 연쇄
1412 : 샘플 데이터(일본어)
1501 : 출현 패턴
1502 : 출현 패턴
1503 : 출현 패턴
1504 : 출현 패턴
1505 : 출현 패턴
1506 : 출현 패턴
1507 : 출현 패턴
1508 : 출현 패턴
1509 : 출현 패턴
1701 : 시험 패턴
1702 : 2개 문자 연쇄
1703 : 2개 문자 연쇄
1704 : 2개 문자 연쇄
1705 : 2 문자 연쇄
1706 : 2개 문자 연쇄
1901 : 샘플 패턴(중국어)
1902 : 2개 문자 연쇄
1903 : 2개 문자 연쇄
1904 : 2개 문자 연쇄
1905 : 2개 문자 연쇄
1906 : 샘플 패턴(일본어)
1907 : 2개 문자 연쇄
1908: 1 문자
1909 : 1 문자
1910 : 1 문자
1911 : 2개 문자 연쇄
2301 : A 그룹의 패턴 코드
2302 : B 그룹의 패턴 코드
2401 : 문자 연쇄 패턴
2402 : 문자 연쇄 패턴
2403 : 문자 연쇄 패턴
2404 : 문자 연쇄 패턴
2405 : 문자 연쇄 패턴
2406 : 문자 연쇄 패턴
2407 : 문자 연쇄 패턴
2801 : 히라가나/카타카나용 코드(통합 코드)
2802 : 한자 코드(통합 코드)
2803 : 기호 코드(통합 코드)
2804 : 한글 코드(통합 코드)
2805 : 히라가나/카타카나 일본어 로컬 코드
2806 : 히라가나/카타카나 중국어 로컬 코드
2807 : 히라가나/카타카나 한글 로컬 코드
2808 : 한글 로컬 코드
2809 : 기호 로컬 코드
상기 과제를 극복하기 위해서, 본 발명에 따라서, 첫 번째로, 입력 텍스트의 특정 문자의 출현 수로부터 특정 문자의 출현율을 검출하기 위한 수단, 검출된 목표 언어의 특정 문자의 표준 출현율을 저장하는 수단, 검출된 목표 언어의 특정 문자의 표준 출현율과 입력 텍스트의 특정 문자의 출현율을 비교하는 수단이 정보 처리 시스템에 제공된다. 두 번째로, 입력 텍스트의 특정 문자들간의 비특정 텍스트의 평균적인 텍스트 길이를 검출하는 수단, 검출된 목표 언어의 비특정 문자의 표준 평균 텍스트 길이를 저장하는 수단, 그 검출된 목표 언어의 비특정 문자의 표준 평균 텍스트 길이와 입력 텍스트의 비특정 문자의 표준적인 텍스트 길이를 비교하는 수단이 정보 처리 시스템에 제공된다. 세 번째로, 입력 텍스트의 특정 범위에서 문자의 출현 횟수로부터 특정 범위에서 문자의 출현율을 검출하는 수단, 검출된 목표 언어의 특정 범위에서 표준 문자의 출현율을 저장하는 수단, 검출된 목표 언어의 특정 범위 문자의 표준 출현율을 입력 텍스트의 특정 범위 문자의 출현율과 비교하는 수단이 정보 처리 시스템에 제공된다. 그러므로, 입력 텍스트의 목표 언어가 출현율 계산기로부터 추출된 입력 텍스트의 특정 문자의 출현율을 표준 출현율 메모리로부터 추출된 표준 출현율과 비교함에 의해 식별될 수 있어서 입력 텍스트가 목표 언어와 짝짓는 특성을 갖는 텍스트에 대응하는지를 결정하는 바와 같은 장점을 이루게 할 수 있다.
또한, 본 발명에 따라서, 네 번째로 키워드 검색에서 분리 문자를 라이브러리 텍스트로 삽입하는 수단, 분리 문자가 삽입된 텍스트에서 분리 문자가 있을 경우에는 분리 문자가 중간에 놓여지는 3개 문자 연쇄를 검출하는 수단, 그 문자 전후에 위치된 문자로 구성되는 문자 연쇄와 그 분리 문자 및 그 분리 문자 앞에 위치된 문자로 구성되는 문자 연쇄와, 그 분리 문자 및 분리 문자 뒤에 위치된 문자로 구성되는 문자 연쇄를 발생시키는 수단; 검색시에 입력 텍스트의 시작 또는 끝 또는 입력 텍스트의 시작 및 끝으로 분리 문자를 삽입하는 수단이 제공된다. 그러므로, 키워드 이외의 텍스트를 사용함에 의해 검색이 배제될 수 있는 장점이 이루어질 수 있다.
또한, 본 발명에 따라서, 다섯 번째로, 텍스트 데이터가 포함된 미리 결정된 수 종류의 언어 중 어떤 언어에 포함하는지를 패턴 식별하는 정보 처리 시스템에서, 패턴 식별에 사용되는 부호화된 문자가 다수의 1 차원 코드 그룹으로 코드 테이블로서 분류된 문자 코드에 대해 문자 코드 그룹의 결합에 의해 패턴 그룹을 구성하는 프로그램을 기록하는 저장 매체로서, n 문자 결합으로 이루어지고 결합을 구성하는 코드를 다수의 문자 그룹의 일부에 포함하는 다수의 문자 그룹으로 구성되는 제 1 데이터와, 그 제 1 데이터의 결합 패턴에 대응하는 수치를 갖는 제 2 데이터와, 그 제 1 및 제 2 데이터의 결합으로부터 미리 설정된 저장하는 저장 수단을 갖는 저장 매체가 구비된다. 또한, 텍스트로부터 문자 연쇄를 검출하고, 2 문자연쇄를 구성하는 문자를 포함한 문자 그룹을 결정하는 문자 연쇄 추출 수단; 그 문자연쇄 추출 수단에 의해 결정된 문자 그룹의 결합이 패턴 저장 수단에서 패턴과 일치하는 지를 비교하고 일치하는 패턴의 수치를 계산하는 패턴 계산 수단, 및 모든 문자의 최대 개수를 갖는 패턴 및 패턴 저장 수단에 저장된 제 1 데이터와, 제 2 데이터, 또는 제 3 데이터의 개수와 일치하는 그 조합 패턴을 패턴 저장수단의 패턴으로 조합으로서 결정하는 패턴 결정 수단이 제공된다. 더욱이, 모든 문자 연쇄에 대해 패턴 계산 수단에 의해 계산된 수치의 평균값을 계산하고 패턴 저장수단의 제 2 데이터에 최 근접한 값을 패턴 저장 수단의 패턴 조합으로써 결정하는 패턴 결정 수단, 또는 모든 문자 연쇄에 대해 계산된 수치의 최대 빈도 값을 계산하고, 패턴 저장수단의 제 2 데이터 값에 최 근접한 값을 패턴 저장 수단의 패턴 조합으로써 패턴 결정 수단이 제공된다. 그러므로, 데이터가 속해 있어야 하는 패턴이 문자 세트와 같은 모든 패턴에 배정되는 패턴의 세트로부터 자동적으로 결정될 수 있고, 패턴들은 여러 형태의 의미 패턴 그룹으로 분류되고 다수의 의미 그룹은 패턴 그룹의 조합에 의해 표현된다는 장점을 이루게 된다.
또한, 본 발명에 따라서, 여섯 번째로, 패턴 식별에 사용되는 패턴 그룹의 조합으로 이루어지는 패턴 그룹을 구성하고, 이전에 공지된 패턴 그룹에 대해 2 개 문자 조합 패턴으로 이루어지는 제 1 데이터, 제 1 데이터를 표시하는 패턴 형태를 이루어지는 제 2 데이터, 및 제 1 데이터와 제 2 데이터의 조합의 출현 횟수를 도시하는 제 3 데이터를 저장하는 저장 매체, 저장 매체로부터 패턴 형태를 이전에 저장되게 하는 패턴 데이터의 모든 2개 문자 연쇄를 추출하는 문자 연쇄 추출 수단, 각 문자 연쇄가 출현 횟수를 계산하고, 문자 연쇄 패턴과 출현 횟수를 패턴 형태마다 저장 매체에 저장하는 문자 연쇄 빈도 계수 수단, 설정된 패턴으로부터 2개 문자 연쇄를 추출하는 상기 문자 연쇄 추출 수단, 그 추출된 문자 연쇄에 대응하는 문자 연쇄 패턴의 출현 수를 패턴 형태마다 저장 매체로부터 추출하는 빈도 카운팅 수단, 및 빈도 카운팅 수단으로부터 추출된 출현 수와 모든 추출된 문자 연쇄를 대조하고, 및 그 후 패턴을 포함하는 패턴 형태로서 결정하는 최대 출현 횟수를 갖는 패턴 형태가 설정된 대조 수단이 제공된다. 이 경우에, 대조 수단은 출현 횟수가 패턴을 포함하는 패턴 형태로서 결정하거나, 소정의 임계값을 초과하는 패턴 형태를 설정된 출현 수가 모든 문자 연쇄에 대해 소정의 임계값을 초과하는 문자 연쇄 패턴의 최대 출현 빈도를 갖는 패턴 형태를 설정된 패턴을 포함하는 패턴 형태로서 결정한다. 시험 데이터가 속하는 패턴이 자동 결정될 수 있고, 문자 형태, 폰트 등의 코드화되지 않으면, 패턴이 분류될 수 있고, 또한 패턴이 언어마다 사전을 준비함이 없이 분류될 수 있는 장점을 이루게 한다.
그러므로, 본 발명에 따라서, 일곱 번째로, 패턴 식별에 사용되는 패턴 그룹의 조합으로 이루는 패턴 그룹을 구성하는 저장 매체에서 이전에 패턴 형태를 배정시킨 패턴 데이터로부터 모든 문자 연쇄가 추출될 때, 문자 형태 또는 적어도 1개의 언어를 단어로 분리하는 분리 수단, 분리 수단으로부터 문자 연쇄를 추출하는 문자 추출 수단, 문자 연쇄가 1개의 문자로 구성되면 문자 연쇄를 형성하도록 같은 문자를 반복하는 연쇄 변환 수단, 상기 문자 연쇄 빈도 카운팅 수단, 문자 연쇄 추출 수단, 및 상기 빈도 카운팅 수단이 제공된다. 그러므로, 이러한 이점은 시험 데이터가 속하는 패턴이 자동적으로 결정될 수 있는 장점을 이루게 하고, 만약 문자 형태들, 폰트등이 코드화되지 않는다면, 패턴은 분류될 수 있고, 추가적으로 패턴은 각 언어에 대해 모든 규칙의 준비 없이 분류될 수 있다는 장점을 이루게 한다.
또한, 본 발명에 따라서, 여덟 번째로, 패턴 분류 또는 언어마다 2개 문자 조합으로 구성되는 문자 연쇄 패턴 및 텍스트 데이터의 문자 연쇄 패턴의 문서 번호를 저장하는 패턴 저장 수단이 패턴 식별에 사용되는 문자 코드 그룹의 조합으로 이루어지는 패턴 그룹을 구성하는 저장 매체에 제공된다. 또한, 텍스트 데이터이 모든 2개 문자 연쇄를 추출하는 문자 연쇄 추출 수단, 패턴 형태마다 문자 연쇄 패턴 및 문서 번호를 계산하는 문자 연쇄, 빈도 카운팅 수단, 및 문자 연쇄 빈도 카운팅 수단에 의해 얻어진 문자 연쇄 패턴 및 저장 매체의 문자 연쇄 패턴의 빈도를 패턴 분류마다 꺼내고 문자 연쇄 패턴 및 각 패턴 분류에 대해 문자 연쇄 패턴의 빈도의 총값과 비교하고, 문자 연쇄 패턴, 발생수, 및 문서 번호를 큰 패턴 분류를 가지는 저장 매체의 패턴 분류로 저장하는 문자 비교 수단이 제공된다. 이경우에 문자 빈도 비교 수단은 발생수가 소정의 임계값을 초과하는 패턴 형태를 설정된 패턴을 포함하는 패턴 형태로서 결정하거나 문자 빈도 비교 수단은 발생수가 모든 문자 연쇄를 통해 소정의 임계값을 초과하는 문자 연쇄 패턴의 최대 총 출현 횟수를 갖는 패턴 형태를 설정된 패턴을 포함하는 패턴 형태로서 결정한다. 그러므로, 시험 데이터가 속하는 패턴이 자동적으로 결정될 수 있고, 및 문자 타입, 폰트등의 코드화되지 않는다면, 패턴은 분류될 수 있다는 장점을 이룰 수 있다.
또한, 본 발명에 따라서, 아홉 번째로 텍스트 데이터가 문자 폰트마다 문자 코드를 결정하는 몇 개의 설정된 언어 카테고리중 어떤 언어에 포함되는지를 한번에 패턴 식별하는 정보 처리 시스템에서, 패턴 식별에 사용되는 문자 코드 그룹의 조합으로 이루어지는 패턴 그룹을 구성하고 제 1 문자의 발생율이 한자, 히라가나/카타카나, 기호, 한글, 및 다른 문자들의 문자 형태마다 저장되는 개별 언어 분포 테이블에 언어마다 문자를 구성하는 2개 문자 조합을 저장하는 저장 매체, 통합 코드 또는 로컬 코드를 사용된 문자 코드 시스템으로써 판독하는 개별 코드 지정 수단, 입력 텍스트 데이터로부터 모든 2개 문자 연쇄를 추출하는 자 연쇄 추출 수단, 매 언어마다 지정된 코드 시스템에 따라 한자, 히라가나/카타카나, 기호, 한글, 및 기타 2개 문자 연쇄를 분류하고, 그 후 그들의 출현율을 각기 계산하는 출현 횟수 카운팅 수단, 지정 코드 시스템에 따라 언어마다 한자, 히라가나/카타카나, 기호, 한글 언어의 출현율과 저장 수단에 의해 관리된 한자, 히라가나/카타카나, 기호, 한글 매 언어의 출현율 사이의 총 거리를 계산하는 개별 언어 분포간 거리 계산 수단, 개별 언어 분포간 거리 계산 수단으로 하여금 최소거리값을 계산하게 하고, 그후 최소 거리 한자, 히라가나, 기호 등의 출현 분포 간의 값을 갖는 언어 카테고리를 입력 텍스트의 언어로서 결정하는 비교 수단이 구비된다.
이하, 본 발명의 바람직한 실시예를 명세서에 첨부된 도면을 참조하여 보다 상세하게 설명한다.
본 발명의 실시예는 하에서 첨부 도면을 참조로 설명된다.
(실시예 1)
도 1 은 본 발명의 제 1 방법 실시예에 따라 문자 코드 언어 식별 시스템의 구성을 도시한다.
도 1에서, 도면 부호(101)는 입력 텍스트(문자열)에서 문자가 검출된 목표 언어의 특정 문자에 대응하는지를 식별하는 특정 문자 식별기; 도면 부호(102)는 그 특정 문자 식별기에 의해 식별되는 특정 문자의 출현 횟수를 카운팅하는 특정 문자 카운터; 도면 부호(103)는 입력 텍스트의 모든 문자의 출현을 카운트하는 입력 문자 카운터; 도면 부호(104)는 특정 문자 카운터(102)에 의해 카운트된 특정 문자의 출현 횟수 및 입력 문자 카운터(103)에 의해 카운트된 입력 텍스트의 문자수로부터 특정 문자의 출현율을 계산하는 출현율 계산기; 도면 부호(105)는 검출된 목표 언어의 특정 문자의 표준 출현율을 저장하는 표준 출현율 메모리; 도면 부호(106)는 표준 출현율 메모리(105)에 저장된 표준 출현율과 출현율 계산기(104)에 의해 검출된 출현율을 비교하는 비교기; 및 도면 부호(107)는 입력 텍스트의 끝을 검출하는 텍스트 종료 검출기를 나타낸다.
도 2는 본 발명에 따라, 문자 코드 언어 식별의 제 1 방법의 개념을 도시한다.
도 2에서, 도면 부호 (201)는 언어 식별되는 입력 텍스트를 나타내고, 도면 부호(202)는 입력 텍스트에서 발생된 특정 문자를 나타낸다. 본 발명의 제 1 방법에서, 목표 언어는 입력 텍스트에서 특정 문자의 출현율을 검출함에 의해 검출된다. 입력 텍스트(201)의 문자의 총수가 m이고 특정 문자(202)의 출현 횟수가 n이라고 가정하면, 입력 텍스트(201)에서 특정 문자의 출현율(k)이 n/m으로 주어진다. 목표 언어에서 특정 문자의 출현율이 최소 a이고 최대 b라고 가정하면, 그 때 본 발명의 제 1 방법에서 입력 텍스트(201)의 특정 문자의 출현율(k)이 akb라면 입력 텍스트가 목표 언어에 대응하는 것으로 결정한다. 이상에 의해, 텍스트의 언어 식별이 이루어질 수 있다.
본 발명은 특히 한국어가 한국어와 같이 특정 문자(202)로서, "공간 문자"를 지정함에 의해 입력 텍스트의 한국어의 식별을 행할 때 효과적이다. 이 경우에, a=0.14, b=0.23은 120,000 문자로 구성되는 한국어 신문 기사 데이터의 통계 데이터로부터 적용될 수 있다. 이 방법에 따라서, 한국어의 한글로 기술되는 문서는 다른 언어 예를 들면, 일본어로 기술된 문서와 식별될 수 있다.
상기 설명했듯이, 텍스트의 종료가 텍스트의 종료 검출기(107)에 의해 검출될 때, 입력 텍스트의 목표 언어는 출현율 계산기(104)로부터 추출된 입력 텍스트 특정 문자의 출현율과 표준 출현율 메모리(105)로부터 추출된 표준 출현율을 비교함에 의해 식별될 수 있어서 입력 텍스트가 목표 언어에 일치하는 특성을 갖는 텍스트에 대응한다.
(실시예 2)
도 3은 본 발명의 제 2 방법의 실시예에 따라, 문자 코드 언어 식별 시스템의 구성을 도시한다.
도 3에서, 도면 부호(301)는 입력 텍스트에서 문자가 검출된 목표 언어의 특정 문자에 대응하는지를 식별하는 특정 문자 식별기; 도면 부호(302)는 특정 문자 식별기(301)에 의해 식별되지 않는 비특정 문자의 연속적인 출연 횟수를 카운팅하는 텍스트 길이 카운터; 도면 부호(303)는 텍스트 길이 카운터(302)로부터 출력된 텍스트 길이 총합을 카운팅하는 가산기; 도면 부호(304)는 특정 문자 식별기(301)에 의해 식별되는 특정 문자의 출현 횟수를 카운팅하는 특정 문자 카운터; 도면 부호(305)는 가산기(303)에 의해 계산된 텍스트 길이의 총합을 특정 문자 카운터(304)로부터 추출된 특정 문자의 수로 나눔에 의해 평균 텍스트 길이를 계산하는 평균 텍스트 길이 계산기; 도면 부호(306)는 검출된 목표 언어의 평균 텍스트 길이를 저장하는 표준 텍스트 길이 메모리; 도면 부호(307)는 표준 텍스트 길이 메모리(306)에 저장된 표준 평균 텍스트 길이와 평균 텍스트 길이 계산기(305)에 의해 얻어진 평균 텍스트 길이를 비교하는 비교기; 도면 부호(308)는 입력 텍스트의 종료를 검출하는 텍스트 종료 검출기를 나타낸다.
도 4는 본 발명에 따라, 문자 코드 언어 식별의 제 2 방법의 개념을 도시한다.
도 4에서, 도면 부호(401)는 언어 식별되는 입력 텍스트; 도면 부호(402)는 입력 텍스트에서 출현된 특정 문자를 나타내고 도면 부호(411,412, 41n)는 특정 문자에 의해 분리된 비특정 문자의 텍스트(비특정 텍스트)이다. 본 발명의 제 2 방법에서, 목표 언어는 특정 문자(402)로 입력 텍스트(401)를 분리함에 의해 설정되는 비특정 텍스트(411, 412, 41n)의 평균 길이를 검출함에 의해 식별된다. 입력 텍스트(401)의 비특정 문자가 n-1개의 특정 문자에 의해 분리되어 입력 텍스트가 n개의 비특정 텍스트로 구성되고, 그 때에 비특정 텍스트 길이가 a1, a2, a3,...., an 이라고 가정하면, 입력 텍스트(401)에서 비특정 텍스트의 평균 텍스트 길이(k)는 (a1+a2+a3,...,an)/n으로 설정된다. 목표 언어에서 특정 문자에 의해 분리된 비특정 문자의 평균 텍스트 길이가 최소 a이고 최대 b라고 가정하면, 그 때에 본 발명의 제 2 방법에 따른 식별 방법에서 입력 텍스트(401)가 비특정 문자의 평균 텍스트 길이(k)가 akb라면 입력 텍스트(401)가 목표 언어에 대응하는 것으로 결정한다. 이상에 의해 텍스트의 언어 식별이 이루어질 수 있다.
본 방법에 따라서, 입력 텍스트의 한국어는 예를 들면 한국어의 특정 문자(402)로 "공간 문자"를 지정함에 의해 식별될 수 있다. 이 경우에, a=3, b=5는 120,000개 문자로 구성되는 한국어의 신문 기사 데이터의 통계 데이터로부터 적용될 수 있다.
또한, 예를 들면, 일본어와 중국어 사이의 식별에서, 입력 텍스트의 언어는 특정 문자(402)로써 "´"(중국어의 경우에 "、")," 的", 및 "。"를 지정함에 의해 식별될 수 있다. 이 경우에, a=10, b=22는 54,000 문자로 구성되는 일본어 신문 기사 데이터의 통계 데이터로부터 적용되고, 또한 a=4, b=9는 84,000 문자로 구성되는 중국어 법령 문서의 통계 데이터로부터 적용될 수 있다. 이 방법에 따라서, 상기 평균 텍스트 길이를 비교함으로써, 입력 텍스트의 기술적인 언어가 일본어 또는 중국어인지를 쉽게 식별할 수 있다.
상기 설명했듯이, 텍스트의 종료가 텍스트의 종료 검출기(308)에 의해 검출될 때, 입력 텍스트의 목표 언어는 입력 텍스트가 목표 언어에 해당하는 특성을 갖는 텍스트인 지를 결정하도록 평균 텍스트 길이 계산기(305)로부터 추출된 입력 텍스트의 평균 텍스트 길이와 표준 텍스트 길이 메모리(306)로부터 추출된 표준 텍스트 길이를 비교함에 의해 식별될 수 있다.
(실시예 3)
도 5는 본 발명의 제 3 방법의 실시예에 따라, 문자 코드 언어 식별 시스템의 구성을 도시한다.
도 5에서, 도면 부호(501)는 입력 텍스트의 문자가 검출된 목표 언어의 특정 범위 문자에 대응하는지를 식별하는 특정 범위 문자 식별기; 도면 부호(502)는 그 특정 범위 문자 식별기에 의해 식별된 특정 범위 문자의 출현 횟수를 카운팅하는 특정 범위 문자 카운터; 도면 부호(503)는 입력 텍스트의 모든 문자 코드의 출현을 카운트하는 입력 문자 카운터; 도면 부호(504)는 특정 범위 문자 카운터(502)에 의해 카운트된 특정 범위 문자 출현 횟수와 입력 문자 카운터(503)에 의해 카운트된 입력 텍스트의 문자수로부터 특정 범위 문자의 출현율을 계산하는 출현율 계산기; 도면 부호(505)는 검출된 목표 언어의 특정 범위 문자의 표준 출현율을 저장하는 표준 출현율 메모리; 도면 부호(506)는 표준 출현율 메모리(505)에 저장된 표준 출현율과 출현율 계산기(504)로부터 추출된 출현율을 비교하는 비교기; 및 도면 부호(507)는 입력 텍스트의 종료를 검출하는 텍스트 종료 검출기를 나타낸다.
도 6은 본 발명의 문자 코드 언어 식별의 제 3 방법의 개념을 도시한다.
도 6에서, 도면 부호(601)는 언어 식별되는 입력 텍스트; 도면 부호(602)는 입력 텍스트에서 출현된 특정 범위 문자의 문자 코드 범위; 및 도면 부호(611, 612, 613)는 범위(602)에 포함된 특정 범위 문자를 나타낸다. 본 발명의 제 3 방법에서, 목표 언어는 입력 텍스트의 특정 범위 문자의 출현율을 검출함에 의해 식별된다. 입력 텍스트(601)의 총 문자수가 m이고, 특정 범위에 포함된 문자의 출현 횟수가 n이라고 가정하면, 입력 텍스트(601)의 특정 범위에서 문자의 출현율(k)은 n/m이다. 목표 언어에 의해 특정 범위 문자의 출현율이 최소로 a이고, 최대로 b라고 가정하면, 본 발명의 제 3 방법에 따른 식별 방법에서 입력 텍스트(601)의 특정 범위 문자의 출현율(k)이 akb 인 경우에 입력 텍스트(601)가, 목표 언어에 대응하는 시간을 결정한다. 이상에 의해, 텍스트의 언어 식별이 이루어질 수 있다.
본 방법에 따라서, 입력 텍스트의 일본어는 예를 들면, 일본어의 특정 범위 문자의 범위(602)로써 "히라가나" 또는 "한자"를 지정함에 의해 식별될 수 있다. 이 때에, "히라가나"의 a=0.1, b=0.5와 "한자"의 a=0.2, b=0.6이 54000개 문자로 구성되는 일본 신문 기사 데이터의 통계 데이터로부터 적용될 수 있다. 상기 방법에 따라서, 입력 텍스트의 기술적인 언어가 일본어인지를 쉽게 식별할 수 있다.
위에서 기술한 바로써, 텍스트의 끝이 텍스트 끝 검출기(507)에 의해 검출될 때, 입력 텍스트에서 목표 언어가 입력 텍스트가 목표 언어와 일치하는 특성을 가지는 텍스트에 대응하는 지를 결정하기 위해 출현율 계산기(504)로부터 추출된 입력 텍스트의 특정 범위에서 문자의 출현율과 표준 출현율 메모리(505)로부터 추출된 표준 출현율을 비교함에 의해 식별될 수 있다.
(실시예 4)
도 8은 본 발명에 따라, 키워드를 검색하는 제 4 방법의 개념을 도시한다. 도 8에서, 도면 부호(801)는 등록 시에 입력되는 텍스트 "いろはに"를 나타내고; 도면 부호(811,812,813)는 각각의 키워드를 나타내고; 도면 부호(802)는 입력 텍스트(801)의 키워드(811, 812, 813) 간의 경계에 분리 문자 "a"가 삽입된 분리 문자 삽입 텍스트를 나타내고; 도면 부호(803)는 그 분리 문자 삽입 텍스트(802)로 최초 등록된 2개 문자 연쇄 "aい"를 나타내고; 도면 부호(804)는 도면 부호(803) 후에 출현되는 2개 문자 연쇄 "いろ"를 나타내고; 도면 부호(805)는 분리된 문자 "a"를 중간에 삽입시킨 3개 문자열 "ろaは"로부터 발생된 분리 문자를 포함하는 2개 문자 연쇄 "ろa"를 나타내고; 도면 부호(806)는 3개 문자열 "ろaは"의 분리 문자를 포함하는 2개 문자 연쇄 "aは"를 나타내고; 도면 부호(807)는 3개 문자열 "ろaは"에서 분리 문자를 뛰어 넘어서 분리 문자를 포함하지 않는 2개 문자 연쇄 "ろは"를 나타내고; 도면 부호(808)는 도면 부호(807) 다음에 출현된 2개 문자 연쇄 "はに"를 나타내고; 및 도면 부호(809)는 도면 부호(808)후에 발생된 2개 문자 연쇄 "にa"를 나타낸다.
또한, 도 8에서, 2개 문자 연쇄(803)는 "a"와 "い"의 출현 횟수 n, n1을 저장하고; 2개 문자 연쇄(804)는 "い"와 "ろ"의 출현 횟수 n1, n2를 저장하고; 2개 문자 연쇄(805)는 "ろ"와 "a"의 출현 횟수 n3, n을 저장하고; 2개 문자 연쇄(806)는 "a"와 "は"의 출현 횟수 n, n3를 저장하고; 2개 문자 연쇄(807)는 "ろ"와 "は"의 출현 횟수 n2, n3을 저장하고; 2개 문자 연쇄(808)는 "は"와 "に"의 출현 횟수 n3,n4를 저장하고; 및 2개 문자 연쇄(809)는 "に"와 "a"의 출현 횟수 n4, n을 저장한다.
추가적으로, 도 8에서, 도면 부호(821)는 검색시 텍스트 "いろはに"를 나타내고; 도면 부호(822)는 검색된 텍스트(821)를 키워드로써 사용함에 의해 완전 일치 검색을 수행토록 도면 부호(821)의 처음과 끝에 분리 문자 "a"를 삽입시킨 검색된 텍스트를 나타내고; 도면 부호(823)는 검색된 텍스트(822)에서 처음에 검색된 2개 문자 연쇄 "aい"를 나타내고; 도면 부호(824)는 도면 부호(823) 후에 출현된 2개 문자 연쇄 "いろ"를 나타내고; 도면 부호(825)는 도면 부호(824) 후에 출현된 2개 문자 연쇄 "ろに"를 나타내고; 도면 부호(826)는 도면 부호(825) 후에 출현된 2개 문자 연쇄 "はに"를 나타내고; 및 도면 부호(827)는 도면 부호(826) 후에 출현된 2개 문자 연쇄 "にa"를 나타낸다.
도 7은 본 발명의 제 4 방법의 실시예에 따른, 텍스트 검색 방법에서, 정보 처리 시스템의 구성을 도시한다.
도 7 및 8에서, 도면 부호(701)는 라이브러리 텍스트(801)의 키워드간의 경계로 특정 분리 문자 "a"를 삽입하는 텍스트 변환기를 나타내고; 도면 부호(702)는 텍스트 변환기(701)로부터 출력되고 분리 문자를 삽입시킨 라이브러리 텍스트(802)로부터 분리 문자를 검출하는 분리 문자 검출기를 나타내고; 도면 부호(703)는 어느 분리 문자가 텍스트(802)로부터 발견되지 않을 때 발생되고 등록되는 2개 문자 연쇄(804, 808)를 검출하는 2개 문자 연쇄 발생기를 나타내고; 도면부호(704)는 텍스트(802)로부터 중간에 분리 문자 "a"를 갖는 3개 문자열 "ろaは"로부터 발생되는 3개 문자 연쇄(805, 806, 807) 및 텍스트의 시작 및 종료에서 분리 문자를 갖는 2개 문자 연쇄(803, 809)를 검출하는 분리 문자 연쇄 발생기를 나타내고; 도면 부호(705)는 2개 문자 연쇄 발생기(703)와 분리 문자 연쇄 발생기(704)에 의해 검출된 2개 문자 연쇄(803, 804, 805, 806, 807, 808, 809)를 저장하는 2개 문자 연쇄 메모리를 나타내고 그 분리 문자가 일정치를 표시하고 다른 문자는 그 출현 횟수를 도시하고; 도면 부호(706)는 검색된 텍스트(821)의 시작과 종료로 특정 분리 문자 "a"를 삽입하는 텍스트 변환기를 나타내고; 도면 부호(707)는 텍스트 변환기(706)에 의해 발생된 그 검색된 텍스트(822)로부터 2개 문자 연쇄(823, 824, 825, 826, 827)를 검출하는 2개 문자 연쇄 검출기를 나타내고; 도면 부호(708)는 2개 문자 연쇄 메모리(705)로부터 2개 문자 연쇄 검출기(707)에 의해 검출되는 2개 문자 연쇄(823, 824, 825, 826, 827)를 검출하고 그 후 그 검출된 2개 문자 연쇄의 선행 문자의 출현 횟수가 직전에 검출된 2개 문자 연쇄 후에 문자의 출현 횟수에 일치되는 지를 결정하기 위한 비교기를 나타내고; 도면 부호(709)는 그 비교기(708)로 하여금 2개 문자 연쇄 검출기(707)로부터 검출된 모든 2개 문자 연쇄를 결정하도록 텍스트의 일치를 결정하는 제어부를 나타낸다. 이 때에, 본 발명의 제 4 방법에 따라서, 2개 문자 연쇄(823)의 "aい"와 동일한 2개 문자 연쇄(803)는 검출되고, 또한, 이 때에 "い"의 출현 횟수 n1이 검출되며, 연쇄(823) 후에 2개 문자 연쇄(824)의 "いろ"와 동일한 2개 문자 연쇄(804)가 검출되고, 또한, 이 때에 "い"와 "ろ"의 출현 횟수 n1, n2가 검출된다. "い"의 출현 횟수가 2개 문자 연쇄(803, 804) 사이에서 n1로 서로 일치하는 지를 결정한다. 만약 일치한다면, 2개 문자 연쇄(825)의 "ろは"와 동일한 2개 문자 연쇄(807)가 검출되고, 또한, 이 때에 "ろ"와 "は"의 출현 횟수 n2, n3가 검출된다. "ろ"의 출현 횟수가 2개 문자 연쇄(804, 807) 사이에서 n2로서 서로 일치하는 지를 결정한다. 만약 일치한다면, 2개 문자 연쇄(826)의 "はに"와 동일한 2개 문자 연쇄(808)가 검출되고, 또한, 이 때에 "は"와 "に"의 출현 횟수 n3, n4가 검출된다. "は"의 출현 횟수가 2개 문자 연쇄(807, 808) 사이에서 n3으로서 일치하는 지를 결정한다. 만약 일치한다면, 2개 문자 연쇄(827)의 "にa"와 동일한 2개 문자 연쇄(809)가 검출된다. 그 후, 이 때에 "に"의 출현 횟수 n4가 2개 문자 연쇄(808)의 "に" 의 출현 횟수와 일치하는 지를 결정한다. 만약 일치한다면, 키워드의 완전 일치로부터 텍스트(821)가 텍스트(801)와 일치하는 것이 결정된다. 이상에 의해, 텍스트의 조합이 이루어질 수 있다.
본 시스템에 따라서, 키워드를 제외한 텍스트를 사용함에 의해 검색이 배제될 수 있다. 예를 들면, 검색이 도 8에서 텍스트(831)와 같은 키워드가 아닌 텍스트 "いろは"를 사용함에 의해 수행된다면, 이러한 검색은 분리 문자를 시작과 끝에 삽입한 도면 부호(832)와 같은 검색된 텍스트를 사용함에 의해 수행된다. 이 때에, 텍스트(831)가 키워드(811, 812, 813)에 대응하지 않기 때문에, 검색된 텍스트(832)로부터 검출될 수 없는 2개 문자 연쇄의 "はa"가 발생되고 검색되지 않는다.
이 경우에, 본 시스템은 문자의 위치 정보가 각 2개 문자 연쇄에서 문자의 출현 횟수를 대신해서 사용되는 경우에 유사하게 적용될 수 있다.
(실시예 5)
문자 패턴의 식별 방법의 예는 본 발명의 제 5 실시예로써 설명될 수 있다.
도 9는 문자 패턴을 코딩하고 그것들을 저장하는 코드 테이블의 구조를 도시한다. 이 때에, 패턴 코드는 1차원적으로 형성되고, 유니코드등은 예를 들어, 텍스트 코드의 대상으로 선택된다. A-그룹(901)은 문자 "あ",...,"ヵ",... 등의 소위 히라가나 및 카타카나로 구성되는 그룹이다. 코드 번호가 A 그룹(901)의 각 문자에 배당되어 #1은 "あ"로 및 #2는 "い"로 배정된다. 비슷하게, B-그룹(902)은 한자로 구성된 그룹이고, #100을 시작으로 코드 번호가 각 한자에 할당되고, C-그룹(903)은 Ⅹ,,등과 같은 기호로 구성된 그룹이고, #200으로 시작하는 코드 번호가 각 기호에 할당된다. 이 때에, 상기 코드 번호는 편의상 배정되고, 코드 번호는 코드 테이블에서 특정화된다면 사용될 수 있다.
다음, 도 10은 문자로 구성되는 패턴 분류의 형태 및 그 데이터를 저장하는 패턴 저장 수단의 구성을 도시한다. 이 때에, 문자 세트의 조합으로 형성된 텍스트 데이터가 식별되는 패턴에서 텍스트 중 어느 하나에 의해 구성된다고 가정하자. 문자 패턴의 2개 세트에 대해서, 패턴과 그 값들은 제 1 문자 패턴과 제 2 문자 패턴이 포함된 코드 테이블의 세트에 저장된다. (제 1 문자, 제 2 문자)가 (A 그룹의 문자, A 그룹의 문자)(이후에 (A-그룹, A- 그룹)로 간단히 언급되는) 또는 (B-그룹, B-그룹) 각각과 일치한다면, 출현 패턴이 조합 D1에 대응하여 패턴 1에 포함되도록 정의된다. 수치 1 이 상기 패턴에 할당된다. 또한, 수치 1이 패턴 1에서 (A-그룹,B-그룹) 또는 (B-그룹, A-그룹)의 조합에 할당된다. 수치가 도 10에서 패턴 2,3과 같은 패턴 2와 패턴 3에 할당된다. 예를 들면, 일본어가 히라가나, 카타카나, 및 한자를 포함하기 때문에, 패턴 1은 일본어로 정의될 수 있다. 유사하게, C 그룹이 한글이 패턴 2는 한국어로 정의되고, 패턴 3은 중국어로 정의될 수 있다.
다음, 문자열이 어느 패턴에 속하는지를 결정하는 방법이 이후에 설명된다. 도 11에서, 도면 부호(1101)는 문자열 데이터이다. 2개 문자 조합은 문자열 데이터(1101)로부터 추출된다. 2개 문자 연쇄(日, 本), (あ, い),(漢, 力)는 2개 문자 조합으로부터 추출된다. (B-그룹, B-그룹), (A-그룹, A-그룹), 및 (B-그룹, A-그룹)은 그 추출된 문자 연쇄가 포함된 그룹으로써 각각 검출된다. 결과적으로, 도 12에서 도시했듯이, (日, 本)는 패턴 1 또는 2에 속하고, (あ, い)는 패턴 1에 속하고, (漢, 力)는 패턴 1에 속한다.
추가적으로, 그 패턴에 대응하는 스코어( 수치)는 1 또는 2, 1, 1로 된다. 수치 1은 그 수치의 수가 서로 비교될 때 최대 빈도 수치로 검출되고, 패턴 1은 수치 1에 대응하는 패턴으로써 검출된다. 따라서, 텍스트 데이터가 패턴 1에 포함되는 것으로 결정된다. 최대 빈도를 갖는 수치가 제 5 실시예에서 계산될지라도, 수치의 평균값과 패턴의 수치 사이의 최소차를 갖는 패턴이 텍스트 데이터를 포함한 패턴으로써 결정될 수 있다. 추가적으로, 수치의 최대 빈도값이 평균 값을 대신해서 계산될 수 있다.
본 방법에 따라서, 실제 데이터가 분석된 후에, 일본어(신문 기사를 대상)의 경우에, 기호의 출현율이 모든 문자 세트의 약 10%이고 한자/기호를 제외하고 히라가나/카타카나등의 출현율이 약 41%이고, 한자의 출현율은 약 49%라는 것을 알 수 있다. 중국어의 경우에(법률책을 대상), 기호의 출현율이 모든 문자 세트의 약 3%이고, 한자/기호를 제외하고 히라가나/카타카나의 출현율이 약 22%이고, 및 한자의 출현율이 약 74%이다. 한글(신문 기사를 대상)의 경우에, 기호의 출현율이 모든 문자 집합의 약 15%이고, 한자/기호를 제외하고 히라가나/카타카나등의 출현율이 약 3%이고, 한글 문자의 출현율이 약 73%이고, 한자의 출현율이 약 4%이고, 및 다른 것의 출현율이 약 7%이다. 이것에 따라서, 문자 코드는 기호, 히라가나/카타카나, 한자, 및 한글 문자의 형태로만 괸리되고, 기호와 한자를 제외하고는 히라가나/카타카나의 비율이 41 : 49라면 언어는 일본어이고, 이러한 비율이 22:74라면 언어는 중국어이고, 및 이러한 비율이 3:73이라면 언어는 한국어이다. 이러한 비율 중의 하나에 가장 근접한 언어는 식별되는 언어로써 분류될 수 있다.
도 13은 본 발명의 제 5 방법의 실시예에 따라서 정보 처리 시스템의 구성을 도시한다. 도 13에서, 도면 부호(1301)는 텍스트 데이터로부터 2개 문자 연쇄를 절단하는 문자 연쇄 추출기를 나타내고; 도면 부호(1303)는 패턴 코드를 저장한 코드 테이블을 나타내고; 도면 부호(1305)는 패턴 세트와 수치를 저장한 패턴 메모리를 나타내고; 도면 부호(1302)는 추출된 2개 문자 연쇄를 구성하는 문자 코드 그룹의 새트를 패턴 메모리(1305)의 그것과 대조하고, 그 후 모든 추출된 2개 문자 연쇄에 대해 대응하는 패턴의 수치를 계산하는 패턴 계산기를 나타내고; 및 도면 부호(1304)는 패턴 계산기(1302)에 의해 계산된 수치로부터 수치 당 출현 빈도 또는 평균값 또는 최대 빈도값을 계산하고, 그 후 패턴 메모리(1305)에 저장된 패턴의 수치와 대부분 일치하는 출현 빈도를 갖는 패턴 또는 평균값과의 차이 또는 최대 빈도값과의 차이를 계산해서 최소값을 갖는 패턴을 결정하는 패턴 식별기를 나타낸다.
그러므로, 이 방법에 따라서, 데이터가 속해 있는 패턴이 문자 패턴등의 모든 패턴에 배정되는 패턴의 세트로부터 자동 결정될 수 있고 그 패턴이 여러 형태의 의미 패턴 그룹으로 분류되고 복수의 의미 그룹이 패턴 그룹의 조합에 의해 표현된다.
특히, 이 방법은 패턴으로서 문장 형태 및 폰트(fonts)가 복수의 패턴으로 분류에 효과적이다. 유니 코드는 코드의 예로 생각된다. 이 경우에 패턴 1이 "히라가나/카타카나"이고, 패턴 2가 "한자(CJK 한자)", 및 패턴 3이 "한글"이라면, 언어는 예를 들면, 패턴 그룹 1과 패턴 그룹 2의 조합으로 구성되는 의미 그룹을 "일본어", 패턴 그룹 2와 패턴 그룹 3의 조합으로 구성되는 의미 그룹을 "한국어" 및 단지 패턴 그룹 2만으로 구성되는 의미 그룹을 "중국어"로 정의됨에 의해 분류될 수 있다.
제 5 실시예에서, 패턴들이 코드화된 패턴이면 문자 패턴으로 한정되지 않고, 기호, ◎,◇등과 같은 코드화된 대상이라면 특히 한정되지 않아도 좋다. 문자들이 매 2개 문자로 절단되더라도, 문자의 절단 단위가 2개 문자이면 한정되지 않는다.
(실시예 6)
문자 패턴을 식별하는 방법의 예는 본 발명의 제 6 실시예로써 설명될 수 있다. 우선, 패턴을 식별하기 위한 정보를 형성하는 방법이 이후에 설명될 수 있다.
도 14는 정보를 형성하기 위한 샘플 데이터를 도시한다. 도 14에서, 도면 부호(1401)는 중국어 샘플 데이터이고, 2개 문자 연쇄가 그 샘플 데이터로부터 꺼내진다. 그리고, 도면 부호(1402)는 문자 연쇄 "那些"를 나타내고, 도면 부호(1403)는 문자 연쇄 "些都"를 나타낸다. 이러한 문자 연쇄는 인접하여 꺼내진다. 기록 번호 1 은 샘플 데이터(1401)의 데이터에 할당된다. 계속해서 모든 문자 연쇄는 샘플 데이터로부터 꺼내진다. 도 14에서, 4개 문자 연쇄(1402 내지 1405)가 후술하는 설명에 의해 도시된다고 가정하자. 도 14에서, 도면 부호(1406, 1412)는 일본어 샘플 데이터이고, 모든 2개 문자 연쇄는 상기와 같은 샘플 데이터로부터 추출된다. 중국어 샘플 데이터의 설명에서와 같이, 문자 연쇄(1407 내지 1411, 1413 내지 1416)는 제 6 실시예에서 2개 문자 연쇄로서 도시된다. 이 경우에, 기록 번호 2,3은 데이터 (1406, 1412)로 배정된다.
다음에, 조합 패턴, 기록 번호, 및 추출된 문자 연쇄 패턴의 출현 횟수는 중국어와 일본어와 같은 패턴 형태에 따라서 개별적으로 저장 매체에 저장된다.
도 15의 출현 패턴(1501 내지 1504)에서, 패턴과 기록 번호는 패턴 형태가 중국어일 때 저장된다. 유사하게, 도 15의 출현 패턴(1505 내지 1509)에서, 패턴과 기록 번호는 패턴 형태가 일본어일 때 저장된다. 출현 패턴(1501 내지 1504)이 샘플 데이터(1401)를 포함하기 때문에, 기록 번호 1은 저장된다. 또한 출현 패턴(1505 내지 1509)은 샘플 데이터(1406 또는 1412)를 포함하기 때문에, 단지 1개의 기록이 포함된다면 기록 번호 "2"가 저장되고, 2개의 기록이 포함되면 기록 번호" 2,3"이 저장된다. 문자 연쇄의 출현 횟수가 도 15에 저장된 기록 번호 수에 의해 표시되고, 도 16에 도시된 2차원적 테이블로써 도시된다.
도 16에서, 도면 부호(1601)는 중국어의 출현 수를 나타내고, 도면 부호(1602)는 일본어의 출현 수를 나타낸다. 도 16의 테이블에서 세로 좌표는 패턴(제 1 문자, 제 2 문자)의 조합 중 제 1 문자를 나타내고, 가로 좌표는 제 2 문자를 나타낸다. 도 15와 도 16에서 데이터는 패턴 식별 저장 매체에 저장된다. 기록 번호를 임의의 수로 갖는 패턴은 제 6 실시예의 저장 매체에 뒤이어 저장된다. 결과적으로, 출현 횟수는 모든 패턴 형태마다 테이블에 저장될 수 있다.
중국어와 일본어의 2개의 패턴 형태의 설명이 제 6 실시예에서 만들어질지라도, 다수의 패턴 형태는 유사한 방법에 의해 테이블에서 패턴 형태마다 저장될 수 있다. 다음, 시험 패턴을 사용함에 의해 언어를 식별하는 방법이 설명될 수 있다. 도 17에서, 인접한 2개 문자 연쇄는 시험 패턴(1701)으로부터 추출된다. 2개 문자 연쇄는 연쇄(1702) "同事", 연쇄(1703) "事件", 연쇄 (1704) "件と", 연쇄(1705) "と我", 및 연쇄(1706) "我"와 같이 추출된다. 그리고, 연쇄(1702, 1703, 1704, 1705, 1706)에 대응하는 출현 횟수가 도 16에서 메모리 매체의 테이블로부터 검출된다. 중국어 테이블(도 16에의 1601)에서, 패턴(同, 事)의 출현 횟수는 1이고, 다른 출현 횟수는 존재하지 않는다. 대조적으로, 일본어 테이블(도 16에서 1602)에서, 패턴(我,)의 출현 횟수는 2이고, 패턴(同, 時)의 출현 횟수는 1 이고, 및 패턴(事, 件)의 출현 횟수는 2 이다.
이러한 출현 횟수의 총수가 패턴 형태마다 계산된다면, 그 회수는 중국어에서는 1이고, 또한 이러한 수는 일본어에서는 5이다. 더 큰 수치를 가지는 패턴 형태가 이러한 2개의 결과를 비교함에 의해 검출되고, 결과적으로 그 시험 패턴이 일본어라고 결정될 수 있다.
출현 횟수의 총합이 제 6 실시예에서 계산될지라도, 그 방법에서 총 출현 횟수가 n을 초과하는 패턴 형태가 계산될 수 있거나, 각 문자 연쇄의 출현 횟수가 n을 초과하는 문자 연쇄의 총 출현 수가 계산될 수 있다는 점이 채택될 수 있다.
본 방법에 의해서, 일본어/중국어/한글에서 같은 문자 코드를 사용하는 로컬 코드에서 큰 출현율을 가지는 출현 문자 형태의 수는 실시예 5에서 인용된 실제 데이터에 적용되는 예들 간에 주목을 받아왔다.
그 때에, 3469개 형태 한자(약 74%)는 중국어 데이터에 사용되고; 218개 형태의 형태 한글(약 73%)은 한글 데이터에서 사용되고; 4006개 형태의 한자 (약 49%)는 일본어 데이터에서 사용되고; 및 130개 형태의 히라가나/카타카나(약 23%) (만약 기호가 포함된다면 510개의 형태(약 41%))는 일본어 데이터에 사용된다. 출현율과 문자 형태의 상기 조합으로부터, 중국어 한자 코드에서 74% 출현 빈도와 3469개의 출현 문자 형태, 한글 문자 코드에서 73% 출현 빈도와 218 출현 문자 형태, 일본어 히라가나/카타카나 코드에서 23%의 출현 빈도와 130개의 출현 문자 형태, 일본어 한자 코드에서 49% 출현 빈도와 4006개의 출현 문자 형태가 서로 비교되고, 한자의 출현 빈도와 한자의 출현 문자 형태가 중국어 코드에서 많다면, 언어는 중국어로써 결정될 수 있다. 유사하게, 언어는 각 언어 코드에서 출현 빈도와 출현 문자 형태로부터 일본어 또는 한글로써 결정될 수 있다.
도 18은 본 발명의 제 6 방법의 실시예에 따라, 정보 처리 시스템의 구성을 도시한다. 도 18에서, 도면 부호(1801)는 텍스트 데이터로부터 인접한 2개 문자 연쇄를 꺼내는 문자 연쇄 추출기를 나타내고; 도면 부호(1802)는 문자 연쇄의 출현 횟수와 기록 번호를 판독하고, 패턴(언어) 형태마다 그들을 빈도 메모리(1803)에 저장하는 문자 연쇄 빈도 카운터; 도면 부호(1804)는 매 패턴 형태마다 빈도 메모리(1803)로부터 문자 연쇄 추출기(1801)에 의해 검출된 문자 연쇄의 출현 횟수를 꺼내는 빈도 카운터를 나타내고; 및 도면 부호(1805)는 빈도 카운터(1804)로부터 검출된 총 출현 횟수 또는 매 패턴 형태마다 소정의 임계값의 총 출현 횟수를 패턴 형태마다 계산하고, 패턴 형태마다 소정의 임계값을 초과하는 패턴을 계산 또는 패턴 형태마다 그들의 크기를 비교함에 의해 시험 패턴을 포함한 패턴 형태를 결정하는 대조기(collator)를 나타낸다.
그러므로, 이 방법에 따라서, 시험 데이터가 속하는 패턴이 자동적으로 결정될 수 있다. 또한, 문자 형태, 폰트등이 코드화되지 않는다면, 패턴이 분류될 수 있다. 추가적으로, 패턴은 언어마다 사전을 준비하지 않고 분류될 수 있다.
(실시예 7)
문자 패턴을 식별하는 방법의 예는 본 발명의 제 7 실시예로써 설명될 수 있다. 우선적으로, 패턴을 식별하기 위한 정보를 형성하는 방법이 이후에 설명된다.
도 19는 정보를 형성하는 샘플 데이터를 도시한다. 도 19에서, 도면 부호(1901)는 중국어에서 샘플 패턴을 나타내고, 2개 문자 연쇄는 그 샘플 데이터로부터 꺼내진다. 꺼내질 때, 문자 형태(예를 들면, 한자, 카타카나등의 문자 코드)가 동일하면 2개 문자 연쇄가 형성된다. 이 경우에, 2개 문자가 꺼내질 때 사전이 존재하는 경우에는 이미 지정된 언어가 절단되면, 절단된 제 2 문자 및 계속된 문자 간의 연쇄가 형성되지 않는다. 제 7 실시예에서, 일본어의 절단이 사용되기 때문에, 인접한 문자 연쇄가 샘플 패턴(1901)에 대해서 형성된다. 이후에, 제 6 실시예의 동작과 유사한 동작이 2개 문자 연쇄(1902 내지 1905)에 적용된다. 그리고, 도 19에서, 도면 부호(1906)는 일본어에서 샘플 패턴을 나타낸다. 연쇄 형성이 문자 형태마다 확인된 후에,"は,"な"등과 같은 히라가나의 문자 연쇄는 형성되지 않는다. 일본어 사전에 문자 연쇄 "事件"등이 존재한다면, 선행 문자 "同" 과 2개 문자 연쇄 "事件"이 분리된다. 결과적으로, 문자 연쇄가 2개 문자 연쇄(1907, 1911)와 1개 문자들(1908, 1909, 1910등)로 분리된다. 계속해서, 1개 문자(1908, 1909, 1910)의 2개 문자 연쇄는 같은 문자를 반복함에 의해 형성된다. 도 20은 패턴이 1개 문자로써 결정될 때, 2개 문자 연쇄로 변환됨에 의해 형성되는 문자 연쇄이다.
다음, 제 6 실시예에 따라서, 모든 문자 연쇄 패턴의 조합 패턴, 기록 번호 및 출현 횟수는 중국어, 일본어등과 같은 패턴 형태마다 분리해서 저장 매체로 저장된다. 2차원 테이블로 저장된 데이터의 예는 도 21에서 도시된다. 도 21에서, 도면 부호(2101)는 중국어의 출현 횟수를 나타내고, 도면 부호(2101)는 일본어의 출현 횟수를 나타내고, 및 테이블 구조는 제 6 실시예의 그것과 같다. 패턴은 제 7 실시예의 저장 매체로 어떤 기록 번호까지 연속적으로 저장하고, 결과적으로, 각 패턴 형태에 대한 출현 횟수는 테이블에 저장될 수 있다. 제 6 실시예와 같이, 다수의 패턴(언어) 형태들은 패턴 형태마다 유사한 방법으로 테이블로 저장될 수 있다.
다음, 시험 패턴을 사용함에 의해 패턴을 식별하는 방법이 이후에 설명될 수 있다. 도 17에서 시험 패턴이 사용된다. 이 경우에, 문자 분리 규칙에 따라, 추출된 데이터는 2개 문자 연쇄(1703)"事件" 및 (1706) "我"와 같이 추출된다. 그리고, 2개 문자 연쇄(1703, 1706)에 대응하는 출현 횟수가 도 21에서 저장 매체에서 테이블로부터 검출된다. 중국어 테이블(도 21에의 2101)에서, 패턴(同, 事)의 출현 횟수가 1이고 다른 수치를 취하지 않는다.
대조적으로, 일본어 테이블(도 21에서 2101)에서, 패턴(我,)의 출현 횟수는 2이고 패턴(事, 件)의 출현 횟수는 2이다. 이러한 출현 횟수의 총합이 패턴 형태마다 계산되고, 총합이 중국어에서는 1이고, 일본어에서는 4이다. 결과적으로, 시험 패턴이 일본어라고 결정할 수 있다.
출현 횟수의 총합이 제 7 실시예에서 계산될지라도, 출현 횟수의 총합이 n을 초과하는 패턴 형태를 계산하거나 각 문자 연쇄의 출현 횟수가 n을 초과하는 문자 연쇄의 출현 횟수의 총합을 계산하는 방법이 채택될 수 있다. 분리 법칙이 시험 패턴에 대응하는 문자 연쇄를 추출하는 방법으로 적용될지라도, 인접하는 2개 문자의 이웃하는 모든 문자 연쇄가 분리 규칙의 적용없이 제 6 실시예와 같이 꺼내질 수 있다.
이 방법에 따라서, 제 5 실시예 또는 제 6 실시예에서 인용된 실제 데이터에 적용되는 예에서, 패턴은 출현 횟수를 기존으로 해서 발생 빈도 %에 해당하는 문자수를 n으로 세팅함에 의해 결정될 수 있다. 예를 들면, 중국어의 경우에, 한자 코드에 대응하는 출현 횟수의 총합 n은 중국어 한자 코드의 출현 빈도가 74%이고 출현 문자 형태가 3469개의 형태로부터 100개 문자이면, 74개로 세트될 수 있다.
도 22는 본 발명의 제 7 방법의 실시예에 따른 정보 처리 시스템의 구성을 도시한다. 도 22에서, 도면 부호(2202)는 분리 규칙에 따라, 텍스트 데이터로부터 샘플 데이터를 절단하는 절단 식별기를 나타내고; 도면 부호(2201)는 그 절단 식별기(2202)로부터 결과가 얻어질 때, 2개 문자 연쇄 또는 1개 문자 연쇄를 얻고 출현 횟수 및 기록 번호를 판독하고, 절단 식별기(2202)로부터 아무런 결과가 얻어지지 않을 때, 모든 인접한 문자 연쇄를 추출하는 문자 연쇄 추출기를 나타내고; 도면 부호(2203)는 문자 연쇄 추출기(2201)가 1개 문자를 추출할 때 1개 문자를 반복함에 의해 2개 문자 연쇄를 형성하는 연쇄 변환기를 나타내고; 도면 부호(2204)는 2개 문자 연쇄, 기록 번호 및 출현 횟수를 패턴(언어) 형태마다 빈도 메모리(2205)로 출현 횟수를 저장하는 문자 연쇄 빈도 카운터를 나타내고; 도면 부호(2206)는 2205)로부터 문자 연쇄 추출기(2201) 또는 연쇄 변환기(2203)에 의해 얻어진 문자 연쇄의 출현 수를 불러오기 위한 빈도 카운터를 나타내고; 도면 부호(2207)는 빈도 카운터(2206)로부터 검출된 총 출현 횟수 또는 소정의 임계값의 총 출현 횟수를 패턴 형태마다 계산하고, 매 패턴 형태마다 소정의 임계값을 초과 또한 패턴을 계산 또는 그들의 크기를 패턴 형태마다 비교함에 의해 시험 패턴을 포함한 패턴 형태를 결정하는 대조기를 나타낸다.
그러므로, 이 방법에 따라서, 시험 패턴이 속하는 패턴은 자동적으로 결정된다. 또한, 문자 형태들, 폰트등이 코드화되지 않는다면, 패턴이 분류될 수 있다는 이점이 있다. 추가적으로, 패턴은 각 언어에 대해 모든 규칙을 준비함이 없이 분류될 수 있다.
(실시예 8)
문자 패턴을 식별하는 방법의 예는 본 발명의 제 8 실시예로서 설명될 수 있다. 우선적으로, 패턴을 식별하기 위한 정보를 형성하는 방법이 이후에 설명된다. 분류된 패턴이 2에서 세트된다고 가정하자(일본어와 중국어등). 도 23은 코드화된 문자 패턴을 저장하는 코드 테이블의 구성을 도시한다. A 그룹(2301)은 문자 "と",..., 등과 같은 소위 히라가나와 카타카나로 구성되는 그룹이다. 코드 번호는 #10은 "と"이 A 그룹(2301)의 각 문자에 배정된다. 유사하게, B 그룹(2302)은 한자로 구성된 그룹이고 코드 번호는 각 한자에 배정되어 # 100이 "我"로 및 #101이 "同"...로 배정된다. 이 경우에 상기 코드 번호를 편리성에 의해 배정되고, 그 코드 번호는 코드 테이블에서 특정하게 사용될 수 있다.
식별 패턴을 식별하기 위한 정보를 형성하기 위해 사용되는 샘플 데이터로서 도 14에서 도면 부호(1401, 1406, 1412)로 표시된 샘플 패턴과 같은 데이터를 취하는 동안, 제 8 실시예가 설명된다. 이 경우에, 제 8 실시예에서, 도 14의 샘플 패턴(1401, 1406, 1412)이 속하는 패턴 분류 (언어)가 공지되지 않았다고 가정하자. 도 24는 도 14의 샘플 테이블로부터 추출된 문자 연쇄 패턴의 예를 도시한다. 도 14에서, 예를 들면, 도면 부호(1404) "我同", 도면 부호(1405) "同事" 문자 연쇄에 대해서, 문자번호 1, 제 1 문자의 문자 코드 101, 제 2 문자의 문자 코드102, 및 문자 연쇄 패턴(2401) "我同" 의 출현 횟수 1가 저장된다. 유사하게, 도면 부호(2402)는 문자 연쇄 "同事"의 문자 연쇄 패턴을 나타낸다. 그 후, 도 14의 문자 연쇄 패턴(1406)은, 도 24에서 2403, 2404, 2405등이 있다. 유사하게, 도 14의 문자 연쇄 패턴(1412)은 도 24에서 2406, 2407등이 있다.
다음, 문자 연쇄 패턴이 문자 연쇄 패턴마다 함께 놓여진다. 여기서, 동일한 문자 연쇄 패턴을 포함한 패턴이 문서 번호를 기준으로 해서 수집되고, 이러한 패턴이 수는 계산된다. 도 25는 문자 연쇄 패턴이 각각 수집되는 예를 도시한다. 도 25의 도면 부호(2501)를 표시했듯이, 문서 번호 1에서 "同事"는 다른 문서에 공통이고, 연관된 문서 번호는 1이고, 공통 문자 연쇄 패턴 수는 2이다(갯수는 공통 문자 연쇄 패턴이 없다는 것을 표시 )
한편, 도 25의 도면 부호(2502)로 표시했듯이, "我","事件"은 다른 문서에 공통이고, 공통 문서 연쇄 패턴수는 4이다. 유사하게, 문서 번호 3에서, 공통 문자 연쇄 패턴 수는 4이다. 이것에 따라서, 문서 번호 2, 3은 문서 번호 1과 다르고, 문서 번호 1은 패턴수 2로 분류되고, 문서 번호 2,3은 패턴 1로 분류되는 것으로 결정된다. 그리고 난 후, 문자 연쇄 패턴이 저장된다. 도 26은 문서들이 패턴 1,2로 분류된 후에 저장 매체에 저장되는 예를 도시한다. 뒤이어, 2개 문자 연쇄는 샘플 데이터로부터 형성되어, 문자 연쇄 패턴은 저장 매체에 저장된 2개 문자 패턴(패턴1, 패턴2)으로부터 꺼내지고, 샘플 데이터의 문자 연쇄는 패턴 형태마다 저장 매체에 저장된 문자 연쇄 패턴과 비교되고, 샘플 데이터에서 다수의 패턴 형태를 갖는 문자 연쇄 패턴이 저장 매체에 저장된다.
다수의 가지는 패턴 형태를 갖는 문자 연쇄 패턴이 제 8 실시예에서 저장 매체에 저장되지만, 패턴 형태가 소정의 임계값보다 크게 되는 문자 연쇄 패턴을 꺼내거나, 그 꺼내온 불러온 문자 연쇄 패턴의 형태가 소정의 임계값보다 클 때, 갯수를 비교함에 의해 결정될 수 있다.
이 방법에 따라서, 실제 데이터가 분석될 때, 출현 횟수, 문자 코드, 그것들의 조합으로 구성된 분포가 실시예 5,6,7에 인용된 예와 같이, 중국어/ 한글/ 일본어에서 다르다. 특히, 실시예 6에서 설명된 바와 같이, 한글에서 소수의 한글 문자에 빈도가 집중되는 반면에, 일본어에서 히라가나/카타카나의 조합에 빈도가 집중되고, 중국어에서 다양한 한자 문자를 통해 빈도가 균일하게 분포된다. 3개 언어 코드에서 출현 빈도와 출현 문자 형태간의 최소차로부터 그 언어가 어떤 분포로 근접하는 지가 결정될 수 있다.
다음, 시험 패턴이 시험 패턴을 사용함에 의해 포함되는 패턴 형태를 식별하는 방법이 이후에 설명된다. 상기 식별 방법이 제 4 실시예 내지 제 7 실시예에서 그것과 유사한 방법에 의해 얻어질 수 있다.
도 27은 본 발명의 제 8 방법 실시예에 따라, 정보 처리 시스템의 구성을 도시한다. 도 27에서, 도면 부호(2701)는 텍스트 데이터로부터 인접한 2개 문자 연쇄를 꺼내는 문자 연쇄 추출기를 나타내고; 도면 부호(2702)는 문자 연쇄의 출현 횟수와 기록 번호를 판독하는 문자 연쇄 빈도 카운터를 나타내고; 도면 부호(2703)는 매 패턴 형태마다 빈도 메모리(2705)로부터 문자 연쇄 추출기(2701)에 의해 검출된 문자 연쇄의 출현 수를 패턴 형태마다 꺼내거나, 출현 횟수가 존재하지 않는다면, 문자 연쇄 빈도 카운터(2702)에 의해 얻어진 문자 연쇄의 빈도를 계산하는 빈도 카운터를 나타내고; 및 도면 부호(2704)는 빈도 카운터(2703)로부터 얻어진 문자 연쇄 또는 문자 연쇄 패턴이 패턴 형태마다 포함되는 패턴 형태를 검출하도록 문자 연쇄 패턴의 출현 횟수의 합계 또는 소정의 임계값의 출현 횟수의 합계를 계산하고, 패턴 형태마다 그 크기를 비교하고, 문자 연쇄 패턴을 빈도 메모리(2705)의 각 패턴 형태로 큰 합계 순서로 저장하고, 패턴 형태의 시험 패턴을 결정 결과로서 통지하기 위한 패턴 분류기를 나타낸다.
그러므로, 이 방법에 따라서, 시험 패턴이 속하는 패턴은 자동적으로 결정될 수 있다. 또한, 문자 형태, 폰트, 기타가 코드화되지 않는다면, 패턴이 분류될 수 있는 이점이 있다. 추가적으로, 각 언어에 대해 사전을 준비하지 않고 , 패턴이 분류될 수 있다. 또한, 입력 텍스트가 속하는 언어 또는 패턴은 개별적인 언어 파일을 규칙을 참조해서 형성하고 그 출현 관계로부터 언어 또는 패턴의 분류를 재구성함에 의해 결정될 수 있다.
(실시예 9)
따라서, 통합된 코드(유니 코드) 또는 로컬 코드(EUC등)에서 사용되는 텍스트 데이터가 공통적으로 사용되는 경우는 텍스트 언어 식별의 예로써 논의될 수 있다. 실시예는 도 32의 블록 구성 다이어그램의 흐름에 따라서 설명된다.
우선적으로, 입력 텍스트가 통합된 코드 또는 로컬 코드에 의해 관리될 때, 문자 코드의 예는 도 28에서 도시된 개별 문자 셋 코드 테이블 메모리에 저장된다(도 32의 3203). 도 28에서, 도면 부호(2801 내지 2804)는 통합 코드의 테이블을 나타내고 거기에서 도면 부호(2801)가 히라가나/카타카나 코드 테이블을 나타내고 ; 도면 부호(2802)는 한자 코드 테이블을 나타내고; 도면 부호(2803)는 기호 코드 테이블을 나타내고; 도면 부호(2804)는 한글 코드 테이블을 나타낸다. 코드 번호들은 각 테이블에 특정하게 배정된다. 도 28에서, 도면 부호(2805 내지 2809)는 로컬 코드 테이블을 나타내고 거기에서 도면 부호(2805)가 일본어에서 히라가나/카타카나 로컬 코드 테이블을 나타내고; 도면 부호(2806)는 중국어에서 히라가나/카타카나 로컬 코드 테이블을 나타내고; 도면 부호(2807)는 한글에서 히라가나/카타카나 로컬 코드 테이블을 나타낸다. 코드 번호들은 문자 형태에 따라서 다르다. 또한, 도면 부호(2808)는 한자 로컬 코드 테이블이고, 도면 부호(2809)는 기호 코드 테이블을 나타낸다. 입력 데이터는 도 30에서 도시된 텍스트이다.
통합된 코드를 사용하는 예는 제 9 실시예에서 설명되고, 로컬 코드가 사용되는 경우와 다른점은 제 9 실시예에서 적절하게 설명될 수 있다.
코드 번호들은 도 30의 "日本にあう漢子"에서 각 문자와 관련되어 있다. 이 때에, 코드 식별 지정기(3201)는 지정된 문자 코드 시스템(통합된 코드 또는 지역 코드)을 판독하고, 2개 문자 연쇄 추출기(3202)는 입력 데이터로부터 2개 문자 연쇄 "日本", "本に", "にあ", "あう","う漢", "漢子"를 잘린다. 그런후, 개별 언어 출현 빈도 카운터(3204)는 개별 문자 셋 코드 테이블 메모리(3203)로부터 유니코드에서 텍스트에 대응하는 코드 번호를 검출하고, 2 문자 연쇄 중 처음 문자의 코드 번호를 확인하고, 한자, 히라가나,...의 문자 형태의 출현 횟수를 계산하고, 예를 들면, 도 30에서 입력 텍스트의 경우에, 2개 문자 연쇄의 수는 6이고, 처음 문자로써 한자를 갖는 연쇄는 3이고, 처음 문자로써 히라가나/카타카나를 가지는 연쇄는 3이고, 및 다른 것은 0이다. 따라서, 한자의 출현도는 50%이고, 히라가나/카타카나의 출현도는 50%이다. 그런 후, 개별 언어 출현 빈도 카운터(3204)는 개별 언어 분포간 거리 계산기(3206)에 2개 문자 연쇄의 출현도를 보낸다.
그런후, 문자 출현율(%)은 개별 언어 분포 테이블 메모리(3205)로부터 판독된다. 개별 언어 분포 테이블 메모리(3205)는 2개 문자 연쇄의 출현 패턴의 비율이 각 언어에 기술된 데이터로부터 계산되는 학습 테이블이다. 일본어, 중국어, 한글등에서 한자, 히라가나/카타카나, 기호, 한글등과 같은 각 문자 형태를 위한 출현(%)은 테이블로 저장된다. 개별 언어 분포간 거리 계산기(3206)는 도 31에서 거리 계산 규칙에 따라서 이미 추출된 데이터와 위의 학습 테이블 사이의 상호 분포간 거리를 측정한다. 예를 들면, 일본어의 표준의 경우에, 거리는 (50%(한자 출현 %)-49%)2+(50%(히라가나 출현 %)-41%)2+(0%(기초 출현 %)-10%)2+(0%(한글 출현 %)-0%)2=182로 된다. 유사하게, 중국어 표준의 경우에, 거리는 1376으로 된다. 한글 표준의 경우에, 거리는 9895로 된다. 상기 결과는 비교기(3207)에 보내진다. 비교기(3207)는 일본어, 중국어, 및 한글 표준의 최소 표준을 확인하고, 182의 일본어 표준을 검출한다. 입력 텍스트가 일본어인 상기 결과에서 결정된다.
이 경우에, 도 31에서 거리는 (각 문자 형태 출현% - 학습 테이블의 출현 %)2로써 계산된다. 그러나, 어느 거리는 이러한 거리가 삼각 부등식(즉, d(x,z)d(x,y)+d(y,z)를 만족한다면 어떤 거리를 사용해도 좋고, 여기서 d는 거리 함수이고 x, y는 임의 값이다. 또한, 제 9 실시예에서, 이러한 패턴이 코드화된 패턴이 라면 문자 패턴에 한정되지 않는다. 추가적으로, ◎,◇등과 같은 코드화된 대상이라면 특히 한정되지 않아도 좋다.
상기 설명했듯이, 본 발명은 소정의 언어에서 기술된 입력 텍스트의 언어가 그 나라의 언어의 기술적인 특징을 사용함에 의해, 즉 그 언어에서 빈번하게 출현된 특정 문자 또는 특정 범위의 특정 문자를 관찰하는 동안, 식별된 대상으로써 텍스트의 특정 문자의 출현율을 검출함에 의해, 또는 특정 문자 사이의 텍스트 길이의 평균을 검출함에 의해, 또는 특정 범위의 문자 출현율을 검출함에 의해 식별될 수 있다는 이점을 갖는다.
두 번째로, 본 발명은 문서 검색에 의해 준비된 색인으로써 2개 문자 연쇄를 사용하는 검색 시스템을 사용하는 동안, 키워드 검색이 분리된 문자가 키워드의 처음과 종료에 분리 문자를 삽입시킨 입력 텍스트에서 등록시에 준비된 색인에 분리 문자의 정보를 부가함에 의해 수행될 수 있다는 또 다른 이점을 갖는다.
세 번째로, 본 발명은 설정된 텍스트가 속하는 언어가 설정된 텍스트로부터 자동적으로 식별될 수 있고, 언어 또는 그룹 형태가 텍스트의 상태 특징을 코드로써 결정함에 의해 자동 식별될 수 있다는 또 다른 장점을 갖고, 특히 그 특징은 문자 패턴 형태, 예를 들어 폰트 등에 의해 분류된다.

Claims (25)

  1. 검출 목표 언어의 특정 문자 코드를 갖는 특정 문자를 입력 텍스트의 모든 문자로부터 검출 및 카운팅하는 특정 문자 카운팅 수단;
    상기 특정 문자 카운팅 수단에 의해 검출 특정 문자수와 입력 텍스트의 모든 문자수로부터 특정 문자 출현율을 계산하는 출현율 계산 수단과;
    목표 언어의 특정 문자의 표준 출현율을 앞서서 저장하는 표준 출현율 저장 수단; 및
    상기 출현율 계산 수단으로부터 인출된 입력 텍스트의 특정 문자 출현율을 상기 표준 출현율 저장 수단으로부터 검출된 표준 출현율과 비교하는 비교기를 구비하고,
    입력 텍스트가 목표 언어에 해당하는 특성을 가지는 텍스트에 대응하는 지를 결정하는 정보 처리 시스템.
  2. 검출된 목표 언어의 문자 코드에서 1개 또는 다수의 특정 문자를 입력 텍스트의 모든 문자로부터 검출 및 카운팅하는 특정 문자 검출 수단;
    상기 특정 문자 검출 수단으로부터 추출된 특정 문자들간의 비특정 문자로 구성되는 텍스트를 추출하는 비특정 텍스트 검출 수단;
    상기 비특정 텍스트 검출 수단으로부터 추출된 비특정 텍스트의 평균 텍스트 길이를 계산하는 평균 텍스트 길이 계산 수단;
    목표 언어의 비특정 문자의 표준 평균 텍스트 길이를 앞서서 저장하는 표준 텍스트 길이 저장 수단; 및
    평균 텍스트 길이 계산 수단으로부터 추출된 입력 텍스트의 비특정 문자 길이와 상기 표준 텍스트 길이 저장 수단으로부터 추출된 표준 평균 텍스트 길이를 비교하는 비교 수단을 구비하고, 입력 텍스트가 목표 언어에 해당하는 특성을 가지는 텍스트에 대응하는 지를 결정하는 정보 처리 시스템.
  3. 검출된 목표 언어의 특정 언어의 특정 범위에서 문자 코드의 문자로써 특정 범위 문자를 입력 텍스트의 모든 문자로부터 검출 및 카운팅하는 특정 범위 문자 카운팅 수단;
    상기 특정 범위 문자 카운팅 수단에 의해 검출된 특정 범위 문자수와 입력 텍스트의 문자수로부터 특정 범위 문자 출현율을 계산하는 발생률 계산 수단;
    목표 언어의 특정 범위 문자의 표준 발생률을 앞서서 저장하는 표준 발생률 저장 수단; 및
    상기 발생률 계산 수단으로부터 추출된 입력 텍스트의 특정 범위 문자 발생률과 상기 표준 발생률 저장 수단으로부터 검출된 표준 발생률을 비교하는 비교 수단을 포함하고,
    입력 텍스트가 목표 언어에 해당하는 특성을 가지는 텍스트에 대응하는지를 결정하는 정보 처리 시스템.
  4. 제 3 항에 있어서, 상기 비교 수단이 특정 범위 문자를 특정화하는 2개 이상범위를 갖는 것에 의해 특정 범위 문자를 2개 이상의 특정 범위 문자의 출현율을 비교하는 정보 처리 시스템.
  5. 텍스트를 등록할 때에, 입력 텍스트에 존재하지 않는 특정 제어 문자 코드인 분리 문자를 입력 텍스트의 의미가 분리되는 텍스트인 키워드들 간의 경계로 삽입하는 제 1 분리 문자 삽입 수단;
    분리 문자가 삽입된 텍스트에서 찾아진다면, 분리 문자를 중간에 놓이게 한 3개 문자 연쇄를 검출하는 검출 수단;
    분리 문자의 앞과 뒤에 위치된 문자로 구성된 문자 연쇄, 분리 문자와 그 분리 문자 앞에 위치한 문자로 구성된 문자 연쇄, 및 분리 문자와 그 분리 문자 뒤에 위치한 문자로 구성된 문자 연쇄를 발생하는 문자 연쇄 발생 수단; 및
    검색시에 입력 텍스트의 시작 또는 입력 텍스트의 종료 또는 입력 텍스트의 시작과 종료 분리 문자를 삽입하는 제 2 분리 문자 삽입 수단을 포함하는 정보 처리 시스템.
  6. 텍스트를 등록할 때 키워드 사이에서 주변에 분리 문자를 키워드들 간의 경계로 삽입하는 분리 문자 삽입 수단;
    분리 문자와 그 분리 문자 앞에 위치한 문자로 구성된 문자 연쇄, 분리 문자와 분리 문자 뒤에 위치한 문자로 구성된 문자 연쇄, 및 분리 문자 삽입 수단에 의해 발생된 입력 텍스트의 문자가 특정 분리 문자라면, 분리 문자 앞과 뒤에 위치한 문자로 구성된 문자 연쇄를 발생하는 제 1 문자 연쇄 발생 수단;
    입력 문자가 분리 문자로 되지 않으면, 처음 문자와 그 뒤의 문자로 구성된 2개 문자 연쇄를 발생하는 제 2 문자 연쇄 발생 수단;
    2개 문자 연쇄와 그 2개 문자 연쇄의 각 문자의 출현 횟수를 저장하는 문자 연쇄 저장 수단;
    특정 분리 문자를 대조된 텍스트의 시작 및 종료에 삽입하는 검색 텍스트 발생 수단;
    상기 검색 텍스트 생성 수단에 의해 생성된 검색 텍스트의 처음 문자 및 그 뒤의 문자로 구성된 2개 문자 연쇄를 생성하는 제 3 문자 연쇄 산출 수단;
    문자 연쇄 저장 수단으로부터 제 3 문자 연쇄 수단에 의해 생성된 문자 연쇄로써, 같은 문자 연쇄를 검출하고 그 출현 횟수를 검출하는 검출 수단;
    전자 연쇄의 제 2 문자가 후자 연쇄의 제 1 문자인 2개의 연속적인 연쇄의 전자 연쇄의 제 2 문자의 출현 횟수가 후자 연쇄의 제 1 문자의 출현 수와 동일한지를 결정하는 비교 수단을 포함하고,
    대조시에, 전자 연쇄의 제 2 문자의 출현 횟수가 후자 연쇄의 제 1 문자의 출현 횟수와 동일한지를 제 3 문자 연쇄 생성 수단에 의해 추출된 모든 연쇄를 통해 비교 수단에 의해 결정하고, 그러므로 키워드 검색 텍스트의 검출 및 그 검색 텍스트에 분리 문자를 삽입하여 형성된 경계의 검출에 의해 수행되는 정보 처리 시스템.
  7. 텍스트를 등록할 때 키워드 사이에서 주변에 분리 문자를 키워드들 간의 경계로 삽입하는 분리 문자 삽입 수단;
    분리 문자와 그 분리 문자 앞에 위치한 문자로 구성된 문자 연쇄, 분리 문자와 분리 문자 뒤에 위치한 문자로 구성된 문자 연쇄, 및 분리 문자 삽입 수단에 의해 발생된 입력 텍스트의 문자가 특정 분리 문자라면, 분리 문자 앞과 뒤에 위치한 문자로 구성된 문자 연쇄를 발생하는 제 1 문자 연쇄 발생 수단;
    입력 문자가 분리 문자로 되지 않으면, 처음 문자와 그 뒤의 문자로 구성된 2개 문자 연쇄를 발생하는 제 2 문자 연쇄 발생 수단;
    2개 문자 연쇄와 그 2개 문자 연쇄의 각 문자의 출현 횟수를 저장하는 문자 연쇄 저장 수단;
    특정 분리 문자를 대조된 텍스트의 시작 및 종료에 삽입하는 검색 텍스트 발생 수단;
    상기 검색 텍스트 셍성 수단에 의해 생성된 검색 텍스트의 처음 문자 및 그 뒤의 문자로 구성된 2개 문자 연쇄를 생성하는 제 3 문자 연쇄 산출 수단;
    문자 연쇄 저장 수단으로부터 제 3 문자 연쇄 수단에 의해 생성된 문자 연쇄로써, 같은 문자 연쇄를 검출하고 그 출현 횟수를 검출하는 검출 수단;
    전자 연쇄의 제 2 문자가 후자 연쇄의 제 1 문자인 2개의 연속적인 연쇄의 전자 연쇄의 제 2 문자의 출현 위치가 후자 연쇄의 제 1 문자의 출현 위치와 동일한지를 결정하는 비교 수단을 포함하고,
    대조시에, 전자 연쇄의 제 2 문자의 출현 위치가 후자 연쇄의 제 1 문자의 출현 횟수와 동일한지를 제 3 문자 연쇄 생성 수단에 의해 추출된 모든 연쇄를 통해 비교 수단에 의해 결정하고, 그러므로 키워드 검색 텍스트의 검출 및 그 검색 텍스트에 분리 문자를 삽입하여 형성된 경계의 검출에 의해 수행되는 정보 처리 시스템.
  8. 제 6 항 또는 제 7 항에 있어서, 특정 분리 문자를 대조된 텍스트의 시작으로 삽입하는 제 2 검색 텍스트 생성 수단이 상기 검색 텍스트 생성 수단을 대신해서 제공되고, 검색 텍스트의 전방 일치 검색이 검색 텍스트의 선두 문자의 경계를 검출함에 의해 수행되는 정보 처리 시스템.
  9. 제 6 항 또는 제 7 항에 있어서, 특정 분리 문자를 대조된 텍스트의 후미로 삽입하는 제 3 검색 텍스트 생성 수단이 검색 텍스트의 발생 수단을 대신해서 제공되고, 검색 텍스트의 후방 일치 검색이 검색 텍스트의 종료 문자의 경계를 검출함에 의해 수행되는 정보 처리 시스템.
  10. 텍스트 데이터가 몇 개의 설정된 언어 카테고리 중에서 어떤 언어에 포함되는 지를 한번에 패턴 식별하는 정보 처리 시스템에서, 패턴 식별에 사용된 코드화된 문자가 복수의 1 차원 코드 그룹으로 코드 테이블로서 분류된 문자 코드에 대해 문자 코드 그룹의 조합으로 구성되는 패턴 그룹을 구성하는 프로그램을 기록하는 컴퓨터 판독 가능한 저장 매체에 있어서, n 문자 조합으로 구성되고, 조합을 구성하는 코드가 포함되는 다수의 문자 그룹으로 구성된 제 1 데이터와 상기 제 1 데이터의 조합 패턴에 대응하는 수치를 갖는 제 2 데이터와, 상기 제 1 및 제 2 데이터의 조합으로부터 설정된 패턴 분류에 배정된 제 3 데이털 패턴 저장하는 단계를 갖는 프로그램을 기록한 컴퓨터로 판독가능한 저장 매체.
  11. 제 10 항에 있어서, 상기 제 1 데이터가 제 2 문자 조합으로 구성되고, 그 조합을 구성하는 코드가 다수의 문자 그룹 중 어느 하나에 포함되는 문자 그룹이 서로 조합되는 저장 매체.
  12. 텍스트 데이터가 몇 개의 설정된 언어 카테고리 중에서 포함되고, 패턴 식별에 사용되는 코드화된 문자가 코드 테이블인 다수의 1 차원 코드 그룹으로 분류되는 문자 코드에 대해 문자 코드 그룹의 조합으로 구성되는 패턴 그룹을 구성하는 프로그램을 기록하는 저장 매체와;
    텍스트로부터 2개 문자 연쇄를 검출하고, 2개 문자 연쇄를 구성하는 문자가 포함되는 문자 그룹을 결정하는 문자 연쇄 추출 수단;
    문자 연쇄 추출 수단에 의해 결정된 문자 그룹의 조합이 패턴 저장 수단의 패턴과 일치하는 지를 비교하고, 일치 패턴의 수치를 계산하는 패턴 계산 수단; 및
    패턴 계산 수단에서 계산된 모든 문자 연쇄 최대 개수를 갖는 패턴 및 패턴 저장 수단에 저장된 제 1,2 및 3 데이터의 개수와 일치하는 그 조합 패턴을 패턴 저장 수단의 패턴 조합으로써 결정하는 결정 수단을 구비하고,
    상기 프로그램은 n 문자 조합으로 구성되고 조합을 구성하는 코드를 포함하는 다수의 문자 그룹으로 구성된 제 1 데이터와, 제 1데이터의 조합 패턴에 대응하는 수치를 갖는 제 2 데이터와, 제 1 및 제 2 데이터의 조합으로부터 설정된 패턴 분류에 배정된 제 3 데이터를 패턴 저장하는 단계를 구비하는 정보 처리 시스템.
  13. 제 12 항에 있어서, 패턴 결정 수단이 모든 문자 연쇄에 대해 패턴 계산 수단에 의해 계산된 수치의 평균값을 계산하고, 패턴 저장 수단의 제 2 데이터에 최 근접한 값을 패턴 저장 수단의 패턴 조합으로서 결정하는 정보 처리 시스템.
  14. 제 12 항에 있어서, 패턴 결정 수단이 모든 문자 연쇄에 대해 패턴 계산 수단에 의해 계산된 최대 빈도치를 계산하고, 패턴 저장 수단의 제 2 데이터에 최 근접한 값을 패턴 저장 수단의 패턴 조합으로서 결정하는 정보 처리 시스템.
  15. 텍스트 데이터가 몇게의 설정된 언어 카테고리 중 어떤 언어에 포함되는 지를 한번에 패턴 식별하는 정보 처리 시스템에서, 문자 코드의 조합으로 패턴을 구성하는 패턴 그룹에서 문자 코드가 각기 겹치게 되면, 패턴 식별용 패턴 그룹의 조합으로 구성되는 패턴 그룹을 구성하는 프로그램을 기록하는 컴퓨터로 판독 가능한 저장 매체에 있어서,
    상기 프로그램은 패턴 이전에 알려진 패턴 그룹에 대해 2 개 문자 조합 패턴으로 구성되는 제 1 데이터,
    제 1 데이터를 표시하는 패턴 형태로 구성되는 제 2 데이터,
    제 1 데이터와 제 2 데이터의 조합의 출현 횟수를 도시하는 제 3 데이터를 패턴 저장하는 단계를 포함하는 컴퓨터로 판독 가능한 저장 매체.
  16. 텍스트 데이터가 몇 개의 설정된 언어 카테고리 중에 포함되고, 문자 코드의 조합으로 구성되는 패턴 그룹에서 문자 코드가 각기 겹치게 되면, 패턴 식별용 패턴 그룹의 조합으로 구성되는 패턴 그룹을 구성하는 프로그램을 기록하는 컴퓨터로 판독 가능한 저장 매체에 기록된 패턴 데이터의 모든 2개 문자 연쇄를 추출하는 문서 연쇄 추출 수단;
    각 문자 연쇄의 발생 횟수를 계산하고 문자 연쇄 패턴 및 출현 횟수를 패턴 형태마다 저장 매체에 저장하는 문서 연쇄 빈도 카운팅 수단;
    추출된 문자 연쇄에 대응하는 문자 연쇄 패턴의 발생 횟수를 패턴 형태마다 저장 매체로부터 추출하는 빈도 카운팅 수단;
    빈도 카운팅 수단으로부터 추출된 발생 횟수와 모든 추출된 문자 연쇄를 대조하고, 설정된 패턴을 포함하는 패턴 형태로서 가장 큰 총 발생 횟수를 가지는 패턴 형태를 결정하는 대조 수단;
    상기 프로그램은 이미 공지된 패턴 그룹에 대해 2개 문자 조합 패턴으로 구성되는 제 1 데이터, 제 1 데이터를 표시하는 패턴 형태로 구성되는 제 2 데이터, 제 1 및 2 데이터의 조합의 출현 횟수를 도시하는 제 3 데이터를 패턴 저장하는 단계를 구비하고,
    상기 문자 연쇄 추출 수단이 2개 문자 연쇄를 설정된 패턴으로부터 추출하는 정보 처리 시스템.
  17. 제 16항에 있어서, 대조 수단은 총 출현 횟수가 소정의 임계값을 초과하는 패턴 형태를 설정된 패턴을 포함하는 패턴 형태로서 결정하는 정보 처리 시스템.
  18. 제 17 항에 있어서, 대조 수단은 출현 횟수가 모든 문자 연쇄를 통해 소정의 특정 임계값을 초과하는 문자 연쇄 패턴의 최대 총 출현횟수를 가지는 패턴 형태를 설정된 패턴을 포함하는 패턴 형태로서 결정하는 정보 처리 시스템.
  19. 제 10 항, 제 11 항, 제 15 항에 있어서, 모든 문자 연쇄가 패턴 데이터로부터 추출될 때, 문자 형태 또는 적어도 1개의 언어를 단어로 분리하는 분리 수단;
    분리 수단으로부터 문자 연쇄를 추출하는 문자 연쇄 추출 수단;
    문자 연쇄가 1개의 문자로 구성된다면, 문자 연쇄를 형성하도록 같은 문자를 반복하는 연쇄 변환 수단;
    각 문자 연쇄의 출현 횟수를 계산하고 그 후 연쇄 패턴 및 발생 횟수 패턴 형태마다 저장 매체로 저장하는 문자 연쇄 빈도 카운팅 수단;
    추출된 문자 연쇄에 대응하는 문자 연쇄 패턴의 발생 횟수를 패턴 형태마다 저장 매체로부터 추출하는 빈도 카운팅 수단; 및
    빈도 카운팅 수단으로부터 추출된 발생 횟수와 모든 추출된 문자 연쇄를 대조하고 최대 종 발생 횟수를 가지는 패턴 형태를 설정된 패턴을 포함하는 패턴 형태로서 결정하는 대조 수단을 더 포함하며, 상기 문자 연쇄 추출 수단이 2개 문자 연쇄를 설정된 패턴으로부터 추출하는 정보 처리 시스템.
  20. 텍스트 데이터가 몇 개의 설정된 언어 카테고리 중 어떤 언어에 포함되는 지를 한번에 패턴 식별하는 정보 처리 시스템에서, 코드화된 문자가 패턴 식별용으로 사용되는 문자 코드에 대해 문자 코드 그룹의 조합으로 구성되는 패턴 그룹을 구성하는 프로그램을 기록하는 컴퓨터로 판독 가능한 저장 매체에 있어서,
    상기 프로그램은 텍스트 데이터에 대해 패턴 분류 또는 언어마다 2개 문자 조합으로 구성되는 문자 연쇄 패턴의 문서 번호, 및 문자 연쇄 패턴을 저장하는 단계를 구비하는 정보 처리 시스템.
  21. 텍스트 데이터가 몇 개의 설정된 언어 카테고리 중에서 포함되고, 코드화된 데이터를 패턴 식별용으로 사용하는 문자 코드에 대해 문자 코드 그룹의 조합으로 구성되는 패턴 그룹을 구성하는 프로그램을 판독하는 컴퓨터로 판독 가능한 저장 매체에 기록된 텍스트 데이터의 모든 2개 문자 연쇄를 추출하는 문자 연쇄 추출 수단;
    각 문자 연쇄의 발생 횟수를 계산하고, 문자 연쇄 패턴과 문서 번호를 패턴 형태마다 계산하는 문자 연쇄 빈도 카운팅 수단;
    문자 연쇄 카운팅 수단에 의해 얻어진 문자 연쇄 패턴과 자장 매체의 문자 연쇄 패턴의 빈도를 패턴 분류마다 꺼내고, 각 패턴 식별에 대해 문자 연쇄 패턴의 총 빈도값을 비교하고, 문자 연쇄 패턴 , 출현횟수, 및 문서 번호를 큰 패턴 분류를 갖는 저장 매체의 패턴 식별로 저장하는 문자 빈도 비교 수단;
    추출된 문자 연쇄에 대응하는 문자 연쇄 패턴의 발생 횟수를 패턴 형태마다 저장 매체로부터 추출하는 빈도 카운팅 수단; 및
    빈도 카운팅 수단으로부터 추출된 발생 횟수와 모든 추출된 문자 연쇄를 대조하고, 그 후 설정된 패턴을 포함하는 패턴 형태로서 최대 총 출현 횟수를 갖는 패턴 형태를 결정하는 대조 수단을 구비하고,
    상기 프로그램은 텍스트에 대해 패턴 분류 또는 언어마다 2개 문자 조합으로 구성되는 문자 연쇄 패턴의 문서 번호, 및 문자 연쇄 패턴을 저장하는 단계를 구비하고,
    상기 문자 연쇄 추출 수단이 2 개 문자 연쇄를 설정된 패턴으로부터 추출하는 정보 처리 시스템.
  22. 제 21 항에 있어서, 제 21 항에 기재된 문자 빈도 비교 수단은 총 출현 횟수가 소정의 임계값을 초과하는 패턴 형태를 설정된 패턴을 포함하는 패턴 형태로서 결정하는 정보 처리 시스템.
  23. 제 22 항에 있어서, 제 22 항에 기재된 문자 빈도 비교 수단은 출현 횟수가 모든 문자 연쇄를 통해 소정의 임계값을 초과하는 문자 연쇄 패턴의 최대 총 출현 빈도를 갖는 패턴 형태를 설정된 패턴을 포함하는 패턴 형태로서 결정하는 정보 처리 시스템.
  24. 텍스트 데이터가 문자 폰트마다 문자코드를 결정하는 몇 개의 설정된 언어 카테고리 중 어떤 언어에 포함되는 지를 한번에 패턴 식별하는 정보 처리 시스템에 서, 패턴 식별에 사용되는 문자 코드 그룹의 조합으로 구성되는 패턴 그룹을 구성하는 프로그램을 기록하는 컴퓨터로 판독가능한 한 저장 매체에 있어서,
    상기 프로그램은 제 1 문자의 발생률이 한자, 히라가나/카타카나, 기호, 한글, 및 다른 문자의 문자 형태마다 저장되는 개별 언어 분포 테이블에서 언어마다 문자를 구성하는 2개 문자 조합을 저장하는 단계를 포함하는 컴퓨터로 판독가능한 매체.
  25. 통합 코드 또는 로컬 코드를 사용된 문자 코드 시스템으로써 판독하는 개별 코드 지정 수단;
    입력 텍스트 데이터로부터 모든 2개 문자 연쇄를 추출하는 문자 연쇄 추출 수단;
    한자, 히라가나/카타카나, 기호, 한글, 및 기타의 2개 문자 체인을 언어마다 지정된 시스템에 따라 분류하고, 그것들의 발생률을 각기 계산하는 출현 횟수 카운팅 수단;
    지정된 코드 시스템에서 언어마다의 한자, 히라가나/카타카나, 기호, 한글의 출현율 및 저장 수단에 의해 관리된 언어마다의 한자, 히라가나/카타카나, 기호, 한글의 출현율간의 총 거리를 계산하는 개별 언어 분포간 거리 계산 수단;
    개별 언어 분포 간 거리 계산 수단으로 하여금 최소 거리값을 계산하게 하고, 그 후 최소 거리값을 갖는 언어 카테고리를 입력 텍스트의 언어로 결정하는 비교 수단을 구비하는 정보 처리 시스템.
KR1020000006634A 1999-02-12 2000-02-12 정보 처리 시스템 KR20010006632A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP99-34053 1999-02-12
JP11034053A JP2000231559A (ja) 1999-02-12 1999-02-12 情報処理装置

Publications (1)

Publication Number Publication Date
KR20010006632A true KR20010006632A (ko) 2001-01-26

Family

ID=12403556

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000006634A KR20010006632A (ko) 1999-02-12 2000-02-12 정보 처리 시스템

Country Status (5)

Country Link
JP (1) JP2000231559A (ko)
KR (1) KR20010006632A (ko)
CN (1) CN1193306C (ko)
SG (1) SG92668A1 (ko)
TW (1) TW497048B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180109408A (ko) * 2017-03-28 2018-10-08 주식회사 와이즈넛 언어 판별 장치 및 방법

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004213240A (ja) 2002-12-27 2004-07-29 Casio Comput Co Ltd データ構造、情報表示制御装置及びプログラム
US8005782B2 (en) 2007-08-10 2011-08-23 Microsoft Corporation Domain name statistical classification using character-based N-grams
US8041662B2 (en) 2007-08-10 2011-10-18 Microsoft Corporation Domain name geometrical classification using character-based n-grams
JP4550876B2 (ja) * 2007-10-01 2010-09-22 株式会社東芝 構造化文書検索システム及びプログラム
KR101049358B1 (ko) * 2008-12-08 2011-07-13 엔에이치엔(주) 유사어 결정 방법 및 시스템
US10198429B2 (en) * 2015-12-18 2019-02-05 Intel Corporation Automatic text language selection mechanism
JP7243109B2 (ja) * 2018-10-02 2023-03-22 カシオ計算機株式会社 電子機器、電子機器の制御方法及びプログラム
CN111160015B (zh) * 2019-12-24 2024-03-05 北京明略软件系统有限公司 一种实现文本分析的方法、装置、计算机存储介质及终端
CN116275587B (zh) * 2023-04-17 2023-10-27 霖鼎光学(江苏)有限公司 一种激光切割工件的控制系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0744702B1 (en) * 1995-05-22 2002-11-13 Matsushita Electric Industrial Co., Ltd. Information searching apparatus for searching text to retrieve character streams agreeing with a key word
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
JP3467160B2 (ja) * 1996-12-13 2003-11-17 ブラザー工業株式会社 多言語対応通信システム、サーバー装置及びサーバー装置の文書送信方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180109408A (ko) * 2017-03-28 2018-10-08 주식회사 와이즈넛 언어 판별 장치 및 방법

Also Published As

Publication number Publication date
CN1263316A (zh) 2000-08-16
SG92668A1 (en) 2002-11-19
CN1193306C (zh) 2005-03-16
JP2000231559A (ja) 2000-08-22
TW497048B (en) 2002-08-01

Similar Documents

Publication Publication Date Title
Downey et al. Locating complex named entities in web text.
CN111639177B (zh) 文本提取方法和装置
US5752051A (en) Language-independent method of generating index terms
US6999914B1 (en) Device and method of determining emotive index corresponding to a message
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN113076748B (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
KR20010006632A (ko) 정보 처리 시스템
JPH09288676A (ja) 全文インデックス作成装置および全文データベース検索装置
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
Soori et al. Text similarity based on data compression in Arabic
JP2009098952A (ja) 情報検索システム
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
Dukic et al. Detection of Hate Speech Spreaders with BERT.
CN109800240A (zh) Sql语句归类方法、装置、计算机设备和存储介质
CN115577269A (zh) 一种基于字符串文本特征相似度的黑名单模糊匹配方法
KR100300741B1 (ko) 전체 문장의 문자 데이터의 기록매체 및 문자열 대조장치
Labusch et al. Entity Linking in Multilingual Newspapers and Classical Commentaries with BERT.
Martín-del-Campo-Rodríguez et al. Unsupervised authorship attribution using feature selection and weighted cosine similarity
JP6807201B2 (ja) 情報処理装置
JP4183767B2 (ja) 文字列検索装置およびその検索方法
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
CN110969009B (zh) 一种汉语自然语言文本的词语切分方法
CN115334039B (zh) 一种基于人工智能模型的特征构建方法及装置
US20240062015A1 (en) Natural language processing for descriptive language analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application