KR100515698B1 - 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치 - Google Patents
색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치 Download PDFInfo
- Publication number
- KR100515698B1 KR100515698B1 KR10-2003-0031164A KR20030031164A KR100515698B1 KR 100515698 B1 KR100515698 B1 KR 100515698B1 KR 20030031164 A KR20030031164 A KR 20030031164A KR 100515698 B1 KR100515698 B1 KR 100515698B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- dictionary
- phrases
- words
- creating
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Abstract
Description
Claims (5)
- 하나 이상의 문서를 포함하는 문서저장부로부터 실행명령부의 실행명령에 근거하여 검출기로 특정문서를 가져오는 단계;상기 검출기에서 당해 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하는 단계;상기 검출기에서 서픽스 어레이(suffix array)내의 각 문자열 포인터들에 대해 가나다 순으로 정렬하는 단계;상기 검출기에서 정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하는 단계; 그리고상기 검출기에서 검출된 단어 및 구문으로부터 특정문서 고유사전(DSD)를 작성하는 단계;를 포함하는 것을 특징으로 하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법.
- 하나 이상의 문서를 저장하고 있는 문서저장기;상기 문서저장기에 저장되어 있는 특정문서에 대한 사전작성의 실행을 명령하는 실행명령부;상기 실행명령부로부터 실행명령을 받아 당해 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하고 그 서픽스 어레이(suffix array)내의 각 문자열 포인터들에 대해 가나다 순으로 정렬한 후, 정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하여 특정문서 고유사전(DSD)을 작성하는 검출기;를 포함하는 것을 특징으로 하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성을 위한 장치.
- 하나의 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하는 단계;서픽스 어레이(suffix array)서픽스 어레이(suffix array)열 포인터들에 대해 가나다 순으로 정렬하는 단계;정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하는 단계; 그리고검출된 단어 및 구문으로부터 특정문서 고유사전(DSD)을 작성하는 단계;를 포함하는 것을 특징으로 하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법.
- 제3항에 있어서,작성된 특정문서 고유사전(DSD)과 기존 형태소 사전을 통합하여 문서에 대한 형태소 분석 사전을 작성하는 단계;를 더 포함하는 것을 특징으로 하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법.
- 제3항에 기재된 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0031164A KR100515698B1 (ko) | 2003-05-16 | 2003-05-16 | 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0031164A KR100515698B1 (ko) | 2003-05-16 | 2003-05-16 | 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040098862A KR20040098862A (ko) | 2004-11-26 |
KR100515698B1 true KR100515698B1 (ko) | 2005-09-16 |
Family
ID=37376561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2003-0031164A KR100515698B1 (ko) | 2003-05-16 | 2003-05-16 | 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100515698B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101626711B1 (ko) | 2015-02-16 | 2016-06-01 | 울산대학교 산학협력단 | 사용자 말뭉치의 문맥정보 학습을 통한 형태소 분석 장치 및 방법 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2973003A4 (en) | 2013-03-15 | 2016-12-21 | The Dun And Bradstreet Corp | IMPROVEMENT OF MULTILINGUAL BUSINESS INDICES AND TRANSLITTER SYNTHESIS |
KR102255961B1 (ko) * | 2019-10-02 | 2021-05-25 | (주)디앤아이파비스 | 오류 단어 수정을 통한 특허문서의 단어 세트 획득 방법 및 시스템 |
KR102263309B1 (ko) * | 2019-10-02 | 2021-06-10 | (주)디앤아이파비스 | 이미지 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템 |
KR102255962B1 (ko) * | 2019-10-02 | 2021-05-25 | (주)디앤아이파비스 | 템플릿 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템 |
KR102085214B1 (ko) * | 2019-10-02 | 2020-03-04 | (주)디앤아이파비스 | 특허문서의 단어 세트 획득 방법 및 시스템 |
KR102291930B1 (ko) * | 2019-10-02 | 2021-08-23 | (주)디앤아이파비스 | 복합 명사구를 포함하는 특허문서의 단어 세트 획득 방법 및 시스템 |
KR102297962B1 (ko) * | 2019-10-02 | 2021-09-03 | (주)디앤아이파비스 | 특허문서의 단어 세트 의미 정보 획득 방법 및 시스템 |
-
2003
- 2003-05-16 KR KR10-2003-0031164A patent/KR100515698B1/ko active IP Right Grant
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101626711B1 (ko) | 2015-02-16 | 2016-06-01 | 울산대학교 산학협력단 | 사용자 말뭉치의 문맥정보 학습을 통한 형태소 분석 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20040098862A (ko) | 2004-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pasca et al. | Organizing and searching the world wide web of facts-step one: the one-million fact extraction challenge | |
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
US6654717B2 (en) | Multi-language document search and retrieval system | |
JP3636941B2 (ja) | 情報検索方法と情報検索装置 | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
US7761298B1 (en) | Document expansion in speech retrieval | |
US7676358B2 (en) | System and method for the recognition of organic chemical names in text documents | |
JP2000315216A (ja) | 自然言語検索方法および装置 | |
CN101308492A (zh) | 信息处理装置、信息处理方法、程序和记录介质 | |
KR101709055B1 (ko) | 오픈 웹 질의응답을 위한 질문분석 장치 및 방법 | |
KR100835706B1 (ko) | 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 | |
WO2012159558A1 (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
KR20070007001A (ko) | 질의어 자동 추출을 이용한 검색 방법 및 장치 | |
KR100515698B1 (ko) | 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치 | |
US20050086214A1 (en) | Computer system and method for multilingual associative searching | |
Chandrasekar et al. | Gleaning information from the web: Using syntax to filter out irrelevant information | |
Chandrasekar et al. | Institute for Research in Cognitive Science | |
KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
KR100374114B1 (ko) | 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기 | |
JPS5856071A (ja) | 日本語による検索システム | |
Ogawa et al. | A new indexing and text ranking method for Japanese text databases using simple-word compounds as keywords | |
KR102338949B1 (ko) | 기술문서 번역 지원 시스템 | |
JP2752864B2 (ja) | テキストベース情報検索装置 | |
Goller | STAN: Structural analysis for Web documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130620 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20140630 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20150619 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20160623 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20170524 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20180829 Year of fee payment: 14 |