KR20100034868A - 구조계산서 텍스트 정보의 계층 구조 추출 방법 - Google Patents
구조계산서 텍스트 정보의 계층 구조 추출 방법 Download PDFInfo
- Publication number
- KR20100034868A KR20100034868A KR1020080094076A KR20080094076A KR20100034868A KR 20100034868 A KR20100034868 A KR 20100034868A KR 1020080094076 A KR1020080094076 A KR 1020080094076A KR 20080094076 A KR20080094076 A KR 20080094076A KR 20100034868 A KR20100034868 A KR 20100034868A
- Authority
- KR
- South Korea
- Prior art keywords
- equation
- document
- information
- title
- string
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
Claims (15)
- 텍스트 파일 형식의 구조계산서로부터, 각 행에 따라 문자열 정보를 머리기호, 제목, 내용, 참고문헌으로 구분하여 임시 테이블에 순차적으로 저장하는 단계;상기 저장된 임시 테이블의 머리기호에 대한 정보를 이용하여, 상기 각 제목이 문서의 트리구조에서 위치하는 계층정보를 부여하는 계층정보 부여단계;상기 계층정보와 상기 임시 테이블에 저장된 정보들을 이용하여 XML 파일을 생성하는 XML 파일 생성단계;를포함하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.
- 제1항에 있어서,상기 계층정보 부여단계는상기 제목에 대한 머리기호의 존재여부를 판별하는 단계;상기 제목 중 순수 제목에 대한 문자열이 상기 제목에 부합하는지 여부를 판별하는 단계;를포함하는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.
- 제2항에 있어서,상기 구조계산서 텍스트 문서는 순서를 가진 유한한 문자열 집합으로서 문자 열 집합은 유한한 행(line)으로 구분되어 있으며, i번째 행의 문자열 집합 Si는 수학식 1을 이용하여 정의되는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.[수학식 1]Si:: = hi|ci|hiciri|hir|ciri(여기서, hi는 제목에 대한 문자열 집합으로 hi = s1s2...sl, ci는 내용에 대한 문자열 집합으로 ci = sl +1sl +2...sm, ri는 참조에 대한 문자열 집합으로서 ri = sm+1sm+2...sn이며, 0≤l≤m≤n.)
- 제3항에 있어서,상기 제목 문자열 hi는 수학식 2,3a,3b에 의해 정의되는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.[수학식 2]hi:: = hsihcihdi|hsihci(여기서, hsi는 제목을 표기하기 위해 사용된 문자열의 집합으로 hsi = s1s2...so, hsi ⊂ ∑+, hci는 순수 제목에 대한 문자열 집합으로 hci= so+1so+2...sp, hdi는 hci가 끝남을 나타내는 구분자(delimiter) 기호로서 hdi = sl 각각 의미하고, o와 p및 l의 관계는 수학식 3a,3b와 같다.)[수학식 3a](hsi≠ø ∧ hci≠ø) → 1≤o≤p≤l[수학식 3b](hsi≠ø ∨ hci≠ø) → o=p=l=0
- 제4항에 있어서,상기 제목을 나타낼 때 사용되는 미리 정의된 문자열 그룹 ID의 집합을 HSID라 하고, ∀ID, HSID ⊂ ∑+일 때, hsi=ø의 조건은 수학식 4에 의해 정의되는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.[수학식 4]∀ID, hsi∈ HSID → hsi=ø(ID = 1,2,...)
- 제5항에 있어서,상기 문자열 Si내에서 j번 이상 출현하지 말아야하는 금칙 문자들의 집합을 Xj라 하고, xj ∈ Xj일 때, hci=ø의 조건은 수학식 5에 의해 정의되는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.[수학식 5]∀xj, ∃xj(n터(hci)>j) → hci=ø
- 제7항에 있어서,상기 참조 문자열 ri은 수학식 7,8에 의해 정의되는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.[수학식 7]ri:: = rni|rsirnirpi|rnirpi(여기서, rsi는 참고문헌의 문자열 구분을 위해 사용된 구분자이며, rni은 참고문헌의 이름을 나타내는 문자열의 집합, 그리고 rpi는 참고문헌의 쪽 번호와 같이 부가적인 설명을 나타내는 문자열 집합이며, ri=ø이기 위한 조건은 수학식 8과 같다.)[수학식 8]rni≠ø ∧ rsi≠ø → ri≠ø
- 제11항에 있어서,상기 XML 파일 생성단계는트리의 깊이우선(depth-first) 순서에 의해 수행되는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.
- 제12항에 있어서,기준 머리기호 집합 BS = bs1,bs2,...bsn,...으로 순서를 가지고 있고, bsn은 문서에서 한번만 출현하고, 문서에서 임의의 줄 i에서 나타나는 BS에 해당되는 목차의 머리기호를 bsn i라 할 때 n은 i가 증가함에 따라 항상 증가하는 것으로 정의되는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.
- 제13항에 있어서,하나의 상기 BS는 정해진 하나의 깊이에 매칭되어야 하며, 여러 개의 상기 BS가 정의되는 경우에 각 깊이는 순차적으로 증가하는 것으로 정의되는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.
- 제14항에 있어서,기준 머리기호 집합으로 정의된 그룹을 BSDc라하고, 이때 Dc는 문서에서 BS의 원소가 문서에서 차지하는 계층을 나타낼 때, i번째 목차가 트리에서 차지하는 계층 Di는 수학식 12,13에 의해 정의되는 것을 특징으로 하는 구조계산서 텍스트 정보의 계층 구조 추출 방법.[수학식 12](여기서, g(hsi)는 머리기호 hsi를 입력할 때 그룹 ID을 변환하는 함수이며, j=i-1로 이전 제목을 의미하고, k=max(K)로 K={y|1≤y≤j,g(hsy)=g(hsi)}이고 만약 K=ø이면 k=0이며, E(j,k)는 수학식 13과 같다.)[수학식 13](여기서, lh는 기준 계층 그룹 중 계층이 가장 큰 것을 나타내는 기준 그룹의 식별번호를 의미하고, e=max(L)로서 L={z|1≤z≤j,g(hsz)∈BSdc}, begin은 순서를 가지는 머리기호 그룹들에서 제일 처음에 나타나는 머리기호의 집합을 의미한다.)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20080094076A KR101104753B1 (ko) | 2008-09-25 | 2008-09-25 | 구조계산서 텍스트 정보의 계층 구조 추출 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20080094076A KR101104753B1 (ko) | 2008-09-25 | 2008-09-25 | 구조계산서 텍스트 정보의 계층 구조 추출 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100034868A true KR20100034868A (ko) | 2010-04-02 |
KR101104753B1 KR101104753B1 (ko) | 2012-01-11 |
Family
ID=42212893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20080094076A KR101104753B1 (ko) | 2008-09-25 | 2008-09-25 | 구조계산서 텍스트 정보의 계층 구조 추출 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101104753B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101499571B1 (ko) * | 2014-04-08 | 2015-03-10 | 숭실대학교산학협력단 | 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101591324B1 (ko) * | 2015-11-20 | 2016-02-03 | (주)다봄소프트 | 데이터의 계층관계 추출시스템 및 그 방법 |
CN110781542A (zh) * | 2019-10-10 | 2020-02-11 | 中冶京诚工程技术有限公司 | Bim模型数据处理方法和装置 |
-
2008
- 2008-09-25 KR KR20080094076A patent/KR101104753B1/ko active IP Right Grant
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101499571B1 (ko) * | 2014-04-08 | 2015-03-10 | 숭실대학교산학협력단 | 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101591324B1 (ko) * | 2015-11-20 | 2016-02-03 | (주)다봄소프트 | 데이터의 계층관계 추출시스템 및 그 방법 |
CN110781542A (zh) * | 2019-10-10 | 2020-02-11 | 中冶京诚工程技术有限公司 | Bim模型数据处理方法和装置 |
CN110781542B (zh) * | 2019-10-10 | 2023-12-01 | 中冶京诚工程技术有限公司 | Bim模型数据处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
KR101104753B1 (ko) | 2012-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8356045B2 (en) | Method to identify common structures in formatted text documents | |
Constantin et al. | The document components ontology (DoCO) | |
WO2014169334A1 (en) | Methods and systems for improved document comparison | |
CN106502991B (zh) | 出版物处理方法和装置 | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
Hong et al. | Information extraction for search engines using fast heuristic techniques | |
CN114239588A (zh) | 文章处理方法、装置、电子设备及介质 | |
Betti et al. | Expert concept-modeling ground truth construction for word embeddings evaluation in concept-focused domains | |
KR101104753B1 (ko) | 구조계산서 텍스트 정보의 계층 구조 추출 방법 | |
CN115658993B (zh) | 一种网页的核心内容的智能化抽取方法及系统 | |
CN117390329A (zh) | 网页标注方法、装置及设备 | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
Klampfl et al. | Reconstructing the logical structure of a scientific publication using machine learning | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN115221868A (zh) | 一种需求条目分割方法 | |
KR101004141B1 (ko) | 텍스트 파일의 xsd변환과 스키마 매칭을 통한 구조계산서 검사방법 | |
Zhang et al. | A tag recommendation system based on contents | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
Lim et al. | Generalized and lightweight algorithms for automated web forum content extraction | |
Rastan | Towards generic framework for tabular data extraction and management in documents | |
Zhou et al. | Efficient web page main text extraction towards online news analysis | |
Yu et al. | A category-driven approach to deriving domain specific subsets of Wikipedia | |
De Oliveira Santarosa Martins | Metadata Extraction and Digital News Preservation | |
Zhang et al. | A Semantic Tag Stock For Content-oriented Image Annotation | |
JP2005018811A (ja) | 文字列検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20141223 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20151224 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20161227 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20171221 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20190102 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20200102 Year of fee payment: 9 |