KR101801257B1 - 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술 - Google Patents

효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술 Download PDF

Info

Publication number
KR101801257B1
KR101801257B1 KR1020160034884A KR20160034884A KR101801257B1 KR 101801257 B1 KR101801257 B1 KR 101801257B1 KR 1020160034884 A KR1020160034884 A KR 1020160034884A KR 20160034884 A KR20160034884 A KR 20160034884A KR 101801257 B1 KR101801257 B1 KR 101801257B1
Authority
KR
South Korea
Prior art keywords
data
construction
document
keywords
documents
Prior art date
Application number
KR1020160034884A
Other languages
English (en)
Other versions
KR20170115109A (ko
Inventor
지석호
신윤정
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020160034884A priority Critical patent/KR101801257B1/ko
Publication of KR20170115109A publication Critical patent/KR20170115109A/ko
Application granted granted Critical
Publication of KR101801257B1 publication Critical patent/KR101801257B1/ko

Links

Images

Classifications

    • G06F17/30539
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06F17/218
    • G06F17/2205
    • G06F17/30554
    • G06F17/30864
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities

Abstract

본 발명은 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술에 관한 것이다. 본 발명에 따른 텍스트마이닝 기술을 활용하여 개발한 건설문서 관리 및 시각화 시스템은 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술을 "UNI(User Needed Information)- Tacit" 시스템 프로토타입 개발에 적용한 것으로, 본 시스템은 건설 산업분야에서 문서를 효과적이고 효율적으로 관리할 수 있게 해줌으로써 건설 프로젝트의 생산성을 향상시킬 수 있고, 보다 구체적으로 기존에는 수동적으로 해오던 문서 관리의 과정을 상당 부분 자동화함으로써 불필요한 인력 소모 및 시간 소모를 감소시킬 수 있고, 상호 배타적으로 관리되어 오던 문서를 키워드 중심으로 관리할 수 있게 함으로써 업무의 효율을 증진시킬 뿐 아니라 협업을 용이하게 하여 생산성을 향상시킬 수 있다. 또한, 본 발명에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 시스템을 통한 문서 관리는 건설 산업뿐만 아니라 타 산업 분야에도 적용되어 복잡하고 다양한 형태의 문서를 효과적이고 효율적으로 관리하게 할 수 있다.

Description

효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술{Text-Mining Application Technique for Productive Construction Document Management}
본 발명은 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술 에 관한 것이다. 보다 구체적으로, 본 발명은 건설문서 데이터 관리 및 시각화 시스템과 그에 대한 방법에 관한 것이다.
국토교통부는 건설프로젝트 정보의 정형화 및 표준화 부재, 복합적인 생산주체 간의 효과적 정보전달 체계의 부재, 해외건설 등으로 인한 건설 프로젝트의 지역적 산재현상에 효과적으로 대처하기 위하여 체계적인 건설산업 정보관리의 필요성을 강조하며, 국가차원에서의 건설산업 정보통합관리체계를 마련하고자 건설산업기본법 제24조(건설산업정보의 종합관리)에 의거하여 1999년부터 현재까지 "건설산업 데이터베이스 구축사업"을 추진 중이다(국토교통부, 2014).
여러 산업분야에서는 관리, 생산, 조직운영 등 다양한 사업관리 분야에 발달된 정보통신기술과 e-business를 적극적으로 활용하여 사업적인 효과를 보고 있다. 건설분야에서도 건설산업의 특성상 건설지식이 갖는 비정형성 때문에 e-business를 적용하기 힘듦에도 불구하고 세계적인 정보화 및 경영 효율화의 요구에 발맞춰 해외 선진 건설기업을 중심으로 건설 사업관리시스템(PMIS)을 구축하여 상당한 수준의 성과를 올리고 있다(오인영 외, 2007).
국내에서도 1998년부터 국토교통부에서 건설CALS(Continuous Acquisition & Life-cycle Support) 시스템을 구축하여 다른 정부기관과 민간기업에 PMIS 구축을 적극 장려하고 있다(국토교통부, 2014).
그러나, 시스템이 불완전하고 활용 가능한 데이터가 여전히 부족하여 "건설자원관리 통합모델 구축을 위한 연구(박하석, 2001)", "건설 산업 정보화 구축방안 연구(임상영, 2005)", "건설정보 이용 활성화를 위한 웹사이트 개선 방안에 관한 연구(김태동, 2006)" 등 관련 연구가 계속 수행되고 있다(김진만 외, 2007).
이러한 현상은 진행되어온 연구가 시스템 자체의 문제해결을 위한 새로운 모델 제시, 시스템 성능 개선을 위한 요소 선정 및 분류체계 구축 등 표면적인 시스템 보유 자체에 초점을 맞췄기 때문이며(건설산업연구원, 2013), 즉 입찰준비단계, 사업수행계획단계, 사업수행단계, 유지보수단계의 건설 프로젝트 생애주기에 걸쳐 어떻게 하면 사업관리시스템을 효과적으로 활용할 수 있을지에 대한 분석에 있어 소홀하였다는 점을 간접적으로 시사하고 있다.
현재 효율적인 사업관리시스템이 구축되어있다 하더라도 사업에 대한 상당한 정보가 입력되어야만 사용자가 분석 결과를 확보할 수 있는 현실적 한계가 있고, 국내 대형 건설기업에서 일부 공종을 중심으로 자체적으로 개발한 사업관리시스템을 활용하고는 있으나 상대적으로 성공 및 실패 원인에 대한 평가와 사업수행 이후의 정보축적은 매우 미흡한 상황이다.
효율적 정보관리는 문서의 수발과 배부, 보관 및 검색, 재상 등에 대해 필요한 사람이 필요한 시기에 언제 어디서든지 접근이 가능하도록 체계를 구축하고 운영하는 것을 의미하나, 현재 대부분의 사업관리시스템이 정보의 보관만을 중시함으로써 그 활용도가 떨어지고 프로젝트 수행 시 문제가 발생하였을 때 필요한 정보를 확보하지 못함으로써 사업수행에 있어 여러 소실을 초래하고 있으며(건설산업연구원, 2013), 이러한 문제점을 해결하기 위한 방법이 절실한 실정이다.
본 발명은 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술을 제공한다. 보다 구체적으로, 본 발명은 건설문서 데이터 관리 및 시각화 시스템과 그에 대한 방법을 제공한다.
본 발명은 다수의 건설문서들을 모집단으로 수집 및 설정하는 데이터 수집부; 상기 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출하는 데이터 처리부; 상기 추출된 키워드들을 상기 모집단 건설문서들의 데이터 각각에 태깅하여 데이터 베이스에 저장하는 데이터 태깅부; 및 상기 저장된 데이터를 시각화하여 제공하는 데이터 추출부를 포함하는 건설문서 데이터 관리 및 시각화 시스템을 제공한다.
또한, 본 발명은 건설문서 데이터 관리 및 시각화 방법에 있어서, (a) 다수의 건설문서들을 모집단으로 수집 및 설정하는 단계; (b) 상기 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출하는 단계; (c) 상기 추출된 키워드들을 상기 모집단 건설문서들의 데이터 각각에 태깅하여 데이터 베이스에 저장하는 단계; 및 (d) 상기 저장된 데이터를 시각화하여 제공하는 단계를 포함하는 건설문서 데이터 관리 및 시각화 방법을 제공한다.
본 발명에 따른 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술, 즉 건설문서 데이터 관리 및 시각화 시스템과 그에 대한 방법은, 본 기술을 기반으로 개발된 UNI(User Needed Information)-Tacit 시스템 프로토타입을 통해 건설 산업분야에서 문서를 효과적이고 효율적으로 관리할 수 있게 해줌으로써 건설 프로젝트의 생산성을 향상시킬 수 있고, 기존에 수동적으로 해오던 문서 관리의 과정을 상당 부분 자동화함으로써 불필요한 인력 소모 및 시간 소모를 감소시킬 수 있고, 상호 배타적으로 관리되어 오던 문서를 키워드 중심으로 관리할 수 있게 함으로써 업무의 효율을 증진시킬 뿐 아니라 협업을 용이하게 하여 생산성을 향상시킬 수 있다. 또한, 본 발명에 따른 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술을 활용한 UNI(User Needed Information)-Tacit 시스템 프로토타입을 통한 문서 관리는 건설 산업뿐만 아니라 타 산업 분야에도 적용되어 복잡하고 다양한 형태의 문서를 효과적이고 효율적으로 관리할 수 있다.
첨부된 도면은 해당 기술 분야의 통상의 기술자에게 본 발명의 내용을 보다 상세하게 설명하기 위한 것으로 본 발명의 기술적 사상이 이에 한정되는 것은 아니다.
도 1은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템이 건설 산업에서 실제로 유용하게 사용될 수 있을지 여부에 대한 정성적 설문조사 결과를 나타낸 도이다[1번 질문: 실험 결과 예시에서 태깅된 키워드의 문서 대표 정도, 2번 질문: 제안된 시스템 설계를 토대로 개발될 시스템의 유용성, 3번 질문: 제안된 시스템의 건설 산업에서의 필요성].
도 2는, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템의 정확도와 대표성을 알아보기 위해, 전문가 10인이 원본 문서를 읽고 선택한 5개의 키워드를 취합하여, 취합한 단어의 집합 중 상위 5개의 키워드를 본 발명에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템을 통해 자동적으로 추출된 5개의 키워드가 얼마나 포함하고 있느냐를 측정한 정량적 설문조사 결과를 나타낸 도이다.
도 3은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템의 순서도이다.
도 4는, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템 중 데이터 수집의 예시를 나타낸 도이다.
도 5는, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템 중 데이터 처리 및 키워드 추출 과정을 나타낸 도이다.
도 6은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템 중 데이터 시각화 과정을 나타낸 도이다.
도 7은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템을 사용하여 나타낸 실험 결과의 예시를 나타낸 도이다.
도 8은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템을 사용하여 나타낸 실험 결과의 또 다른 예시를 나타낸 도이다.
도 9는, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템을 사용하여 나타낸 실험 결과의 또 다른 예시를 나타낸 도이다.
도 10은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 방법의 순서도를 도이다.
이하, 본 발명에 따른 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술을 활용한 건설문서 관리 시스템에 관하여 상세히 설명하나, 상기 텍스트마이닝 기술을 활용한 건설문서 관리 시스템의 범위가 하기 설명에 의해 제한되는 것은 아니다.
본 명서서상의 용어 "문서 관리 (시스템)(Document Management (System))"이라 함은, 통일된 프레임워크에 따라 문서를 디지털화하고, 색인을 달며, 꼬리표를 붙여 수집된 문서를 저장하는 대규모 데이터베이스를 의미한다.
또한, 본 명서서상의 용어 "태깅(Tagging)"이란, 콘텐츠의 내용을 대표할 수 있는 검색용 꼬리표인 키워드 또는 태그를 다는 것. 글을 올린 사람이나 사이트 관리자가 글이나 이미지를 관련된 주제나 카테고리의 형태로 분류될 수 있도록 키워드 처리를 해 주는 것을 의미하고, 주로 블로그나 웹 페이지상에서 링크로 연결되도록 하는 데 이용된다.
또한, 본 명서서상의 용어 "데이터마이닝(Data Mining)"이란, 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 의미한다.
또한, 본 명서서상의 용어 "텍스트마이닝(Text Mining)"이란, 데이터마이닝(Data Mining)과 유사한 개념으로서, 분석 대상이 비구조적인 문서 정보라는 점에서 차이가 있는 즉, 대규모의 문서에서 의미 있는 정보를 추출하는 과정 또는 기술을 의미한다.
또한, 본 명서서상의 용어 "데이터 처리(Data Processing)"란, 그대로의 형태로는 가치가 없으므로 필요한 정보를 얻기 위해 가하는 조작을 의미한다.
또한, 본 명서서상의 용어 "자연어 처리(Natural Language Processing)"란, 일상 생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통하여 컴퓨터가 처리할 수 있도록 변환시키는 작업을 의미한다.
또한, 본 명서서상의 용어 "문서 분류(Document Classification)"란, 도서관에서 주제별로 책을 분류하듯이 문서의 내용에 따라 분류하는 것으로 사전에 분류 정보를 알고 있는 상태에서 주제에 따라 분류하는 방법을 의미한다.
또한, 본 명서서상의 용어 "문서 군집(Document Clustering)"이란, 성격이 비슷한 문서끼리 같은 군집으로 묶어주는 방법으로 분류 정보를 모르는 상태에서 수행하는 방법을 의미한다.
또한, 본 명서서상의 용어 "키워드 추출(Keyword Extraction)"이란, 문서에서 중요한 의미를 지닌 키워드를 자동으로 추출하는 과정을 의미한다.
또한, 본 명서서상의 용어 "데이터 시각화(Data Visualization)"란, 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미한다.
본 발명은 건설문서 데이터 관리 및 시각화 시스템에 관한 것이다.
보다 구체적으로, 본 발명은 다수의 건설문서들을 모집단으로 수집 및 설정하는 데이터 수집부; 상기 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출하는 데이터 처리부; 상기 추출된 키워드들을 상기 모집단 건설문서들의 데이터 각각에 태깅하여 데이터 베이스에 저장하는 데이터 태깅부; 및 상기 저장된 데이터를 시각화하여 제공하는 데이터 추출부를 포함하는 건설문서 데이터 관리 및 시각화 시스템에 관한 것이다.
도 1 및 2는 본 발명의 시스템의 효과 및 효율성을 검증하기 위해, 전문가 10인을 대상으로 하여 제안된 시스템의 실험 결과 예시를 토대로 개발될 시스템에 대한 정성적/정량적 설문조사를 실시한 것이다.
본 발명에 따른 시스템의 효과를 검증하기 위해 실시한 정성적 설문조사의 문항은 아래와 같다. 각 문항은 5점 척도이다.
1. 실험 결과 예시에서 태깅된 키워드의 문서 대표 정도
2. 제안된 시스템 설계를 토대로 개발될 시스템의 유용성
3. 제안된 시스템의 건설 산업에서의 필요성
도 1을 참조하면, 설문조사 결과 1번 문항에서 평균 4점, 2번 문항에서 평균 4.3점, 3번 문항에서 평균 4.4점의 결과가 도출되어 제안된 시스템이 건설 산업에서 실제로 유용하게 사용될 수 있으며, 필요한 것으로 판단되었으나, 키워드의 문서 대표 정도는 향후 알고리즘 개발 및 보수를 통해 더욱 발전시킬 수 있을 것으로 확인되었다.
본 발명에 따른 시스템의 효과를 정량적으로 측정하기 위해, 전문가 10인에게 원본 문서를 제공하고, 그 문서를 대표할 수 있는 단어 5개를 선택해달라고 요구하였고, 수동적으로 추출된 키워드 결과와 본 발명에 따른 시스템을 통해 자동적으로 추출된 키워드 결과를 비교한 결과는 도 2에 나타내었다.
도 2를 참조하면, 전문가 10인이 원본 문서를 읽고 선택한 5개의 키워드를 취합하여, 취합한 단어의 집합 중 상위 5개의 키워드를 시스템을 통해 자동적으로 추출된 5개의 키워드가 얼마나 포함하고 있느냐를 측정한 결과로서, 분석 결과 시스템을 통해 자동적으로 추출된 키워드가 평균 84%의 키워드를 포함하여 자동적으로 추출된 키워드가 상당한 설득력을 지닌 것으로 판단되었으나, 정확도와 대표성을 보다 높이기 위해 향후 키워드 추출에 대한 알고리즘 개발 및 보수는 필요한 것으로 판단되었다.
이하, 본 발명의 실시예를 첨부된 도면을 참조로 상세히 설명한다.
도 3은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템의 순서도이다.
보다 구체적으로, 본 발명은 다수의 건설문서들을 모집단으로 수집 및 설정하는 데이터 수집부; 상기 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출하는 데이터 처리부; 상기 추출된 키워드들을 상기 모집단 건설문서들의 데이터 각각에 태깅하여 데이터 베이스에 저장하는 데이터 태깅부; 및 상기 저장된 데이터를 시각화하여 제공하는 데이터 추출부를 포함하는 건설문서 데이터 관리 및 시각화 시스템에 관한 것이다.
도 3을 참조하면, 건설 산업에서 발생한 문서는 자동적으로 1. 수집(Data Collection)된 후 컴퓨터가 수집된 데이터를 처리할 수 있도록 2. 데이터 처리(Data Processing) 과정을 거치며, 본 시스템에서 데이터 처리(Data Processing) 과정은 키워드를 추출하는 과정까지 포함한다. 처리된 데이터를 기반으로 3. 데이터 태깅(Data Tagging) 과정과 4. 데이터 시각화(Data Visualization) 과정을 거쳐 시스템의 서비스가 제공되는 형태이다.
위의 과정 중 실선 테두리 사각형 내부의 과정(Data Collection, Data Processing)은 사람의 입력이 요구되는 반자동적 과정이며, 점선 테두리 사각형 내부의 과정(Data Tagging, Data Visualization)은 시스템 내에서 자동적으로 수행되는 자동적 과정을 나타낸다. 또한, Construction Corpus는 건설 산업에서 사용되는 단어들의 집합을 뜻하는 것으로, 데이터 처리(Data Processing) 과정에 사용되어 건설 산업의 특성을 반영하여 텍스트마이닝 기술을 활용할 수 있다.
상기 데이터 수집부는 웹상에 존재하는 건설문서들을 웹 크롤링(web crawling) 방식으로 데이터를 수집 및 설정할 수 있다.
도 4는, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템 중 데이터 수집의 예시를 나타낸 도이다.
본 발명에 따른 UNI(User Needed Information)-Tacit 시스템 프로토타입 내에서의 데이터 수집 (Data Collection)은, 웹 상에 산재한 건설 관련 비정형 데이터를 자동적으로 수집하기 위해 크롤링 기술을 활용한다.
상기 데이터 수집은 웹 상에 산재한 건설 경험 지식을 내포하고 있는 비정형 데이터 생산하고 있는 것으로 판단되는 6개의 사이트를 선택하여 각각의 데이터를 HTML(hypertext markup language), ID(identity), 카테고리(범위, category), 컨텐츠(내용, contents), 날짜(작성일 또는 공개일, date), 사무소(작성자 또는 보유자, office), 제목(title) 및 URL(uniform resource locator)로 이루어진 군으로부터 선택된 하나 이상을 통하여 수행할 수 있다.
도 4를 참조하면, 이러한 실험을 위해 수집한 데이터의 결과는 아래와 같다.
1. Data set characteristics: Text (Korean)
2. Number of data files: 25,143 (279MB)
3. Area: Construction related Web data
4. Attribute characteristics: HTML, ID, Category, Contents, Date, Office, Title, URL
5. Number of attributes: 8
도 5는, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템 중 데이터 처리 및 키워드 추출 과정을 나타낸 도이다.
상기 데이터 처리부는 수동 과정 및 자동 과정을 통하여 상기 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출할 수 있다.
상기 과정을 수행하는 경우, 데이터 처리(Data Processing)는 수집된 데이터를 컴퓨터가 분석할 수 있도록 자연어 처리 과정(Natural Language Processing)을 포함한 데이터 처리 과정을 수행하고, 처리된 데이터를 기반으로 각 문서를 대표하는 키워드를 추출한다.
상기 수동 과정은 사전 선택(Dictionary selection), 즉 기존 존재하는 사전 중 건설 산업에서 발생하는 문서의 특징에 적합한 사전 선택으로 이루어진다. 다음, 적정 형태소 선택(Optimum morpheme selection), 즉 모든 형태소에 대하여 분석을 진행하면 계산 과정이 비경제적이므로 유의미한 내용을 포함하고 있는 형태소 만을 선택한다. 다음, 필터 선택(Filter selection), 즉 문서의 내용을 파악하기에 불필요한 단어를 제거하기 위한 필터 개발 및 선택한다. 다음, 키워드 개수 선택(# of keywords selection), 즉 문서의 내용을 대표하기에 적절한 수의 키워드 개수 선택한다.
상기 자동 과정은 POS(Part of Speech) Tagging, 즉 선택된 사전을 기반으로 POS 태깅한다. 다음, 단어 빈도 수 계산(Term frequency calculation), 즉 POS 태깅된 단어를 기반으로 빈도 수 계산 및 각 단어 별 가중치 계산한다. 다음, 필터링(Filtering), 즉 선택된 필터를 기반으로 불필요한 단어를 제거한다. 다음, 키워드 추출(Keywords extraction), 즉 처리된 데이터를 바탕으로 적절한 수의 키워드를 추출한다.
상기 데이터 태깅부는 상기 건설문서마다 5개 이상의 키워드를 태깅하여 데이터베이스에 저장한 후, 상기 태깅된 키워드를 통해 각 건설문서에 접근할 수 있도록 설계될 수 있다.
보다 구체적으로, 데이터 태깅(Data Tagging)은 추출된 키워드는 각 문서를 대표하는 단어이므로, 문서 당 5개의 키워드를 태깅하여 데이터베이스에 저장한다. 따라서, 설계된 시스템은 태깅된 단어를 기반으로 문서에 접근할 수 있는 형태이다.
도 6은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템 중 데이터 시각화 과정을 나타낸 도이다.
데이터 시각화(Data Visualization)는, 특정 키워드에 대한 이해도 및 문서에 대한 활용도를 높이기 위해 데이터를 시각화하여 제공한다.
도 6을 참조하면, 데이터 시각화는 다음과 같은 과정을 통해 수행된다.
데이터 추출부는 사용자가 입력한 키워드가 포함된 문서 집단의 분류, 상기 문서 집단에 포함된 각 문서에서 처리된 데이터로부터 20개 이상의 키워드를 추출, 추출된 키워드와 각 키워드의 빈도수의 취합 및 워드클라우드(wordcloud) 방식으로 시각화하는 과정을 순차적으로 수행될 수 있다.
보다 구체적으로, 데이터 시각화 과정은 특정 키워드가 포함된 문서 집단을 분류하며, 해당 문서 집단에 포함된 각 문서의 처리된 데이터로부터 상위 20개의 키워드를 추출하며, 추출된 키워드 및 각 키워드의 빈도 수 취합하고, 워드클라우드(wordcloud) 형태로 시각화한다.
도 7은, 본 발명의 일 실시예에 따른 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술을 활용한 건설문서 관리 및 시각화 시스템을 사용하여 나타낸 실험 결과의 예시를 나타낸 도이다.
도 7의 실험 결과의 예시는 건설 산업에서 발생한 문서를 기반으로 5개의 키워드를 추출하고 태깅한 결과이다.
본 시스템은 사용자에게 자동적으로 추출된 다섯 개의 키워드와 함께 원본 문서로 접근할 수 있는 하이퍼링크, 원본 문서의 내용 일부(처음부터 100자)를 제공할 수 있다.
도 8은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템을 사용하여 나타낸 실험 결과의 또 다른 예시를 나타낸 도이다.
도 8의 경우, 실험에서 구현한 첫 번째 페이지로, 건설 산업에서 중요한 국가를 중심으로 구현하였다.
도 9는, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 시스템을 사용하여 나타낸 실험 결과의 또 다른 예시를 나타낸 도이다.
도 9를 참조하면, 특정 키워드가 포함된 문서 집단의 데이터 내용을 요약한 것을 워드클라우드(wordcloud) 형태로 시각화하여 보여준 결과이다.
시각화 결과 하위에 해당 키워드가 포함된 문서가 최신 순으로 나열되어 제공되고, 각 문서가 제공되는 방식은 ‘실험 결과 예시 1’과 마찬가지로 문서를 대표하는 5개의 키워드와 함께 제공된다.
본 발명은 또한, 건설문서 데이터 관리 및 시각화 방법에 관한 것이다.
이하, 본 발명의 건설문서 데이터 관리 및 시각화 방법에 관하여 설명한다.
참고로, 본 발명의 일 실시예에 따른 건설문서 데이터 관리 및 시각화 방법은 전술한 본 발명의 일 실시예에 따른 건설문서 데이터 관리 및 시각화 시스템를 이용하여 건설문서 데이터 관리 및 시각화하기 위한 방법에 관한 것이므로, 앞서 살핀 본 발명의 일 실시예에 따른 건설문서 데이터 관리 및 시각화 시스템에서 설명한 구성과 유사한 구성에 대해서는 설명을 간략히 하거나 생략하기로 한다.
도 10은, 본 발명의 일 실시예에 따른 텍스트마이닝 기술을 활용한 건설문서 관리 및 시각화 방법의 순서도를 도이다.
본 발명에 따른 건설문서 데이터 관리 및 시각화 방법은, 보다 구체적으로 (a) 다수의 건설문서들을 모집단으로 수집 및 설정하는 단계(100); (b) 상기 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출하는 단계(200); (c) 상기 추출된 키워드들을 상기 모집단 건설문서들의 데이터 각각에 태깅하여 데이터 베이스에 저장하는 단계(300); 및 (d) 상기 저장된 데이터를 시각화하여 제공하는 단계(400)를 포함할 수 있다.
상기 (a) 다수의 건설문서들을 모집단으로 수집 및 설정하는 단계(100)는 웹상에 존재하는 건설문서들을 웹 크롤링(web crawling) 방식으로 데이터를 수집 및 설정하여 수행할 수 있다.
상기 (b) 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출하는 단계(200)는 수동 과정 및 자동 과정을 통하여 상기 모집단의 건설문서들의 데이터에 각 문서 내용을 대표하는 키워드를 추출하여 수행할 수 있다.
상기 수동 과정은 사전 선택, 형태소의 선택, 필터 선택 및 키워드 개수의 선택의 과정을 순차적으로 수행할 수 있고, 상기 자동 과정은 POS(part of speech) 태깅, 단어 빈도수의 계상, 필터링 및 키워드 추출의 과정을 순차적으로 수행할 수 있다.
상기 (c) 상기 추출된 키워드들을 상기 모집단 건설문서들의 데이터 각각에 태깅하여 데이터 베이스에 저장하는 단계(300)는 상기 건설문서마다 5개 이상의 키워드를 태깅하여 데이터베이스에 저장한 후, 상기 태깅된 키워드를 통해 각 건설문서에 접근하는 방식으로 수행할 수 있다.
상기 (d) 상기 저장된 데이터를 시각화하여 제공하는 단계(400)는 사용자가 입력한 키워드가 포함된 문서 집단의 분류, 상기 문서 집단에 포함된 각 문서에서 처리된 데이터로부터 20개 이상의 키워드를 추출, 추출된 키워드와 각 키워드의 빈도수의 취합 및 워드클라우드(wordcloud) 방식으로 시각화하는 과정을 순차적으로 수행할 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
100: 다수의 건설문서들을 모집단으로 수집 및 설정하는 단계
200: 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출하는 단계
300: 추출된 키워드들을 상기 모집단 건설문서들의 데이터 각각에 태깅하여 데이터 베이스에 저장하는 단계
400: 저장된 데이터를 시각화하여 제공하는 단계

Claims (15)

  1. 다수의 건설문서들을 모집단으로 수집 및 설정하는 데이터 수집부;
    수동 과정 및 자동 과정을 통하여 상기 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출하는 데이터 처리부;
    상기 추출된 키워드들을 상기 모집단 건설문서들의 데이터 각각에 태깅하여 데이터 베이스에 저장하는 데이터 태깅부; 및
    상기 저장된 데이터를 시각화하여 제공하는 데이터 추출부를 포함하고,
    상기 수동 과정은 사전 선택, 형태소의 선택, 필터 선택 및 키워드 개수의 선택의 과정을 순차적으로 수행하고,
    상기 자동 과정은 POS(part of speech) 태깅, 단어 빈도수의 계산, 필터링 및 키워드 추출의 과정을 순차적으로 수행하고,
    상기 데이터 태깅부는 상기 건설문서마다 5개 이상의 키워드를 태깅하여 데이터베이스에 저장한 후, 상기 태깅된 키워드를 통해 각 건설문서에 접근할 수 있도록 설계되며,
    데이터 추출부는 사용자가 입력한 키워드가 포함된 문서 집단의 분류, 상기 문서 집단에 포함된 각 문서에서 처리된 데이터로부터 20개 이상의 키워드를 추출, 추출된 키워드와 각 키워드의 빈도수의 취합 및 워드클라우드(wordcloud) 방식으로 시각화하는 과정을 순차적으로 수행하는 것을 특징으로 하는 건설문서 데이터 관리 및 시각화 시스템.
  2. 제 1 항에 있어서, 상기 데이터 수집부는 웹상에 존재하는 건설문서들을 웹 크롤링(web crawling) 방식으로 데이터를 수집 및 설정하는 것을 특징으로 하는 건설문서 데이터 관리 및 시각화 시스템.
  3. 제 2 항에 있어서, 상기 데이터 수집은 HTML(hypertext markup language), ID(identity), 카테고리(범위, category), 컨텐츠(내용, contents), 날짜(작성일 또는 공개일, date), 사무소(작성자 또는 보유자, office), 제목(title) 및 URL(uniform resource locator)로 이루어진 군으로부터 선택된 하나 이상을 통하여 수행되는 것을 특징으로 하는 건설문서 데이터 관리 및 시각화 시스템.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 건설문서 데이터 관리 및 시각화 방법에 있어서,
    (a) 다수의 건설문서들을 모집단으로 수집 및 설정하는 단계;
    (b) 수동 과정 및 자동 과정을 통하여 상기 모집단의 건설문서들의 데이터에서 각 문서 내용을 대표하는 키워드를 추출하는 단계;
    (c) 상기 추출된 키워드들을 상기 모집단 건설문서들의 데이터 각각에 태깅하여 데이터 베이스에 저장하는 단계; 및
    (d) 상기 저장된 데이터를 시각화하여 제공하는 단계를 포함하고,
    상기 수동 과정은 사전 선택, 형태소의 선택, 필터 선택 및 키워드 개수의 선택의 과정을 순차적으로 수행하고,
    상기 자동 과정은 POS(part of speech) 태깅, 단어 빈도수의 계상, 필터링 및 키워드 추출의 과정을 순차적으로 수행하고,
    상기 (c) 단계는 상기 건설문서마다 5개 이상의 키워드를 태깅하여 데이터베이스에 저장한 후, 상기 태깅된 키워드를 통해 각 건설문서에 접근하는 방식으로 수행되고,
    상기 (d) 단계는 사용자가 입력한 키워드가 포함된 문서 집단의 분류, 상기 문서 집단에 포함된 각 문서에서 처리된 데이터로부터 20개 이상의 키워드를 추출, 추출된 키워드와 각 키워드의 빈도수의 취합 및 워드클라우드(wordcloud) 방식으로 시각화하는 과정을 순차적으로 수행하는 것을 특징으로 하는 건설문서 데이터 관리 및 시각화 방법.
  10. 제 9 항에 있어서, 상기 (a) 단계는 웹상에 존재하는 건설문서들을 웹 크롤링(web crawling) 방식으로 데이터를 수집 및 설정하여 수행하는 것을 특징으로 하는 건설문서 데이터 관리 및 시각화 방법.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
KR1020160034884A 2016-03-23 2016-03-23 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술 KR101801257B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160034884A KR101801257B1 (ko) 2016-03-23 2016-03-23 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160034884A KR101801257B1 (ko) 2016-03-23 2016-03-23 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술

Publications (2)

Publication Number Publication Date
KR20170115109A KR20170115109A (ko) 2017-10-17
KR101801257B1 true KR101801257B1 (ko) 2017-11-24

Family

ID=60298050

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160034884A KR101801257B1 (ko) 2016-03-23 2016-03-23 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술

Country Status (1)

Country Link
KR (1) KR101801257B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190139037A (ko) 2018-06-07 2019-12-17 현대건설주식회사 텍스트마이닝 기반 건설공사 문서분석방법 및 시스템
KR20210095601A (ko) 2021-07-13 2021-08-02 남장현 행정정보 공동이용 활성화를 위한 텍스트 마이닝 기반 행정정보 공동이용 기관 전자적 체계 자가진단 시스템과 그 방법
KR102298033B1 (ko) 2021-02-15 2021-09-06 광주광역시 텍스트마이닝 기반의 감사자료 분석 시스템

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102077923B1 (ko) * 2018-06-28 2020-02-14 중앙대학교 산학협력단 건설 현장의 안전 문서를 분류하는 방법 및 이를 수행하는 서버
KR102166390B1 (ko) * 2019-12-16 2020-10-15 (주)에이펙스 이에스씨 비정형 데이터의 모델링 방법 및 시스템
KR102586873B1 (ko) * 2021-02-24 2023-10-11 주식회사 더트라이브 대상 차량의 시세를 결정하는 방법 및 이를 수행하는 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190139037A (ko) 2018-06-07 2019-12-17 현대건설주식회사 텍스트마이닝 기반 건설공사 문서분석방법 및 시스템
KR102298033B1 (ko) 2021-02-15 2021-09-06 광주광역시 텍스트마이닝 기반의 감사자료 분석 시스템
KR20210095601A (ko) 2021-07-13 2021-08-02 남장현 행정정보 공동이용 활성화를 위한 텍스트 마이닝 기반 행정정보 공동이용 기관 전자적 체계 자가진단 시스템과 그 방법

Also Published As

Publication number Publication date
KR20170115109A (ko) 2017-10-17

Similar Documents

Publication Publication Date Title
KR101801257B1 (ko) 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
Khan et al. A survey on scholarly data: From big data perspective
CN100440224C (zh) 一种搜索引擎性能评价的自动化处理方法
Choudhary et al. The needs and benefits of Text Mining applications on Post-Project Reviews
CN109493265A (zh) 一种基于深度学习的政策解读方法及政策解读系统
CN106126648B (zh) 一种基于重做日志的分布式商品信息爬虫方法
CN109522562B (zh) 一种基于文本图像融合识别的网页知识抽取方法
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
US20080235220A1 (en) Methodologies and analytics tools for identifying white space opportunities in a given industry
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
Martin et al. A framework for business intelligence application using ontological classification
Das et al. A CV parser model using entity extraction process and big data tools
Zhang Application of data mining technology in digital library.
Bilge et al. Research trends analysis using text mining in construction management: 2000–2020
Chen et al. Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors
Viet et al. Analyzing recent research trends of computer science from academic open-access digital library
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Correa et al. A deep search method to survey data portals in the whole web: toward a machine learning classification model
Schatten et al. Big data analytics and the social web: A tutorial for the social scientist
Dejean Extracting structured data from unstructured document with incomplete resources
Xiao et al. An automatic approach for extracting process knowledge from the Web
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템
Sohrabi et al. Investigation of Trends and Analysis of Hidden New Patterns in Prominent News Agencies of Iran Using Data Mining and Text Mining Algorithms.
Abdullah et al. Decision making using document driven decision support systems
CN112464668A (zh) 一种提取智能家居行业动态信息的方法和系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant