KR20220064016A - Method for extracting construction safety accident based data mining using big data - Google Patents

Method for extracting construction safety accident based data mining using big data Download PDF

Info

Publication number
KR20220064016A
KR20220064016A KR1020200150054A KR20200150054A KR20220064016A KR 20220064016 A KR20220064016 A KR 20220064016A KR 1020200150054 A KR1020200150054 A KR 1020200150054A KR 20200150054 A KR20200150054 A KR 20200150054A KR 20220064016 A KR20220064016 A KR 20220064016A
Authority
KR
South Korea
Prior art keywords
data
mining
construction accident
construction
accident
Prior art date
Application number
KR1020200150054A
Other languages
Korean (ko)
Inventor
이래철
Original Assignee
주식회사 한국건설방재연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한국건설방재연구원 filed Critical 주식회사 한국건설방재연구원
Priority to KR1020200150054A priority Critical patent/KR20220064016A/en
Publication of KR20220064016A publication Critical patent/KR20220064016A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

An embodiment of the present invention comprises: a construction accident data collecting process of a data mining analysis server collecting construction accident data; a text mining process of the data mining analysis server performing the text mining of extracting and processing information by applying a natural language processing technology and a document processing technology to the construction accident data; a keyword extraction process of the data mining analysis server extracting a keyword from data having undergone the text mining; a danger scenario forming process of the data mining analysis server forming a danger scenario through the object type integration and statistical analysis of the keywords of the construction accident data. Therefore, a danger scenario can be formed through the text mining analysis of the big data of construction accidents and safety measures can be formed.

Description

빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법{Method for extracting construction safety accident based data mining using big data}Method for extracting construction safety accident based data mining using big data

본 발명은 건설사고 객체정보 추출 방법으로서, 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법에 관한 것이다.The present invention relates to a data mining-based construction accident object information extraction method using big data as a construction accident object information extraction method.

빅데이터란 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리 및 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 셋을 의미한다. 그리고 빅데이터 처리 기술은 대량의 정형 또는 비정형 데이터 셋을 수집, 저장, 관리 및 분석하여 가치를 추출하거나 원하는 결과를 분석해내는 것을 의미한다. 다른 한편으로, 빅데이터 처리 기술은 낮은 비용으로 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 초고속 수집, 발굴 및 분석 가능한 아키텍쳐 기술로 정의되고 있다.Big data refers to a large amount of structured or unstructured data sets that exceed the capabilities of data collection, storage, management and analysis of existing database management tools. And big data processing technology means collecting, storing, managing, and analyzing a large amount of structured or unstructured data sets to extract value or analyze desired results. On the other hand, big data processing technology is defined as an architectural technology capable of extracting value from various types of large-scale data at low cost, and collecting, discovering and analyzing at high speed.

최근 빅테이터 처리 기술은 하둡(Hadoop)이라는 대표적인 오픈 소스 기반 플랫폼과 그로부터 확장된 요소에 의해 사회 각 분야에서 활용되고 있다. 구체적으로, 빅데이터 처리 기술은 정치 및 사회 분야, 경제 분야, 경영 분야 및 문화 분야 등에서 그 활용도가 점점 높아지고 있으며, 인간 사회의 새로운 가치와 시장을 창출하는데 기여하고 있다.Recently, big data processing technology is being used in each field of society by a representative open source-based platform called Hadoop and elements extended therefrom. Specifically, the use of big data processing technology is increasing in the political and social fields, the economic field, the business field, and the cultural field, and it is contributing to the creation of new values and markets in human society.

한국공개특허 10-2015-0058709Korean Patent Publication 10-2015-0058709

본 발명의 기술적 과제는 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보를 추출하는 수단을 제공하는데 있다.The technical problem of the present invention is to provide a means for extracting data mining-based construction accident object information using big data.

본 발명의 실시 형태는 데이터마이닝 분석 서버가, 건설사고 데이터를 수집하는 건설사고 데이터 수집 과정; 상기 데이터마이닝 분석 서버가, 상기 건설사고 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 정보를 추출 및 가공하는 텍스트마이닝을 수행하는 텍스트마이닝 과정; 상기 데이터마이닝 분석 서버가, 텍스트마이닝을 거친 데이터에서 핵심 키워드를 추출하는 핵심 키워드 추출 과정; 상기 데이터마이닝 분석 서버가, 상기 건설사고 데이터의 핵심 키워드에 대하여 객체유형 통합 및 통계적 분석을 통하여 위험 시나리오를 구성하는 위험 시나리오 구성 과정;을 포함할 수 있다.An embodiment of the present invention is a data mining analysis server, construction accident data collection process for collecting construction accident data; a text mining process in which the data mining analysis server performs text mining in which information is extracted and processed by applying natural language processing technology and document processing technology to the construction accident data; a core keyword extraction process in which the data mining analysis server extracts core keywords from data that has undergone text mining; and a risk scenario configuration process in which the data mining analysis server configures a risk scenario through object type integration and statistical analysis with respect to the key keywords of the construction accident data.

상기 텍스트마이닝 과정은, 건설사고 데이터의 문장을 분할하는 문장 분할 과정; 건설사고 데이터의 단어를 토큰화하는 단어 토큰화 과정; 토큰화된 단어에서 사용되지 않은 단어를 제거하는 불용어 제거 과정; 품사 분석을 통하여 단어 객체를 추출하는 과정;을 포함할 수 있다.The text mining process may include a sentence segmentation process for segmenting sentences of construction accident data; word tokenization process for tokenizing words of construction accident data; a stopword removal process of removing unused words from tokenized words; It may include; a process of extracting a word object through part-of-speech analysis.

상기 건설사고 데이터 수집 과정은, 건설사고사례 텍스트를 수집하며, 상기 텍스트마이닝 과정은, 상기 건설사고사례 텍스트에서 건설현장과 관련된 단어 객체를 추출함을 특징으로 할 수 있다.The construction accident data collection process may include collecting construction accident case text, and the text mining process may include extracting a word object related to a construction site from the construction accident case text.

상기 건설사고 데이터 수집 과정은, 재해유형별로 단어의 분류 수집을 수행하며, 상기 텍스트마이닝 과정은, 동일한 의미를 가진 단어를 통합하여 하나의 단어 객체로서 재분류함을 특징으로 할 수 있다.The construction accident data collection process performs classification and collection of words by disaster type, and the text mining process may be characterized in that words having the same meaning are integrated and reclassified as a single word object.

상기 위험 시나리오 구성 과정은, 공사 종류, 작업 프로세스, 작업 위치에 따라서 연관되는 사고 예상 객체를 추출하여 위험 시나리오를 구성함을 특징으로 할 수 있다.The risk scenario configuration process may be characterized in that the risk scenario is configured by extracting an accident prediction object related according to a construction type, a work process, and a work location.

상기 위험 시나리오 구성 과정은, 대표 재해 사례, 재해 유형 빈도, 사고 방지 안전 대책을 포함하는 위험 시나리오를 구성함을 특징으로 할 수 있다.The risk scenario configuration process may be characterized by configuring a risk scenario including representative disaster cases, frequency of disaster types, and safety measures for preventing accidents.

본 발명의 실시 형태에 따르면 건설 사고사례에 대한 빅데이터에 대한 텍스트마이닝 분석을 통하여 위험 시나리오를 구성할 수 있으며, 또한 안전대책을 구성할 수 있다.According to an embodiment of the present invention, a risk scenario can be configured through text mining analysis of big data for a construction accident case, and a safety measure can be configured.

본 발명의 실시 형태에 따르면, 공사 종류, 작업 프로세스, 작업 위치 등의 건설공사 예정 공정표를 입력받아 그에 매칭되는 위험 시나리오와 안전 대책에 대한 정보를 표시하여, 작업자가 이를 참조하여 사고예방을 도모할 수 있게 된다. 또한 시나리오는 사고사례가 추가됨에 따라 텍스트마이닝을 활용하여 사고객체의 자동 업데이트를 통해 공정별, 프로세스별, 위치별 사고객체에 대한 통계분석이 실시간으로 가능하도록 한다.According to an embodiment of the present invention, by receiving an input of a construction work schedule schedule such as construction type, work process, and work location, information on risk scenarios and safety measures matching the information are displayed, and the worker can prevent accidents by referring to them. be able to In addition, as accident cases are added, the scenario uses text mining to automatically update customer objects so that statistical analysis of customer objects by process, process, and location is possible in real time.

도 1은 본 발명의 실시예에 따른 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 시스템을 도시한 그림.
도 2는 본 발명의 실시예에 따른 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 개요를 도시한 그림.
도 3은 본 발명의 실시예에 따른 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법을 도시한 플로차트.
도 4는 본 발명의 실시예에 따른 데이터수집 및 텍스트마이닝 예시 그림.
도 5는 본 발명의 실시예에 따른 다중객체 발생시 패턴 분석을 활용한 핵심 키워드 추출 예시 그림.
도 6은 본 발명의 실시예에 따른 위험 시나리오 구성 예시 그림.
1 is a diagram illustrating a data mining-based construction accident object information extraction system using big data according to an embodiment of the present invention.
2 is a diagram showing an outline of data mining-based construction accident object information extraction using big data according to an embodiment of the present invention.
3 is a flowchart illustrating a data mining-based construction accident object information extraction method using big data according to an embodiment of the present invention.
4 is an exemplary diagram of data collection and text mining according to an embodiment of the present invention.
5 is a diagram illustrating an example of extracting key keywords using pattern analysis when multiple objects are generated according to an embodiment of the present invention.
6 is a diagram illustrating an example configuration of a risk scenario according to an embodiment of the present invention.

이하, 본 발명에 따른 실시예들은 첨부된 도면들을 참조하여 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 실시예들을 설명할 것이나, 본 발명의 기술적 사상은 이에 한정되거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Hereinafter, embodiments according to the present invention will be described with reference to the accompanying drawings. In adding reference numerals to the components of each drawing, it should be noted that the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the embodiment of the present invention, if it is determined that a detailed description of a related known configuration or function interferes with the understanding of the embodiment of the present invention, the detailed description thereof will be omitted. In addition, the embodiments of the present invention will be described below, but the technical spirit of the present invention is not limited thereto and may be variously implemented by those skilled in the art. Throughout the specification, when a part "includes" a certain element, it means that other elements may be further included, rather than excluding other elements, unless otherwise stated.

도 1은 본 발명의 실시예에 따른 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 시스템을 도시한 그림이며, 도 2는 본 발명의 실시예에 따른 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 개요를 도시한 그림이다.1 is a diagram illustrating a data mining-based construction accident object information extraction system using big data according to an embodiment of the present invention, and FIG. 2 is a data mining-based construction accident using big data according to an embodiment of the present invention. It is a figure showing the outline of object information extraction.

본 발명의 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 시스템은, 건설사고 데이터베이스(200), 입력기(300), 표시기(400), 데이터마이닝 분석 서버(100)를 포함할 수 있다.The data mining-based construction accident object information extraction system using big data of the present invention may include a construction accident database 200 , an input device 300 , a display 400 , and a data mining analysis server 100 .

건설사고 데이터베이스(200)는, 건설사고사례 텍스트, 재해유형별 수집 정보가 저장된 데이터베이스이다. 이러한 데이터베이스는 SSD와 같은 저장체 또는 분산 DB 서버에 저장되어 있을 수 있다.The construction accident database 200 is a database in which construction accident case text and information collected for each type of disaster are stored. Such a database may be stored in a storage such as SSD or in a distributed DB server.

입력기(300)는, 건설공사시에 예정 공정표를 입력받는 모듈로서, 건설공사 종류, 작업 프로세스, 위치 등의 건설공사의 예정 공정표를 입력받는다.The input device 300 is a module for receiving a schedule schedule for construction work, and receives a schedule schedule for construction work, such as a type of construction work, a work process, a location, and the like.

표시기(400)는, 입력기(300)를 통해 입력되는 예정 공정표에 따른 사고 예상 시나리오 및 안전대책을 표시하는 모듈이다. 따라서 작업자는 앞으로 진행될 건설공사에 따른 사고 시나리오를 미리 열람할 수 있으며, 그에 따른 안전대책을 강구할 수 있게 된다.The indicator 400 is a module for displaying an accident prediction scenario and safety measures according to a schedule input through the input device 300 . Therefore, the worker can read the accident scenario according to the construction work to be carried out in advance, and can take safety measures accordingly.

데이터마이닝 분석 서버(100)는, 도 2에 도시한 바와 같이 건설공사시에 발생된 사고와 관련된 빅데이터를 수집하여, 이를 자연어 처리 기술과 문서 처리 기술을 적용하여 정보를 추출하는 텍스트마이닝을 거쳐서 건설작업시에 위험 시나리오를 구성한다. 그리고 입력기(300)를 통해 입력되는 건설공사 예정 공정표에 매칭되는 건설사고 시나리오를 표시기(400)에 표시한다.As shown in FIG. 2, the data mining analysis server 100 collects big data related to an accident that occurred during construction work, and applies it to natural language processing technology and document processing technology to extract information through text mining. Construct risk scenarios during construction work. And a construction accident scenario matching the construction work schedule input through the input unit 300 is displayed on the display unit 400 .

참고로, 알려진 바와 같이 데이터마이닝(data mining)이란, 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사결정에 이용하는 것을 말한다. 데이터베이스로부터 과거에는 알지 못했지만 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말한다. 즉, 데이터에 숨겨진 패턴과 관계를 찾아내어 광맥을 찾아내듯이 정보를 발견해 내는 것이다. 여기에서 정보 발견이란 데이터에 고급 통계 분석과 모델링 기법을 적용하여 유용한 패턴과 관계를 찾아내는 과정이다. For reference, as is known, data mining refers to discovering useful correlations hidden among a lot of data, extracting actionable information in the future, and using it for decision-making. It refers to the process of discovering a new data model derived from data that was previously unknown from the database, extracting actionable information in the future, and using it for decision-making. In other words, it is to discover information as if finding a vein by finding hidden patterns and relationships in data. Here, information discovery is the process of finding useful patterns and relationships by applying advanced statistical analysis and modeling techniques to data.

이러한 데이터마이닝을 위하여 본 발명의 데이터마이닝 분석 서버(100)는, 적어도 하나의 하드웨어 칩 형태로 제작되어 AI 장치에 탑재될 수 있다. 예를 들어, 딥러닝 학습의 인공지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 범용 프로세서(CPU) 또는 그래픽 전용 프로세서(GPU)의 일부로 제작되어 AI 장치에 탑재될 수도 있다. 또한, 딥러닝 학습은 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(또는 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 애플리케이션에 의해 제공될 수 있다.For such data mining, the data mining analysis server 100 of the present invention may be manufactured in the form of at least one hardware chip and mounted on an AI device. For example, it may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI) in deep learning learning, or it may be manufactured as a part of a general-purpose processor (CPU) or graphics-only processor (GPU) and mounted on an AI device. In addition, deep learning learning can be implemented as a software module. When implemented as a software module (or a program module including instructions), the software module may be stored in a computer-readable non-transitory computer readable medium. In this case, the at least one software module may be provided by an operating system (OS) or may be provided by an application.

도 3은 본 발명의 실시예에 따른 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법을 도시한 플로차트이며, 도 4는 본 발명의 실시예에 따른 데이터수집 및 텍스트마이닝 예시 그림이며, 도 5는 본 발명의 실시예에 따른 다중객체 발생시 패턴 분석을 활용한 핵심 키워드 추출 예시 그림이며, 도 6은 본 발명의 실시예에 따른 위험 시나리오 구성 예시 그림이다.3 is a flowchart illustrating a data mining-based construction accident object information extraction method using big data according to an embodiment of the present invention, and FIG. 4 is an exemplary diagram of data collection and text mining according to an embodiment of the present invention, FIG. 5 is a diagram illustrating an example of extracting key keywords using pattern analysis when multiple objects are generated according to an embodiment of the present invention, and FIG. 6 is a diagram illustrating an example configuration of a risk scenario according to an embodiment of the present invention.

본 발명의 따른 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법은, 도 3에 도시한 바와 같이 데이터마이닝 분석 서버(100)가 건설사고 데이터를 수집하는 건설사고 데이터 수집 과정(S310)과, 데이터마이닝 분석 서버(100)가 건설사고 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 정보를 추출 및 가공하는 텍스트마이닝을 수행하는 텍스트마이닝 과정(S320)과, 데이터마이닝 분석 서버(100)가 텍스트마이닝을 거친 데이터에서 핵심 키워드를 추출하는 핵심 키워드 추출 과정(S330)과, 데이터마이닝 분석 서버(100)가, 상기 건설사고 데이터의 핵심 키워드에 대하여 객체유형 통합 및 통계적 분석을 통하여 위험 시나리오를 구성하는 위험 시나리오 구성 과정(S340)을 포함할 수 있다. 이하 상술한다.The data mining-based construction accident object information extraction method using big data according to the present invention includes a construction accident data collection process (S310) in which the data mining analysis server 100 collects construction accident data, as shown in FIG. , a text mining process (S320) in which the data mining analysis server 100 performs text mining in which information is extracted and processed by applying natural language processing technology and document processing technology to construction accident data (S320), and data mining analysis server 100 A key keyword extraction process (S330) of extracting key keywords from the data that has undergone text mining, and the data mining analysis server 100 analyzes the risk scenarios through object type integration and statistical analysis for the key keywords of the construction accident data. It may include a risk scenario configuration process (S340) to configure. It will be described in detail below.

데이터 수집 과정은, 데이터마이닝 분석 서버(100)가 건설사고 데이터를 수집하는 과정으로서, 데이터베이스를 통하여 건설사고사례 텍스트를 수집하거나 재해유형별로 단어의 분류 수집을 수행한다.The data collection process is a process in which the data mining analysis server 100 collects construction accident data, and collects construction accident case texts through a database or performs classification collection of words by disaster type.

텍스트마이닝 과정(S320)은, 데이터마이닝 분석 서버(100)가 건설사고 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 정보를 추출 및 가공하는 텍스트마이닝을 수행하는 과정이다.The text mining process ( S320 ) is a process in which the data mining analysis server 100 performs text mining in which information is extracted and processed by applying natural language processing technology and document processing technology to construction accident data.

참고로, 텍스트마이닝이란, 비정형 데이터 마이닝의 유형 중의 하나이다. 텍스트마이닝은, 비정형 및 반정형 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 유용한 정보를 추출 및 가공하는 기술이다. 실생활에서 만들어지는 대부분의 자료는 문서형태이다. 여러 분야의 논문, 신문, 또는 잡지의 기사, 여론조사, 콜센터의 전화 보고서, 이메일, 디지털 형태의 문서 등이 문서 형태를 가지는데, 이러한 문서 형태의 데이터는 기존의 통계분석이나 데이터 마이닝 기법을 적용하기에 부적합한 데이터형태를 가진다. 그리고 대부분 텍스트 데이터 베이스에 저장된 데이터는 반구조적 데이터이다. 문서는 제목, 작가, 출판날짜, 길이, 분류 등과 같은 약간의 구조적인 분야들을 포함할 수 있고, 또한 문서의 요약, 내용과 같이 크기가 큰 비구조적 테스트 요소 또한 포함되기 때문이다. 즉, 반구조적 데이터란 완전하게 구조적이지도 않고 완전하게 비구조적이지도 않은 데이터를 의미한다.For reference, text mining is one of the types of unstructured data mining. Text mining is a technology for extracting and processing useful information by applying natural language processing technology and document processing technology to unstructured and semi-structured data. Most of the data created in real life is in the form of documents. Papers in various fields, articles in newspapers or magazines, opinion polls, phone reports from call centers, e-mails, digital documents, etc. It has a data format that is not suitable for the following. And most of the data stored in text databases is semi-structured data. This is because the document may contain some structural fields such as title, author, publication date, length, classification, etc., and also includes large unstructured test elements such as summary and content of the document. That is, semi-structured data means data that is neither completely structured nor completely unstructured.

Figure pat00001
Figure pat00001

따라서 본 발명의 텍스트마이닝 과정(S320)은, 건설사고 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 정보를 추출 및 가공을 위하여, 건설사고 데이터의 문장을 분할하는 문장 분할 과정(S321)과, 건설사고 데이터의 단어를 토큰화하는 단어 토큰화 과정(S322)과, 토큰화된 단어에서 사용되지 않은 단어를 제거하는 불용어 제거 과정(S323)과, 품사 분석을 통하여 단어 객체를 추출하는 과정(S324)을 가질 수 있다.Therefore, the text mining process (S320) of the present invention includes a sentence division process (S321) of dividing the sentences of the construction accident data in order to extract and process information by applying natural language processing technology and document processing technology to the construction accident data; , word tokenization process (S322) of tokenizing words of construction accident data, stopword removal process (S323) of removing unused words from tokenized words, and process of extracting word objects through part-of-speech analysis ( S324) may have.

만약, 건설사고 데이터 수집 과정(S310)에서 건설사고사례 텍스트를 수집한 경우라면, 텍스트마이닝 과정(S320)은, 건설사고사례 텍스트에서 건설현장과 관련된 단어 객체들을 추출하도록 한다. 따라서 텍스트마이닝 과정(S320)은, 건설사고사례 텍스트에서 건설현장과 관련된 단어 객체들을 추출한다. 예를 들어, 도 4(a)에 도시한 바와 같이 건설사고사례에 대한 데이터를 수집하고, 이들 데이터에 대한 자연어 처리 기술과 문서 처리 기술을 적용하여 정보를 추출하는 텍스트마이닝을 거쳐서 단어 객체들인 '2019', '6', 19', '수', '서울', '강동구', '소재', '근생', '공동주택', '신축현장', '비계', '공인', '재해자', 외부', '비계', '해체', 작업', '상부', '이동' 등의 단어 객체들을 추출한다. 그리고 이들 단어들 중에서 미리 등록된 핵심 키워드인 '비계'라는 단어를 핵심 키워드로서 추출할 수 있게 된다.If, in the case of collecting the construction accident case text in the construction accident data collection process ( S310 ), the text mining process ( S320 ) extracts word objects related to the construction site from the construction accident case text. Therefore, the text mining process (S320) extracts word objects related to the construction site from the construction accident case text. For example, as shown in Fig. 4(a), data on construction accident cases are collected, and natural language processing technology and document processing technology are applied to these data to extract information through text mining to obtain word objects ' 2019', '6', 19', 'Wednesday', 'Seoul', 'Gangdong-gu', 'Material', 'Nearby', 'Apartment house', 'New construction site', 'scaffolding', 'authorized', 'disaster Word objects such as ', external', 'scaffolding', 'dismantling', 'work', 'upper', and 'moving' are extracted. And it is possible to extract the word 'scaffolding', which is a pre-registered core keyword among these words, as a core keyword.

또한, 건설사고 데이터 수집 과정(S310)에서, 재해유형별로 단어의 분류 수집을 수행한 경우라면, 텍스트마이닝 과정(S320)은, 도 4(b)에 도시한 바와 같이 동일한 의미를 가진 단어를 통합하여 하나의 단어 객체로서 재분류하도록 한다.In addition, in the construction accident data collection process ( S310 ), if the classification and collection of words by disaster type is performed, the text mining process ( S320 ) integrates words having the same meaning as shown in FIG. 4( b ). to reclassify it as a single word object.

핵심 키워드 추출 과정(S330)은, 데이터마이닝 분석 서버(100)가, 텍스트마이닝을 거친 데이터에서 핵심 키워드를 추출하는 과정이다. 핵심 키워드 추출은, 패턴 분석에 기반을 둔 텍스트 연결망을 통하여 핵심 키워드를 추출할 수 있다. 즉, 객체 관계 분석, 의미 연결망 분석을 통하여 도 5와 같이 핵심 키워드를 추출할 수 있다.The core keyword extraction process ( S330 ) is a process in which the data mining analysis server 100 extracts core keywords from data that has undergone text mining. Core keyword extraction may extract core keywords through a text network based on pattern analysis. That is, core keywords can be extracted as shown in FIG. 5 through object relationship analysis and semantic network analysis.

예를 들어, 도 5에 도시한 바와 같이 텍스트마이닝을 거쳐서 '파이프서포트', '자재', 개구부'라는 다중 객체가 추출되는 경우, 이들 중에서, 인공지능망 분석을 통하여 공사현장의 사고인 '추락'이라는 단어와 의미 연결되는 '개구부'라는 단어가 핵심 키워드로서 추출될 수 있다.For example, when multiple objects such as 'pipe support', 'material', and opening are extracted through text mining as shown in FIG. The word 'opening', which is semantically connected to the word ',' may be extracted as a key keyword.

위험 시나리오 구성 과정(S340)은, 도 6과 같이 데이터마이닝 분석 서버(100)가 건설사고 데이터의 핵심 키워드에 대하여 객체유형 통합 및 통계적 분석을 통하여 위험 시나리오를 구성하는 과정이다. 예를 들어, 핵심 키워드가 '사다리'인 경우, 핵심 키워드인 '사다리'와 연관된 사고 유형의 객체와 통계적 분석을 통하여 예상될 수 있는 위험 시나리오를 구성하는 것이다.The risk scenario configuration process ( S340 ) is a process in which the data mining analysis server 100 configures a risk scenario through object type integration and statistical analysis for key keywords of construction accident data, as shown in FIG. 6 . For example, if the key keyword is 'ladder', it constitutes an object of an accident type related to the key keyword 'ladder' and a risk scenario that can be predicted through statistical analysis.

나아가, 위험 시나리오 구성은, 공사 종류, 작업 프로세스, 작업 위치에 따라서 연관되는 사고 예상 객체를 추출하여 위험 시나리오를 구성할 수 있다. 즉, 공사 종류 및 작업 프로세스 및 작업 위치별로 각각 예상되는 위험 시나리오가 다르게 구성되는 것이다. Furthermore, the risk scenario configuration may configure the risk scenario by extracting the accident prediction object related according to the construction type, work process, and work location. That is, each expected risk scenario is configured differently for each construction type, work process, and work location.

또한 위험 시나리오 구성은, 대표 재해 사례, 재해 유형 빈도의 위험 시나리오뿐만 아니라, 사고 방지 안전 대책도 함께 구성할 수 있다.In addition, in the risk scenario configuration, not only the risk scenarios of representative disaster cases and frequency of disaster types, but also accident prevention safety measures can be configured together.

따라서 이러한 위험 시나리오 구성이 완료되면, 공사 종류, 작업 프로세스, 작업 위치 등의 건설공사 예정 공정표를 입력받게 될 경우 그에 매칭되는 위험 시나리오와 안전 대책에 대한 정보를 표시하여, 작업자가 이를 참조하여 사고예방을 도모할 수 있게 된다.Therefore, when this risk scenario configuration is completed, when the construction work schedule schedule such as construction type, work process, and work location is input, information on the matching risk scenario and safety measures is displayed, and the operator can refer to it to prevent accidents will be able to promote

이상에서와 같이 도면과 명세서에서 최적 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.As described above, an optimal embodiment has been disclosed in the drawings and the specification. Although specific terms have been used herein, they are only used for the purpose of describing the present invention and are not used to limit the meaning or the scope of the present invention described in the claims. Therefore, it will be understood by those skilled in the art that various modifications and equivalent other embodiments are possible therefrom. Therefore, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.

100:데이터마이닝 분석 서버
S310:건설사고 데이터 수집 과정
S320:텍스트마이닝 과정
S330:핵심 키워드 추출 과정
S340:위험 시나리오 구성 과정
100: data mining analysis server
S310: Construction accident data collection process
S320: text mining process
S330: Key Keyword Extraction Process
S340: Risk scenario configuration process

Claims (6)

데이터마이닝 분석 서버가, 건설사고 데이터를 수집하는 건설사고 데이터 수집 과정;
상기 데이터마이닝 분석 서버가, 상기 건설사고 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 정보를 추출 및 가공하는 텍스트마이닝을 수행하는 텍스트마이닝 과정;
상기 데이터마이닝 분석 서버가, 텍스트마이닝을 거친 데이터에서 핵심 키워드를 추출하는 핵심 키워드 추출 과정;
상기 데이터마이닝 분석 서버가, 상기 건설사고 데이터의 핵심 키워드에 대하여 객체유형 통합 및 통계적 분석을 통하여 위험 시나리오를 구성하는 위험 시나리오 구성 과정;
을 포함하는 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법.
A construction accident data collection process in which the data mining analysis server collects construction accident data;
a text mining process in which the data mining analysis server performs text mining in which information is extracted and processed by applying natural language processing technology and document processing technology to the construction accident data;
a core keyword extraction process in which the data mining analysis server extracts core keywords from data that has undergone text mining;
a risk scenario configuration process in which the data mining analysis server configures a risk scenario through object type integration and statistical analysis with respect to the key keywords of the construction accident data;
Data mining-based construction accident object information extraction method using big data including
청구항 1에 있어서, 상기 텍스트마이닝 과정은,
건설사고 데이터의 문장을 분할하는 문장 분할 과정;
건설사고 데이터의 단어를 토큰화하는 단어 토큰화 과정;
토큰화된 단어에서 사용되지 않은 단어를 제거하는 불용어 제거 과정;
품사 분석을 통하여 단어 객체를 추출하는 과정;
을 포함하는 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법.
The method according to claim 1, wherein the text mining process,
Sentence segmentation process of segmenting sentences of construction accident data;
word tokenization process for tokenizing words of construction accident data;
a stopword removal process of removing unused words from tokenized words;
A process of extracting a word object through part-of-speech analysis;
Data mining-based construction accident object information extraction method using big data including
청구항 2에 있어서,
상기 건설사고 데이터 수집 과정은, 건설사고사례 텍스트를 수집하며,
상기 텍스트마이닝 과정은, 상기 건설사고사례 텍스트에서 건설현장과 관련된 단어 객체를 추출함을 특징으로 하는 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법.
3. The method according to claim 2,
The construction accident data collection process collects construction accident case text,
The text mining process is a data mining-based construction accident object information extraction method using big data, characterized in that extracting a word object related to a construction site from the text of the construction accident case.
청구항 2에 있어서,
상기 건설사고 데이터 수집 과정은, 재해유형별로 단어의 분류 수집을 수행하며,
상기 텍스트마이닝 과정은, 동일한 의미를 가진 단어를 통합하여 하나의 단어 객체로서 재분류함을 특징으로 하는 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법.
3. The method according to claim 2,
The construction accident data collection process performs classification and collection of words by disaster type,
The text mining process is a data mining-based construction accident object information extraction method using big data, characterized in that words with the same meaning are integrated and reclassified as a single word object.
청구항 1에 있어서, 상기 위험 시나리오 구성 과정은,
공사 종류, 작업 프로세스, 작업 위치에 따라서 연관되는 사고 예상 객체를 추출하여 위험 시나리오를 구성함을 특징으로 하는 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법.
The method according to claim 1, wherein the risk scenario configuration process,
A data mining-based construction accident object information extraction method using big data, characterized in that a risk scenario is constructed by extracting an accident predicted object that is related according to the construction type, work process, and work location.
청구항 1에 있어서, 상기 위험 시나리오 구성 과정은,
대표 재해 사례, 재해 유형 빈도, 사고 방지 안전 대책을 포함하는 위험 시나리오를 구성함을 특징으로 하는 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법.
The method according to claim 1, wherein the risk scenario configuration process,
A data mining-based construction accident object information extraction method using big data, characterized by composing a risk scenario including representative disaster cases, disaster type frequency, and accident prevention safety measures.
KR1020200150054A 2020-11-11 2020-11-11 Method for extracting construction safety accident based data mining using big data KR20220064016A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200150054A KR20220064016A (en) 2020-11-11 2020-11-11 Method for extracting construction safety accident based data mining using big data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200150054A KR20220064016A (en) 2020-11-11 2020-11-11 Method for extracting construction safety accident based data mining using big data

Publications (1)

Publication Number Publication Date
KR20220064016A true KR20220064016A (en) 2022-05-18

Family

ID=81800627

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200150054A KR20220064016A (en) 2020-11-11 2020-11-11 Method for extracting construction safety accident based data mining using big data

Country Status (1)

Country Link
KR (1) KR20220064016A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341539A (en) * 2023-03-02 2023-06-27 水利部交通运输部国家能源局南京水利科学研究院 Dam risk mining method and system based on NLP big data
KR102595564B1 (en) * 2023-05-10 2023-10-31 화성엔지니어링 주식회사 Apparatus and method for evaluating the risk of a construction site based on large language model
KR102604582B1 (en) * 2022-12-13 2023-11-22 주식회사 한국건설방재연구원 Key Phrase extraction and accuracy evaluation method for building integrated construction disaster DB
CN117112858A (en) * 2023-10-24 2023-11-24 武汉博特智能科技有限公司 Object screening method based on association rule mining, processor and storage medium
KR102642246B1 (en) * 2023-05-15 2024-02-29 화성엔지니어링 주식회사 Apparatus and method for generating checklist for construction site safety and health management system based on large language model

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150058709A (en) 2013-11-20 2015-05-29 대우조선해양 주식회사 Integrated system for research productivity and operation managment based on big date technology, and method thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150058709A (en) 2013-11-20 2015-05-29 대우조선해양 주식회사 Integrated system for research productivity and operation managment based on big date technology, and method thereof

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102604582B1 (en) * 2022-12-13 2023-11-22 주식회사 한국건설방재연구원 Key Phrase extraction and accuracy evaluation method for building integrated construction disaster DB
CN116341539A (en) * 2023-03-02 2023-06-27 水利部交通运输部国家能源局南京水利科学研究院 Dam risk mining method and system based on NLP big data
KR102595564B1 (en) * 2023-05-10 2023-10-31 화성엔지니어링 주식회사 Apparatus and method for evaluating the risk of a construction site based on large language model
KR102642246B1 (en) * 2023-05-15 2024-02-29 화성엔지니어링 주식회사 Apparatus and method for generating checklist for construction site safety and health management system based on large language model
CN117112858A (en) * 2023-10-24 2023-11-24 武汉博特智能科技有限公司 Object screening method based on association rule mining, processor and storage medium
CN117112858B (en) * 2023-10-24 2024-02-02 武汉博特智能科技有限公司 Object screening method based on association rule mining, processor and storage medium

Similar Documents

Publication Publication Date Title
KR20220064016A (en) Method for extracting construction safety accident based data mining using big data
Johann et al. Safe: A simple approach for feature extraction from app descriptions and app reviews
Vu et al. Phrase-based extraction of user opinions in mobile app reviews
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
US7464096B2 (en) Method and apparatus for information mining and filtering
US9183286B2 (en) Methodologies and analytics tools for identifying white space opportunities in a given industry
US20050120009A1 (en) System, method and computer program application for transforming unstructured text
US7567954B2 (en) Sentence classification device and method
RU2704531C1 (en) Method and apparatus for analyzing semantic information
Martínez-Rojas et al. Management of construction Safety and Health Plans based on automated content analysis
JP2003288362A (en) Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method
WO2016200667A1 (en) Identifying relationships using information extracted from documents
CN110727803A (en) Text event extraction method and device
KR20150059208A (en) Device for analyzing the time-space correlation of the event in the social web media and method thereof
CN110929520A (en) Non-named entity object extraction method and device, electronic equipment and storage medium
CN111966792A (en) Text processing method and device, electronic equipment and readable storage medium
CN110880142A (en) Risk entity acquisition method and device
CN113971205A (en) Threat report attack behavior extraction method, device, equipment and storage medium
Wachsmuth et al. Constructing efficient information extraction pipelines
CN104965894A (en) Data analysis system for IDC hazardous information monitoring platform
JP7223549B2 (en) Information operation device and information operation method
KR102025813B1 (en) Device and method for chronological big data curation system
JP5112027B2 (en) Document group presentation device and document group presentation program
CN109992651A (en) A kind of problem target signature automatic identification and abstracting method
CN113449083B (en) Operation safety management method, device, equipment and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application