KR101684136B1 - 시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인 - Google Patents

시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인 Download PDF

Info

Publication number
KR101684136B1
KR101684136B1 KR1020150091370A KR20150091370A KR101684136B1 KR 101684136 B1 KR101684136 B1 KR 101684136B1 KR 1020150091370 A KR1020150091370 A KR 1020150091370A KR 20150091370 A KR20150091370 A KR 20150091370A KR 101684136 B1 KR101684136 B1 KR 101684136B1
Authority
KR
South Korea
Prior art keywords
concept
extracted
document
concepts
maintenance
Prior art date
Application number
KR1020150091370A
Other languages
English (en)
Inventor
서효원
김동진
이희정
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020150091370A priority Critical patent/KR101684136B1/ko
Application granted granted Critical
Publication of KR101684136B1 publication Critical patent/KR101684136B1/ko

Links

Images

Classifications

    • G06F17/2785
    • G06F17/30705
    • G06F17/30731
    • G06F17/30734

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

일 실시예에 따른 유지보수 가이드라인을 제공하는 방법은, 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계- 상기 개념은, 상기 문서에 포함되어 있는 텍스트의 기본 단위를 의미함-; 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계; 및 상기 클러스터링을 수행함에 따라 생성된 유지보수 가이드라인을 제공하는 단계를 포함할 수 있다.

Description

시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인{OPERATION AND MAINTENANCE GUIDELINE USING SEMANTIC PROCESSING AND CLUSTERING}
아래의 설명은 운영 및 유지보수 가이드라인를 제공하는 기술에 관한 것이다.
산업이 급격히 발전함에 따라 플랜트와 시설의 수가 크게 증가하고 있다. 이에 따라 공장이나 설비의 고장은 효과적이고 효율적인 운영 및 유지 보수 활동의 중요성을 강조하는 계기가 되었다. 플랜트 안전 관련 주요 활동은 유지보수 설명서에서 필요한 내용을 검색하는 데 있어서, 이의 경우 다양한 유지보수 설명서가 갖는 의미적 모호성과 높은 언어적 복잡도로 인해 많은 시간을 필요로 하게 된다. 플랜트 내에서 사고가 발생했을 경우, 숙련된 기술자의 경험과 판단을 사용하여 사고를 해결함에 있어서 유지보수 문서 대부분이 비구조화 되어있기 때문에 필요할 때 유지보수 문서를 검색하지 못하게 된다.
이와 같은 문제를 해결하기 위해 공장의 안전 활동을 위한 새로운 유지보수 가이드라인이 제안될 필요가 있다.
한국공개특허 제10-2013-0036863호는 의미적 자질을 이용한 문서 분류 시스템 및 그 방법에 관하여 개시하고 있다.
일 실시예에 따른 유지보수 가이드라인 제공 장치는 시맨틱 프로세싱 및 군집화 기법을 이용하여 설비의 운전 및 유지보수 지침에 새로운 접근 방식을 제안한다.
일 실시예에 따른 유지보수 가이드라인을 제공하는 방법은, 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계- 상기 개념은, 상기 문서에 포함되어 있는 텍스트의 기본 단위를 의미함-; 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계; 및 상기 클러스터링을 수행함에 따라 생성된 유지보수 가이드라인을 제공하는 단계를 포함할 수 있다.
일측에 따르면, 상기 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계는, 상기 문서로부터 음절 단위로 분류된 텍스트에 대하여 미리 정의된 도메인별로 구축된 의미 체계 모델에 기반하여 개념을 추출하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계는, 상기 문서에서 추출한 개념들간의 관계를 정의하고, 상기 관계가 정의된 개념들에 대하여 형태소별로 분류한 후, 공정에서 획득한 개념과 참조 모델을 조합하여 의미론적 모델을 구축하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계는, 상기 문서로부터 추출된 개념들에 대하여 의미 관계를 판단하기 위한 K-Medoid 군집화 기법을 수행한 후, 상기 개념에 대한 TF-IDF(Term-Frequency, Inverse-Document Frequency)를 적용하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계는, 상기 추출된 개념이 다른 개념과 연관되어 있는지 여부를 판단하기 위하여 K-Medoid 군집화 기법을 적용시킴으로써 복수의 개념 사이의 유사성을 측정하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계는, TF-IDF(Term-Frequency, Inverse-Document Frequency)를 통하여 상기 추출된 개념이 상기 클러스터링을 이룬 군집에 얼마나 중요한 역할을 하는지를 수학식에 기초하여 계산하는 단계를 포함할 수 있다.
수학식:
Figure 112015062241814-pat00001
일 실시예에 따르면, 컴퓨터 시스템이 유지보수 가이드라인을 제공하도록 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 매체로서, 상기 명령은, 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계- 상기 개념은, 상기 문서에 포함되어 있는 텍스트의 기본 단위를 의미함-; 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계; 및 상기 클러스터링을 수행함에 따라 생성된 유지보수 가이드라인을 제공하는 단계를 포함하는 방법에 의하여 컴퓨터 시스템을 제어할 수 있다
일 실시예에 따르면, 유지보수 가이드라인을 제공하는 장치는, 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 구축부- 상기 개념은, 상기 문서에 포함되어 있는 텍스트의 기본 단위를 의미함-; 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 수행부; 및 상기 클러스터링을 수행함에 따라 생성된 유지보수 가이드라인을 제공하는 제공부를 포함할 수 있다.
일측에 따르면, 상기 구축부는, 상기 문서로부터 음절 단위로 분류된 텍스트에 대하여 미리 정의된 도메인별로 구축된 의미 체계 모델에 기반하여 개념을 추출할 수 있다.
또 다른 일측에 따르면, 상기 구축부는, 상기 문서에서 추출한 개념들간의 관계를 정의하고, 상기 관계가 정의된 개념들에 대하여 형태소별로 분류한 후, 공정에서 획득한 개념과 참조 모델을 조합하여 의미론적 모델을 구축할 수 있다.
또 다른 일측에 따르면, 상기 수행부는, 상기 문서로부터 추출된 개념들에 대하여 의미 관계를 판단하기 위한 K-Medoid 군집화 기법을 수행한 후, 상기 개념에 대한 TF-IDF(Term-Frequency, Inverse-Document Frequency)를 적용할 수 있다.
또 다른 일측에 따르면, 상기 수행부는, 상기 추출된 개념이 다른 개념과 연관되어 있는지 여부를 판단하기 위하여 K-Medoid 군집화 기법을 적용시킴으로써 복수의 개념 사이의 유사성을 측정할 수 있다.
또 다른 일측에 따르면, 상기 수행부는, TF-IDF(Term-Frequency, Inverse-Document Frequency)를 통하여 상기 추출된 개념이 상기 클러스터링을 이룬 군집에 얼마나 중요한 역할을 하는지를 수학식에 기초하여 계산할 수 있다.
수학식:
Figure 112015062241814-pat00002

일 실시예에 따른 유지보수 가이드라인 제공 장치는 온톨로지 기반의 시맨틱 모델과 텍스트 마이닝 기법의 접근 방식을 통하여 문서로부터 개념을 추출하고, 추출된 개념에 대하여 의미 체계 모델을 구축하고, 개념들 사이에 유사성에 기초하여 클러스터링을 수행함으로써 설비의 운전 및 유지 보수 가이드라인을 제공할 수 있다.
도 1은 일 실시예에 따른 유지보수 가이드라인 제공 장치의 구성을 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 유지보수 가이드라인 제공 장치에의 문서에서 사용되는 특정 단어가 대응하고 있는 것을 나타낸 도면이다.
도 3은 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 문서로부터 개념을 추출하는 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 의미 체계 모델을 구축하는 것을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 의미 체계 모델과 미리 정의된 참조 모델을 이용하여 연결함으로써 구성되는 방법을 도시한 것이다.
도 6은 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 유사성 측정하는 것을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 K-Medoid 군집화 기법을 수행하는 것을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 문서의 TF-IDF를 수행하는 것을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 유지보수 가이드라인 제공 장치의 유지보수 가이드라인 제공 방법을 설명하기 위한 흐름도이다.
도 10은 일 실시예에 따른 유지보수 가이드라인 제공 장치의 실패 레포트로부터 개념을 추출한 예를 나타낸 도면이다.
도 11은 일 실시예에 따른 유지보수 가이드라인 제공 장치의 TF-IDF 매트릭스 및 정보 전파의 예를 나타낸 도면이다.
도 12는 일 실시예에 따른 유지보수 가이드라인 제공 장치의 유지보수 가이드라인의 확장 예를 나타낸 도면이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 1은 일 실시예에 따른 유지보수 가이드라인 제공 장치의 구성을 설명하기 위한 블록도이다.
유지보수 가이드라인 제공 장치(100)는 시맨틱 프로세싱과 군집화 기법을 이용하여 설비의 운전 및 유지보수 가이드 라인을 제공하기 위한 것으로, 구축부(110), 수행부(120) 및 제공부(130)를 포함할 수 있다.
구축부(110)는 문서로부터 개념을 추출하고, 추출된 개념에 대하여 의미 체계 모델을 구축할 수 있다. 이때, 개념은 문서에 포함되어 있는 텍스트의 기본 단위를 의미할 수 있다. 구축부(110)는 문서로부터 음절 단위로 분류된 텍스트에 대하여 미리 정의된 도메인별로 구축된 의미 체계 모델에 기반하여 개념을 추출할 수 있다. 구축부(110)는 문서에서 추출한 개념들간의 관계를 정의하고, 관계가 정의된 개념들에 대하여 형태소별로 분류한 후, 공정에서 획득한 개념과 참조 모델을 조합하여 의미론적 모델을 구축할 수 있다.
수행부(120)는 추출된 개념과 연관된 개념을 탐색하고, 추출된 개념을 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행할 수 있다. 수행부(120)는 문서로부터 추출된 개념들에 대하여 의미 관계를 판단하기 위한 K-Medoid 군집화 기법을 수행한 후, 개념에 대한 TF-IDF(Term-Frequency, Inverse-Document Frequency)를 적용할 수 있다.
수행부(120)는 추출된 개념이 다른 개념과 연관되어 있는지 여부를 판단하기 위하여 K-Medoid 군집화 기법을 적용시킴으로써 복수의 개념 사이의 유사성을 측정할 수 있다. 수행부(120)는 TF-IDF를 통하여 추출된 개념이 클러스터링을 이룬 군집에 얼마나 중요한 역할을 하는지를 수학식에 기초하여 계산할 수 있다.
제공부(130)는 클러스터링을 수행함에 따라 생성된 유지보수 가이드라인을 제공할 수 있다.
도 2는 일 실시예에 따른 유지보수 가이드라인 제공 장치의 문서에서 사용되는 특정 단어가 대응하고 있는 것을 나타낸 도면이다.
유지보수 가이드라인 제공 장치는 유지보수 설명서 및 특별한 의미로 사용되는 특정 단어가 대응하고 있는 것을 나타낸 것이다. <고장-원인 문서>와 <유지 관리 지침>이라는 두 가지 유형을 나타낸 것이다.
고장이란 설계 의도에 따라 실행하였을 경우, 시스템, 설계, 프로세스, 서비스 또는 서브 시스템으로부터 발생하는 문제, 우려, 오류 등을 의미할 수 있다. 원인은 해당 공장의 근본 원인이 무엇인지를 의미한다. 오류가 발생하였을 경우, 담당 엔지니어는 관련 정보를 확인하고 올바른 방법으로 적절한 조치를 수행해야 한다.
도 3은 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 문서로부터 개념을 추출하는 방법을 설명하기 위한 흐름도이다.
개념은 '플랜트' 또는 '기름' 또는 문구로 하나의 단어가 될 수 있다. 개념이라는 단어는 다른 상황이나 지역에서 다른 의미로 사용할 수 있다. 본 발명에서 개념은 유지보수 가이드라인에서 사용하는 텍스트의 기본 단위이며, 일련의 동작에 의하여 추출될 수 있다. 일반적으로, 유지보수 가이드라인은 다양한 종류로 표시될 수 있다. 그러나, 단어 기반의 정보, 예를 들면, 개념은 파서(Parser)에 의해 추출하고 분석할 수 있기 때문에 주로 텍스트 기반의 문서에 초점을 맞추고 있다. 유지보수 가이드라인 제공 장치는 개념을 분석할 때 형태소 분석 기법이 쓰이는데, 개념 추출을 위해서 POS(part-of-speech) 태깅(예를 들면, HanNanum 한국어 형태소 분석기)을 통하여 문자를 토큰화시킬 수 있다.
예를 들면, 유지보수 가이드라인 제공 장치는 한국 문서를 탐색함으로써 분석할 수 있다(310). 유지보수 가이드라인 제공 장치는 탐색된 문서로부터 단어를 추출할 수 있다(320). 유지보수 가이드라인 제공 장치는 예를 들면, '\t', '\n' 및 특수 문자가 있는 경우에 토큰에 글을 읽고 문장을 분할할 수 있다. 토큰화된 용어는 다음과 같은 통계 기법을 기반으로 할 수 있다.
Figure 112015062241814-pat00003
Figure 112015062241814-pat00004
은 n개의 단어로 구성되어 c1로 구성된 문장을 의미하고, n은 POS의 수를 의미할 수 있다. 전체적인 형태소 분석 프로세스는 도 3에 도시되어 있다.
예를 들면, 유지보수 가이드라인 제공 장치는 8 개의 실패-원인 문서를 선택하여 개념 추출 테스트를 시행할 수 있고, MOTOR, SPEED, PUMP 등과 같은 104개의 개념을 얻을 수 있다.
도 4는 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 의미 체계 모델을 구축하는 것을 설명하기 위한 도면이다.
유지보수 가이드라인 제공 장치는 온톨로지 및 엔지니어링 전문가를 선택하고, 의미 체계 모델을 구축할 수 있다. 유지보수 가이드라인 제공 장치는 개념 간의 관계를 파악하고, 모든 개념과의 관계를 통합, 문서로부터 개념을 추출하고 참조 모델을 정의하는 순으로 이루어질 수 있다.
유지보수 가이드라인 제공 장치는 유지보수 사업의 일반적인 기능을 참조함으로써 높은 수준의 참조 모델을 구축할 수 있다. 도 4a를 참고하면, 유지보수 도메인의 개념들간의 관계를 정의하였고, 도 4b와 같이 유지보수 도메인들간의 관계를 정의한 것을 형태소별로 정리한 것을 나타낸 것이다. 도 5는 의미 체계 모델과 미리 정의된 참조 모델을 이용하여 연결함으로써 구성되는 방법을 도시한 것이다.
도 6은 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 유사성 측정하는 것을 설명하기 위한 도면이다.
유지보수 가이드라인 제공 장치는 문서로부터 추출된 개념에 대하여, 하나의 개념이 다른 개념에 더 연관되어 있는 경우가 발생할 수 있다. 이를 위하여 두 개념 사이의 유사성을 판단하는 것이 중요하며, 유사성을 판단하는 방법은 여러가지가 있을 수 있다.
유지보수 가이드라인 제공 장치는 두 개념 사이의 유사성을 판단함에 있어서, 다음과 같은 방법을 사용할 수 있다. 본 발명에서는 유사성 측정으로서 의미 체계 모델에서 두 클래스 사이의 중간 엣지 수를 사용한다. 도 6을 참고하면, 도 6은 거리 계산, 다시 말해서 DIS 유사성을 나타낸 것이다. 예를 들면, 회전과 MOTOR 사이의 거리는 하나의 중간 엣지가 있기 때문에 1이지만, 회전과 PUMP 사이의 거리는 두개의 중간 엣지가 있기 때문에 거리가 2이다.
도 7을 참고하면, 거리 또는 DIS 유사성에 기초하여 유지보수 가이드라인 제공 장치는 추출된 개념들에 대한 클러스터링을 수행함에 있어서 K-Medoid(710) 알고리즘을 적용할 수 있으며, 네 개의 군집(cluster)를 획득할 수 있다.
도 8은 일 실시예에 따른 유지보수 가이드라인 제공 장치에서 문서의 TF-IDF를 수행하는 것을 설명하기 위한 도면이다.
TF-IDF(Term-Frequency, Inverse-Document Frequency)란 해당 개념이 문서 군집에 얼마나 중요한 역할을 하는지를 반영하는 지표이다. TF는 용어 t가 문서에서 발생하는 횟수를 D, 즉 특정 단어가 문서에 어떻게 표시되는지를 나타내는 값이며, IDF는 특정 단어가 표시되는 것을 문서 수의 역수로 취한 값이다. 다음과 같은 수학식으로 계산할 수 있다.
Figure 112015062241814-pat00005
TF는 유지보수 문서에서 추출 된 용어 빈도이고, N은 전체 문서의 수이며, n은 특정 단어가 포함 된 문서의 수이다. TF-IDF의 결과는 도 8과 같이 행렬로도 나타낼 수 있다. 이 행렬을 사용하여 문서와 개념의 관계를 이해하고 또한 문서 클러스터를 생성할 수 있다.
도 9는 일 실시예에 따른 유지보수 가이드라인 제공 장치의 유지보수 가이드라인 제공 방법을 설명하기 위한 흐름도이다.
유지보수 가이드라인 제공 장치는 개념 추출 및 클러스터링 기술에 기초하여 숙련된 엔지니어 및 초보 엔지니어에게 유지보수 가이드라인을 제공하도록 설계될 수 있다. 유지보수 가이드라인 제공 장치는 장애를 분석하고 개념을 분석하여 유용한 지침과 기술을 제공할 수 있다. 도 9는 향상된 유지보수 프레임워크가 어떤 방식으로 처리되는지를 나타낸 것이다.
유지보수 가이드라인 제공 장치는 문서, 예를 들면, 유지보수 설명서(910)로부터 개념을 추출할 수 있다(920). 유지보수 가이드라인 제공 장치는 추출된 개념에 대하여 의미 체계 모델을 구축할 수 있다. 이때, 유지보수 가이드라인 제공 장치는 문서에서 추출한 개념들간의 관계를 정의하고, 관계가 정의된 개념들에 대하여 형태소별로 분류한 후, 공정에서 획득한 개념과 참조 모델을 조합하여 의미론적 모델을 구축할 수 있다.
유지보수 가이드라인 제공 장치는 추출된 개념과 연관된 개념을 탐색하여 추출된 개념을 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행할 수 있다(930). 유지보수 가이드라인 제공 장치는 추출된 개념에 대하여 K-Medoid 군집화 알고리즘을 수행한 후, TF-IDF를 적용할 수 있다(940). 유지보수 가이드라인은 TF-IDF 과정을 적용시킨 개념들과 유지보수 설명서에 포함되어 있는 개념들을 매칭시킴으로써 생성된 가이드라인을 엔지니어에게 제공할 수 있다(950. 960).
예를 들면, 유지보수 가이드라인 제공 장치는 장애를 감지하고 다음과 같은 경고를 활성화할 수 있다. 유지보수 가이드라인 제공 장치는 텍스트 형식의 "LANTERN RING 으로의 SEAL PIPING 막힘"을 도 10과 같이 형태소 분석을 수행함으로써 "LANTERN_RING/part, SEAL_PIPING/component"와 같은 형태로 바꿀 수 있다.
도 11을 참고하면, 유지보수 가이드라인 제공 장치는 TF-IDF의 행렬을 사용하여 연관된 내용을 찾을 수 있다. TF-IDF 행렬로부터 LANTERN RING이 가장 높은 값(1.91)을 가진다는 것을 알 수 있다(0.65의 값을 갖는 SEAL PIPING은 제외). 그리고 유지보수 가이드라인 제공 장치는 같은 클러스터 내에 있는 문서 4,6에 대해서도 가장 높은 TF-IDF값을 갖는 개념인 BEARING(0.95)를 찾아 정리할 수 있다.
보안된 유지보수 프레임을 적용하면 도 12와 같이 직접 연관된 자료인 LANTERN RING뿐만 아니라 BEARING에 대한 자료까지 얻을 수 있다. 이로 인해 엔지니어가 주요 원인에 대해 필요한 정보뿐만 아니라 추가적인 정보까지 획득할 수 있게 된다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (13)

  1. 유지보수 가이드라인을 제공하는 방법에 있어서,
    구축부가 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계- 상기 개념은, 상기 문서에 포함되어 있는 텍스트의 기본 단위를 의미함-;
    수행부가 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계; 및
    제공부가 상기 클러스터링을 수행함에 따라 생성된 유지보수 가이드라인을 제공하는 단계
    를 포함하고,
    상기 구축부가 상기 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계는,
    상기 문서로부터 음절 단위로 분류된 텍스트에 대하여 미리 정의된 도메인별로 구축된 의미 체계 모델에 기반하여 개념을 추출하는 단계
    를 포함하는 유지보수 가이드라인 제공 방법.
  2. 삭제
  3. 제1항에 있어서
    상기 구축부가 상기 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계는,
    상기 문서에서 추출한 개념들간의 관계를 정의하고, 상기 관계가 정의된 개념들에 대하여 형태소별로 분류한 후, 공정에서 획득한 개념과 참조 모델을 조합하여 의미론적 모델을 구축하는 단계
    를 포함하는 유지보수 가이드라인 제공 방법.
  4. 제1항에 있어서,
    상기 수행부가 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계는,
    상기 문서로부터 추출된 개념들에 대하여 의미 관계를 판단하기 위한 K-Medoid 군집화 기법을 수행한 후, 상기 개념에 대한 TF-IDF(Term-Frequency, Inverse-Document Frequency)를 적용하는 단계
    를 포함하는 유지보수 가이드라인 제공 방법.
  5. 제4항에 있어서,
    상기 수행부가 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계는,
    상기 추출된 개념이 다른 개념과 연관되어 있는지 여부를 판단하기 위하여 K-Medoid 군집화 기법을 적용시킴으로써 복수의 개념 사이의 유사성을 측정하는 단계
    를 포함하는 유지보수 가이드라인 제공 방법.
  6. 제5항에 있어서,
    상기 수행부가 상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계는,
    TF-IDF(Term-Frequency, Inverse-Document Frequency)를 통하여 상기 추출된 개념이 상기 클러스터링을 이룬 군집에 얼마나 중요한 역할을 하는지를 수학식에 기초하여 계산하는 단계
    수학식:
    Figure 112016041687568-pat00006

    를 포함하는 유지보수 가이드라인 제공 방법.
  7. 컴퓨터 시스템이 유지보수 가이드라인을 제공하도록 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 매체로서,
    상기 명령은,
    문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계- 상기 개념은, 상기 문서에 포함되어 있는 텍스트의 기본 단위를 의미함-;
    상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 단계; 및
    상기 클러스터링을 수행함에 따라 생성된 유지보수 가이드라인을 제공하는 단계
    를 포함하고,
    상기 문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 단계는,
    상기 문서로부터 음절 단위로 분류된 텍스트에 대하여 미리 정의된 도메인별로 구축된 의미 체계 모델에 기반하여 개념을 추출하는 단계
    를 포함하는 방법에 의하여 컴퓨터 시스템을 제어하는 컴퓨터 판독가능 저장 매체.
  8. 유지보수 가이드라인을 제공하는 장치에 있어서,
    문서로부터 개념을 추출하고, 상기 추출된 개념에 대하여 의미 체계 모델을 구축하는 구축부- 상기 개념은, 상기 문서에 포함되어 있는 텍스트의 기본 단위를 의미함-;
    상기 추출된 개념과 연관된 개념을 탐색하고, 상기 추출된 개념을 상기 탐색된 개념들 사이의 유사성에 기초하여 클러스터링을 수행하는 수행부; 및
    상기 클러스터링을 수행함에 따라 생성된 유지보수 가이드라인을 제공하는 제공부
    를 포함하고,
    상기 구축부는,
    상기 문서로부터 음절 단위로 분류된 텍스트에 대하여 미리 정의된 도메인별로 구축된 의미 체계 모델에 기반하여 개념을 추출하는
    것을 특징으로 하는 유지보수 가이드라인 제공 장치.
  9. 삭제
  10. 제8항에 있어서
    상기 구축부는,
    상기 문서에서 추출한 개념들간의 관계를 정의하고, 상기 관계가 정의된 개념들에 대하여 형태소별로 분류한 후, 공정에서 획득한 개념과 참조 모델을 조합하여 의미론적 모델을 구축하는
    것을 특징으로 하는 유지보수 가이드라인 제공 장치.
  11. 제8항에 있어서,
    상기 수행부는,
    상기 문서로부터 추출된 개념들에 대하여 의미 관계를 판단하기 위한 K-Medoid 군집화 기법을 수행한 후, 상기 개념에 대한 TF-IDF(Term-Frequency, Inverse-Document Frequency)를 적용하는
    것을 특징으로 하는 유지보수 가이드라인 제공 장치.
  12. 제11항에 있어서,
    상기 수행부는,
    상기 추출된 개념이 다른 개념과 연관되어 있는지 여부를 판단하기 위하여 K-Medoid 군집화 기법을 적용시킴으로써 복수의 개념 사이의 유사성을 측정하는
    것을 특징으로 하는 유지보수 가이드라인 제공 장치.
  13. 제12항에 있어서,
    상기 수행부는,
    TF-IDF(Term-Frequency, Inverse-Document Frequency)를 통하여 상기 추출된 개념이 상기 클러스터링을 이룬 군집에 얼마나 중요한 역할을 하는지를 수학식에 기초하여 계산하는
    수학식:
    Figure 112015062241814-pat00007

    것을 특징으로 하는 유지보수 가이드라인 제공 장치.
KR1020150091370A 2015-06-26 2015-06-26 시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인 KR101684136B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150091370A KR101684136B1 (ko) 2015-06-26 2015-06-26 시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150091370A KR101684136B1 (ko) 2015-06-26 2015-06-26 시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인

Publications (1)

Publication Number Publication Date
KR101684136B1 true KR101684136B1 (ko) 2016-12-07

Family

ID=57573155

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150091370A KR101684136B1 (ko) 2015-06-26 2015-06-26 시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인

Country Status (1)

Country Link
KR (1) KR101684136B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200094514A (ko) * 2019-01-30 2020-08-07 경기대학교 산학협력단 설비 오류 발생 패턴 추출 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011078186A1 (ja) * 2009-12-22 2011-06-30 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法および記録媒体
KR20110122013A (ko) * 2010-05-03 2011-11-09 엔에이치엔(주) 문서 간의 유사도 계산 시스템 및 방법
KR20140134971A (ko) * 2013-05-15 2014-11-25 한국과학기술원 고장 형태 영향 분석(Failure Mode and Effect Analysis(FMEA)) 문서의 시맨틱 모델 처리 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011078186A1 (ja) * 2009-12-22 2011-06-30 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法および記録媒体
KR20110122013A (ko) * 2010-05-03 2011-11-09 엔에이치엔(주) 문서 간의 유사도 계산 시스템 및 방법
KR20140134971A (ko) * 2013-05-15 2014-11-25 한국과학기술원 고장 형태 영향 분석(Failure Mode and Effect Analysis(FMEA)) 문서의 시맨틱 모델 처리 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
구조적 유사도 기반 메타데이터 클러스터링 기법(한국정보과학회 2014 한국컴퓨터종합학술대회 논문집, 2014.6.30) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200094514A (ko) * 2019-01-30 2020-08-07 경기대학교 산학협력단 설비 오류 발생 패턴 추출 장치 및 방법
KR102243372B1 (ko) * 2019-01-30 2021-04-22 경기대학교 산학협력단 설비 오류 발생 패턴 추출 장치 및 방법

Similar Documents

Publication Publication Date Title
US20210248420A1 (en) Automated generation of structured training data from unstructured documents
Liu et al. Uniparser: A unified log parser for heterogeneous log data
Cer et al. Parsing to Stanford Dependencies: Trade-offs between Speed and Accuracy.
US20170308790A1 (en) Text classification by ranking with convolutional neural networks
KR102123974B1 (ko) 유사 특허 검색 서비스 시스템 및 방법
US9934203B2 (en) Performance detection and enhancement of machine translation
US20210124876A1 (en) Evaluating the Factual Consistency of Abstractive Text Summarization
US10282421B2 (en) Hybrid approach for short form detection and expansion to long forms
Kawahara et al. Rapid development of a corpus with discourse annotations using two-stage crowdsourcing
US20170068721A1 (en) Search for information related to an incident
Wities et al. A consolidated open knowledge representation for multiple texts
Nararatwong et al. Improving Thai word and sentence segmentation using linguistic knowledge
US9852128B2 (en) Translation validation
Zhong et al. Natural language processing for systems engineering: automatic generation of systems modelling language diagrams
US10534788B2 (en) Automatically determining a recommended set of actions from operational data
US20180365210A1 (en) Hybrid approach for short form detection and expansion to long forms
CN104021075A (zh) 用于程序代码的评估方法和装置
JP7434125B2 (ja) 文書検索装置、文書検索方法、及びプログラム
US11176311B1 (en) Enhanced section detection using a combination of object detection with heuristics
US9703547B2 (en) Computing program equivalence based on a hierarchy of program semantics and related canonical representations
KR101684136B1 (ko) 시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인
Patel et al. Sentiment analysis using maximum entropy algorithm in big data
Gesmundo et al. Lemmatising Serbian as Category Tagging with Bidirectional Sequence Classification.
CN111626055A (zh) 文本处理方法及装置、计算机存储介质、电子设备
Arganese et al. Nuts and bolts of extracting variability models from natural language requirements documents

Legal Events

Date Code Title Description
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191126

Year of fee payment: 4