KR102243372B1

KR102243372B1 - 설비 오류 발생 패턴 추출 장치 및 방법

Info

Publication number: KR102243372B1
Application number: KR1020190012094A
Authority: KR
Inventors: 최예림; 노영훈; 최은영
Original assignee: 경기대학교 산학협력단; 우진공업(주)
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2021-04-22
Also published as: KR20200094514A

Abstract

본 발명은 설비 오류 발생 패턴 검출 장치로, 텍스트 형태의 설비 오류 이력 데이터로부터 설비 오류 구절을 추출하는 설비 오류 구절 추출부와, 추출된 적어도 하나의 설비 오류 구절을 머신 러닝 기반으로 오류 유형별로 군집화하는 오류 유형 군집화부와, 군집화된 설비 오류 유형과 매칭되는 환경 데이터를 고려하여 설비 오류 발생 패턴 파악하는 오류 패턴 분석부를 포함한다.

Description

설비 오류 발생 패턴 추출 장치 및 방법{Apparatus and Method for Extracting Facility Error Pattern}

본 발명은 스마트 제조 기술에 관한 것으로, 특히 설비 오류 발생 패턴 검출하는 장치 및 방법에 관한 것이다.

최근 제조 분야에서는 4차 산업혁명에 관한 관심이 증가하고 있고, 특히 빅데이터를 활용한 새로운 가치를 창출이 필요하다고 인식하고 있으며, 이에 따라 빅데이터 기술을 활용한 스마트제조(smart manufacturing) 관련 연구가 활발히 진행되고 있다.

빅데이터 분석을 위해서는 많은 양의 데이터 수집이 선행되어야 하는데, 제조 설비에서 수집된 데이터는 정형화 정도에 따라 크게 센서 신호와 같은 정형 데이터와 텍스트, 이미지, 동영상 등의 비정형 데이터로 구분할 수 있다. 그런데, 아직까지 제조 현장에서는 데이터 수집의 자동화가 불가능한 부분이 존재하여, 데이터를 기록하기 위해 작업자들이 직접 수기로 기록을 남기는 경우가 빈번하게 발생한다. 따라서, 비정형 데이터의 일종인 텍스트 데이터가 제조 현장에서 수집되는 데이터의 많은 부분을 차지하고 있다. 하지만 제조 설비에서 수집되는 데이터를 활용한 기존 연구들은 주로 정형 데이터를 활용한 경우가 많으며, 비정형 데이터를 활용한 연구는 상대적으로 적었다.

예컨대, 제조 기업은 제품 생산에 사용되는 다수의 설비에 오류가 발생되기 전에 오류를 예측하거나, 오류 발생시 신속한 조치를 취하기 위하여 과거 설비 오류 원인을 정확하게 파악하여 분류하고 설비의 오류 발생 패턴을 파악하여야 한다. 이를 위해 과거의 설비 오류 이력 데이터가 필요한데, 이러한 데이터는 일반적으로 작업자가 설비 오류의 원인이나 현상, 조치를 수기로 작성한 텍스트 데이터를 포함한 비정형 데이터인 경우가 많다. 따라서, 전술한 바와 같이 이러한 수기로 작성된 설비 오류 이력 데이터인 비정형 데이터를 활용한 연구가 적어, 종래에는 작업자가 직접 수동으로 설비 오류 이력 데이터를 군집 처리하고, 군집된 오류 원인을 계층화하여 설비 오류 유형 구축하고, 구축된 설비 오류 유형과 동시에 발생한 데이터의 빈도만을 활용하여 오류 발생 패턴 파악하게 된다. 즉, 종래의 오류 유형 구조화 방법은 수기로 작성된 텍스트 데이터를 활용하여 작업자가 수동적으로 실시하였으므로, 시간 또는 노동력 측면에서 비효율적이다.

본 발명은 기존의 수동 분류 시스템에서의 수기 작성한 텍스트 데이터를 작업자가 수동으로 군집화하여 오류 발생 패턴을 파악해야 함에 따른 작업자의 시간 또는 노동력 사용에 대한 비효율성을 극복하고 설비 가동률 및 생산성 증가에 기여할 수 있는 설비 오류 발생 패턴 추출 장치 및 방법을 제안한다.

본 발명은 제조 현장에서 많은 부분을 차지하고 구체적인 정보를 담고 있는 비정형 텍스트 데이터를 분석하여 의미있는 결과를 찾기 위한 설비 오류 발생 패턴 추출 장치 및 방법을 제안한다.

본 발명은 설비 오류 발생 패턴 검출 장치로, 텍스트 형태의 설비 오류 이력 데이터로부터 설비 오류 구절을 추출하는 설비 오류 구절 추출부와, 추출된 적어도 하나의 설비 오류 구절 및 상응하는 환경 데이터를 머신 러닝 기반으로 오류 유형별로 군집화하는 오류 유형 군집화부와, 군집화된 설비 오류 유형과 매칭되는 환경 데이터를 고려하여 설비 오류 발생 패턴 파악하는 오류 패턴 분석부를 포함한다.

설비 오류 이력 데이터는 작업자에 의해 수기로 작성된 설비 오류 원인, 현상 및 조치 중 적어도 하나를 포함하는 텍스트 데이터일 수 있다.

설비 오류 발생 패턴 검출 장치는 설비 오류 이력 데이터로부터 필터링 및 오탈자 정정을 포함하는 전처리를 수행하여 분석 가능한 형태로 변환하여 설비 오류 구절 추출부로 출력하는 전처리부를 더 포함할 수 있다.

설비 오류 구절 추출부는 미리 설정된 소정 개수의 용도 종류 별 상응하는 단어들이 매칭된 데이터를 저장하는 단어 용도 분류 사전 DB와, 단어 용도 분류 사전 DB를 참조하여 설비 오류 이력 데이터에 포함된 단어들 각각의 용도를 지정하는 단어 용도 지정부와, 설비 오류 이력 데이터에 포함된 단어들 각각에 지정된 용도에 따라, 설비 오류 구절을 추출하는 구절 추출부를 포함할 수 있다.

용도의 종류는 구절에 포함되는 단어, 구절을 구분하면서 구절에 포함되는 단어, 구절에 포함되지 않는 단어 및 구절을 구분하면서 구절에 포함되지 않는 단어를 포함할 수 있다.

설비 오류 구절 추출부는 추출된 설비 오류 구절을 phrase2vec 기법을 사용하여 벡터화하는 벡터화부를 더 포함할 수 있다.

오류 유형 군집화부는 결과에 영향을 미치는 요인의 정도에 따라 가중치를 부여하여 군집화할 수 있다.

오류 유형 군집화부는 적어도 하나의 설비 오류 구절 및 상응하는 환경 데이터를 데이터 타입을 고려하여 분리하는 데이터 타입 기반 분류부와, 상응하는 데이터 타입의 데이터를 1차 군집화하는 복수의 단일뷰 군집 모델들과, 복수의 단일뷰 군집 모델들로부터 출력된 1차 군집화된 결과를 기반으로 2차 군집화하는 멀티뷰 군집 모델과, 멀티뷰 군집 모델로부터 출력된 오류 유형 군집을 오류 유형으로 지정하는 오류 확정부를 포함할 수 있다.

오류 유형 군집화부는 FP Growth(Frequent Pattern Growth) 기법을 사용할 수 있다.

본 발명은 설비 오류 발생 패턴 검출 방법으로, 텍스트 형태의 설비 오류 이력 데이터로부터 설비 오류 구절을 추출하는 단계와, 추출된 적어도 하나의 설비 오류 구절 및 상응하는 환경 데이터를 머신 러닝 기반으로 오류 유형별로 군집화하는 단계와, 군집화된 설비 오류 유형과 매칭되는 환경 데이터를 고려하여 설비 오류 발생 패턴 파악하는 단계를 포함한다.

본 발명에 따라, 기존의 수동 분류 시스템에서의 수기 작성에 따른 작업자의 시간 또는 노동력 사용에 대한 비효율성을 극복하고 설비 가동률 및 생산성 증가에 기여할 수 있다. 또한, 제조 현장에서 많은 부분을 차지하고 구체적인 정보를 담고 있는 비정형 텍스트 데이터를 분석하여 의미 있는 결과를 찾을 수 있다.

도 1은 본 발명의 일 실시 예에 따른 설비 오류 발생 패턴 추출 장치의 블록 구성도이다.
도 2는 본 발명에서 사용되는 설비 오류 이력 데이터의 일 예를 도시한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 설비 오류 구절 추출부의 내부 블록 구성도이다.
도 4는 본 발명의 일 실시 예에 따른 데이터 변환부에서 수행되는 벡터화 기법을 설명하기 위한 도면이다.
도 5a 및 도 5b는 본 발명의 일 실시 예에 따른 오류 유형 군집화부의 내부 블록 구성도이다.
도 6은 본 발명의 일 실시 예에 따른 오류 유형 군집화부의 출력 결과 예시를 나타낸 도면이다.
도 7은 본 발명의 일 실시 예에 따른 설비 오류 발생 패턴 추출 방법을 설명하기 위한 순서도이다.
도 8은 본 발명의 일 실시 예에 따른 설비 오류 구절 추출단계를 설명하기 위한 순서도이다.
도 9는 본 발명의 일 실시 예에 따른 오류 유형 군집화 단계를 설명하기 위한 순서도이다.
도 10은 본 발명에 따른 설비 오류 원인 구절 군집화의 예시도이다.
도 11은 confidence 범위에 따른 패턴 발생 횟수의 예시도이다.
도 12는 confidence 통계값의 예시도이다.

이하 첨부된 도면을 참조하여, 바람직한 실시 예에 따른 설비 오류 발생 패턴 추출 장치 및 방법에 대해 상세히 설명하면 다음과 같다. 여기서, 동일한 구성에 대해서는 동일부호를 사용하며, 반복되는 설명, 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다. 발명의 실시형태는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.

이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.

도 1은 본 발명의 일 실시 예에 따른 설비 오류 발생 패턴 추출 장치의 블록 구성도이다.

도 1을 참조하면, 설비 오류 발생 패턴 추출 장치(이하 '장치'로 기재함)(1)는 크게 설비 오류 구절 추출부(110), 오류 유형 군집화부(120) 및 오류 발생 패턴 추출부(130)를 포함할 수 있다. 부가적으로, 설비 오류 이력 데이터 DB(10), 전처리부(20), 및 데이터 변환부(140)를 더 포함할 수 있다.

설비 오류 이력 데이터 DB(10)는 제조 공정에서 발생하는 비정형 데이터의 하나인 작업자가 설비 오류의 원인이나 현상, 조치를 수기로 작성한 텍스트 형태의 데이터이다.

도 2는 본 발명에서 사용되는 설비 오류 이력 데이터의 일 예를 도시한 도면이다.

도 2를 참조하면, 일 예로 설비 오류 이력 데이터는 환경 데이터에 해당하는 다섯 가지의 범주형 데이터와 조치 내역으로 구성될 수 있다. 여기서, 다섯 가지 범주형의 데이터는 오류가 발생한 설비의 이름인 설비명, 오류로 인한 현상인 고장 현상, 고장원인, 오류가 발생한 부품의 위치인 고장개소그룹 및 오류가 발생한 부품의 상세 위치인 고장 개소를 포함하는 데이터 들 중 적어도 하나를 포함할 수 있다.

전처리부(20)는 전술한 바와 같은 설비 오류 이력 데이터 입력받아 오탈자 등 노이즈를 제거하고 텍스트 데이터 분석 가능한 형태로 변환한다. 예컨대, 전체 오류 이력에서 분석에 불필요한 부분을 제거하고, 남은 데이터에서 오탈자 등 오류를 수정한다. 즉, 설비에서 발생한 오류 상황을 기준으로 수집된 설비 오류 이력 데이터는 설비 코드나 고장 원인, 오류 시작일 등과 같은 다양한 항목으로 구성될 수 있다. 본 발명에서 중점적으로 활용하는 데이터는 작업자가 설비 오류 상황에 대해서 수기로 작성한 비정형 텍스트 데이터이므로 이외의 요인은 제거하여 사용한다. 또한, 설비 오류 이력 데이터에서 설비 오류 상황으로 판단하기 어려운 데이터는 제외한다. 예컨대, 자재 품절과 같은 상황은 설비 오류의 범주를 벗어난다고 판단할 수 있어 제거될 수 있다.

또한, 전처리부(20)는 오탈자 등 오류를 수정한다. 구체적으로, 맞춤법이 틀린 단어들을 수정하고, 동일한 의미를 가지지만 작업자에 따라 다양한 방식으로 기입된 단어들은 한 단어로 통일시킬 수 있다. 예컨대, 외래어인 컨베이어의 경우 작업자에 따라 '컨베어', '컨배이어', '컨베이어'로 다르게 표기될 수 있어 분석에 앞서 이러한 단어들을 통일된 표현으로 정리할 수 있다. 또한, 문장의 의미를 알 수 없는 데이터는 제외시킬 수 있다.

그런데, 분석 대상인 텍스트 데이터에 대한 일반적인 분석 기법들은 분석 단위로 하나의 단어를 이용한다. 예컨대, 최근 주목받고 있는 텍스트 분석 기법의 하나인 word2vec은 단어 의미 유사성을 기반으로 하나의 단어를 벡터 공간에 할당하여 관련성을 표현하는 방식을 사용한다. 하지만 전문 용어가 많은 설비 오류 이력 데이터의 경우 하나의 단어가 독립적으로 사용되면 전달하고자 하는 의미가 달라질 수 있다는 문제점이 있다. 예컨대, '부품 파손'와 '부품 노후'는 '부품'이라는 단어가 동시에 등장하지만 별개의 의미를 전달하며, '부품 파손'와 '스프링 파손' 또한 의미적으로 구분되어야 한다.

따라서, 일 실시 예에 따른 설비 오류 구절 추출부(120)는 텍스트 형태의 설비 오류 이력 데이터로부터 설비 오류 구절을 추출한다. 일 실시 예에 따라, 설비 오류 이력 데이터 중 조치 내역에 해당하는 텍스트로부터 설비 오류 구절을 추출할 수 있다. 즉, 하나의 단어를 분석 단위로 사용하는 대신 단어의 나열인 구절을 기준으로 텍스트 데이터 분석을 수행하여 하나의 구절이 의미를 전달하는 전문 용어의 특징을 반영한다. 여기서, 구절이란 연결된 단어들의 리스트로 설비 오류에 대한 단일의 의미를 가진 최소한의 단위로 이후 장치(1)에서 분석 단위로 사용된다.

도 3은 본 발명의 일 실시 예에 따른 설비 오류 구절 추출부의 내부 블록 구성도이다.

일 실시 예에 따라 도 3에 도시된 바와 같이, 설비 오류 구절 추출부(120)는 단어 용도 사전 DB(121), 단어 용도 지정부(122) 및 구절 추출부(123)를 포함한다.

단어 용도 사전 DB(121)은 미리 설정된 소정 개수의 용도 별 상응하는 단어들이 매칭된 데이터를 저장한다. 즉, 설비 오류 이력 데이터에서 사용 가능한 단어의 리스트를 용도별로 분류하여 사전 형태로 구축해둔다.

일 실시 예에 따라, 용도의 종류에는 구절에 포함되는 단어(Word, W), 구절을 구분하면서 구절에 포함되는 단어(Split, S), 구절에 포함되지 않는 단어(Delete, D) 및 구절을 구분하면서 구절에 포함되지 않는 단어(Split & Delete, SD)를 포함하는 4가지 종류의 용도들을 포함할 수 있다. 다음의 <표 1>은 4가지 용도별로 각각에 포함되는 단어 리스트들이 나열된 단어 용도 사전의 일 예를 나타낸다.

W(Word)	S(Split)	D(Delete)	SD(Split & Delete)
'검사'	'발생'	'이'	'가'
'치구'	'교체'	'의'	'심해'
'전극'	'이상'	'에'	'함'
...	...	...	...

단어 용도 지정부(122)는 단어 용도 분류 사전 DB(121)를 참조하여 설비 오류 이력 데이터에 포함된 단어들 각각의 용도를 지정한다. 예컨대, 전술한 <표 1>과 같은 단어 용도 사전 DB(121)을 참조하여, '검사 치구 전극의 마모가 심해 1차 분량이 과다 발생함, 치구의 전극 전체 교체함' 이라는 텍스트에 포함된 단어들 각각에 대해 용도가 지정될 수 있다.

구절 추출부(123)는 설비 오류 이력 데이터에 포함된 단어들 각각에 지정된 용도에 따라, 설비 오류 구절을 추출한다. 예컨대, '검사 치구 전극의 마모가 심해 1차 분량이 과다 발생함, 치구의 전극 전체 교체함' 에서 '의'는 그 용도가 구절에 포함되지 않는 단어(Delete, D)에 해당하므로 삭제되고, '가' 및 '심해'는 그 용도가 구절을 구분하면서 구절에 포함되지 않는 단어(Split & Delete, SD)에 해당하므로 삭제됨과 아울러 구절을 구분되는 지점이 된다. 즉, '가' 및 '심해'의 앞에 기재되며, 그 용도가 구절에 포함되는 단어(Word, W)인 '검사', '치구', '전극', '마모'를 연결하여 구절 '검사 치구 전극 마모'가 추출된다. 구절 추출부(123)는 전술한 바와 같은 단어의 용도에 따라, 예시된 텍스트로부터 '검사 치구 전극 마모', '1차 불량 과다 발생', '치구 전극 교체'이라는 설비 오류 구절들을 추출할 수 있다. 구절 추출부(123)는 추출된 설비 오류 구절들을 도 1에 도시된 설비 오류 이력 데이터 DB(20)에 저장한다.

데이터 변환부(140)는 환경 데이터인 범주형 데이터와 추출된 설비 오류 구절 데이터를 추후 분석에 적합한 벡터 데이터로 변환한다.

예컨대, 범주형 데이터는 각 요인의 종류에 따른 차원만큼 벡터화하는 알고리즘인 One-hot encoding에 의해 변환될 수 있다. 여기서, one-hot encoding 알고리즘은 컴퓨터가 단어를 식별하기 위해서 각 단어에게 유일한 벡터를 부여하고, 자기 자신의 벡터를 제외한 나머지 단어벡터 위치에 '0'를 할당한다. 예컨대, 고양이는 [1, 0, 0, 0, 0], 강아지는 [0, 1, 0, 0, 0], 호랑이는 [0, 0, 1, 0, 0]로 벡터화될 수 있다.

또한, 설비 오류 구절은 추출된 설비 오류 구절 간의 근접성을 기반으로 하여 텍스트 데이터를 벡터화하는 알고리즘인 phrase2vec에 의해 변환될 수 있다. 여기서, phrase2vec 알고리즘은 word2vec 알고리즘을 응용한 것으로, word2vec 알고리즘은 단어와 단어 사이의 의미적인 관계를 알기 위해 단어의 유사성을 기반으로 신경망을 이용하여 벡터를 부여하는 것으로, CBOW(continuous Bag of Words) 및 Skip-Gram 등의 방식이 있을 수 있다.

도 4는 본 발명의 일 실시 예에 따른 데이터 변환부에서 수행되는 벡터화 기법을 설명하기 위한 도면이다.

도 4를 참조하면, (a)에는 조치 내역들의 리스트가 도시되고, (b)에는 각각의 조치 내역들로부터 추출된 오류 구절이 도시되어 있다. 이 중 동일한 조치 내역으로부터 추출된 구절을 '로 구분, 상이한 조치내역으로 부터 추출된 구절 대'로 구분한다. 데이터 변환부(140)는 우선 동일한 조치내역으로 부터 추출된 phrase를 '로 구분, 상이한 조치내역으로 부터 추출된 구절은 대'로 구분한다. 예컨대, [('검사 치구 전극 마모'), ('1차 불량 과다 발생'), ('치구 전극 교체') ], [(2컨베어 과부하), (센터 조정)], [ (히터 삽입 본실린더 로드파손), (실린더 교환)]으로 구분한다. 그런 후, 데이터 변환부(140)는 대'로 구분된 구절 중 근접한 곳에 위치한 구절을 바탕으로 벡터화 실시한다.오류 유형 군집화부(120)는 데이터 변환부(140)에 의해 벡터화된 적어도 하나의 설비 오류 구절 및 상응하는 환경 데이터를 각 요인의 가중치를 상이하게 선정하여 머신 러닝 기반으로 오류 유형별로 군집화한다. 이때, 군집화를 수행하는 이유는 더욱 정확한 오류 패턴 마이닝을 수행하기 위해서이다. 오류 패턴 마이닝을 통해 오류가 어떤 상황에서 발생하는지 파악하기 위해서는 상황을 묘사하는 부분과 오류 타입의 쌍으로 구성된 데이터를 사용하며, 여기서 오류 타입 별 상황에 대한 데이터가 충분해야지만 유의미한 결과를 얻을 수 있다. 따라서, 다양한 표현으로 기재된 오류 구절을 군집화를 수행하여 소수 개의 오류 타입으로 변환한다.

또한, 일 실시 예에 따라, Weighted k-means 알고리즘이 사용될 수 있다. 여기서, weighted k-means 알고리즘은 결과에 영향을 크게 미치는 요인의 가중치를 크게 부여하고, 그렇지 않은 요인은 작은 가중치를 부여함으로써 실용적이며 효과적인 군집 결과를 도출해주는 방법론이다.

또한, 오류 유형 군집화부(120)에서 오류 군집화는 총 두 단계에 걸쳐서 진행되는데, 추출된 주요 구절과 달리 범주형 데이터인 환경 데이터를 활용하여 군집화하기 위해서 상이한 종류의 데이터를 동시에 군집화할 수 있는 멀티 뷰 군집화(Multi-View Clustering)을 수행할 수 있다. 여기서, 멀티 뷰 군집은 다양한 종류의 데이터들을 동시에 활용하여 군집화를 실시하는 방식으로, 다양한 종류의 데이터를 내포하고 있는 군집 대상을 각각 구성된 데이터의 특성을 고려하여 효과적으로 군집하기 위해 사용된다.

도 5a 및 도 5b는 본 발명의 일 실시 예에 따른 오류 유형 군집화부의 내부 블록 구성도이다.

일 실시 예에 따라 도 5a에 도시된 바와 같이, 오류 유형 군집화부(120)는 데이터 타입 기반 분류부(121), DB들(122-1, 122-2,..., 122-K), 단일 뷰 군집 모델들(123-1, 123-2,..., 123-K), 멀티뷰 군집 모델(124) 및 오류 확정부(125)를 포함한다.

데이터 타입 기반 분류부(121)는 데이터 변환부(140)에 의해 변환된 데이터를 타이터 타입 특성을 고려하여 분리하여, 데이터 타입별로 각각 분리된 DB들(122-1, 122-2,..., 122-K) 각각에 저장한다. 예컨대, 도 5b에 도시된 바와 같이, 데이터 타입 기반 분류부(121)는 데이터 변환부(140)에서 출력된 데이터 중 환경 데이터는 DB 1(122-1)에 저장하고, 추출 구절은 DB 2(122-2)에 저장시킬 수 있다.단일뷰 군집 모델들(123-1, 123-2,..., 123-K)은 DB들(122-1, 142-2,..., 142-K)과 일대일 매칭되어, 각각 데이터 타입별로 분리된 데이터를 1차 군집화한다.예컨대, 도 5b에 도시된 바와 같이, 단일뷰 군집 모델 1(123-1)은 환경 데이터가 변환된 One-hot encoding 벡터 데이터에 최적화된 기법으로 군집화하고, 단일뷰 군집 모델 2(123-2)은 오류 구절 데이터가 변환된 phrase2vec 벡터 데이터에 최적화된 기법으로 군집화한다.

멀티뷰 군집 모델(124)는 단일뷰 군집 모델들(123-1, 123-2,..., 123-K)에 의해 1차 군집화된 결과 기반으로 2차 군집화한다. 즉, 1단계 오류 유형 군집 중 유사하다고 판단되는 군집들끼리 묶어 2단계 오류 유형 군집을 생성한다.

일 실시 예에 따라, 단일뷰 군집 모델들(123-1, 123-2,..., 123-K) 및 멀티뷰 군집 모델(124)은 라벨링된 훈련 데이터에 의해 미리 학습된 머신 러닝 기반의 모델일 수 있다.

오류 확정부(125)는 2단계 오류 유형 군집을 오류 타입으로 지정하여 사용한다.

도 6은 본 발명의 일 실시 예에 따른 오류 유형 군집화부의 출력 결과 예시를 나타낸 도면이다.

도 6을 참조하면, 오류 확정부(125)는 멀티뷰 군집 모델(124)로부터 출력된 군집들 중, (a)에 도시된 '군집 0'에 대해서는 '실린더 오동작'를 오류 타입으로 지정하고, (b)에 도시된 '군집 1'에 대해서는 '오므림 이상'를 오류 타입으로 지정하고, (d)에 도시된 '군집 2'에 대해서는 '팁 마모'를 오류 타입으로 지정할 수 있다.

다시 도 1을 참조하면, 오류 발생 패턴 추출부(150)는 군집화된 설비 오류 유형과 매칭되는 환경 데이터를 고려하여 설비 오류 발생 패턴 파악한다. 일 실시 예에 따라, 오류 발생 패턴 추출부(150)는 연관 규칙 마이닝의 대표적인 방법론인 FP-Growth를 활용하여 설비 오류 발생 패턴을 파악한다. 여기서, FP-Growth는 자주 일어나는 반복적인 패턴을 찾아내는 알고리즘으로, 선행 규칙(원인)과 결과 규칙(결과)으로 구성된 데이터를 분석하여 이들의 조합이 나타나는 횟수와 확률을 알 수 있다. 구체적으로, 선행 규칙과 결과 규칙의 조합에 대해 특정 조합의 발생 빈도를 의미하는 support 값과 특정조합의 선행 규칙이 만족하였을 때 결과 규칙이 발생할 가능성인 confidence 값을 제공한다.

본 발명에서는 Support 값은 선행 규칙과 결과 규칙이 함께 표현된 횟수를 나타내며, 다음의 <수학식 1>과 같이 계산된다.

<수학식 1>에서 A는 선행 규칙, B는 결과 규칙을 의미한다. Confidence 값은 support 값을 선행 규칙이 나타나는 전체 경우의 수 나눈 값으로, 다음의 <수학식 2>와 같이 산출된다.

설비 오류 발생 패턴 도출을 위해 사용될 수 있는 선행 규칙으로는 설비 오류가 발생한 시점에 대한 정보(월, 요일, 시간 등), 오류가 발생한 위치 대한 정보(설비명, 고장개소그룹 등),기타 설비 오류 발생 시점에 주위 환경 정보(작업자, 날씨 등) 등이 있다. 결과 규칙으로는 오류 유형 군집화부(120)에서 생성된 오류 유형이 사용될 수 있다. 이와 같은 선행 규칙과 결과 규칙으로 구성된 데이터를 구축하기 위하여 정제된 오류 이력 데이터, 군집화 결과, 외부로부터 수집한 환경 정보를 매칭한다.

도 7은 본 발명의 일 실시 예에 따른 설비 오류 발생 패턴 추출 방법을 설명하기 위한 순서도이고, 도 8은 본 발명의 일 실시 예에 따른 설비 오류 구절 추출단계를 설명하기 위한 순서도이고, 도 9는 본 발명의 일 실시 예에 따른 오류 유형 군집화 단계를 설명하기 위한 순서도이다.

도 7를 참조하면, 본 발명의 일 실시 예에 따른 설비 오류 발생 패턴 추출 방법은 크게 텍스트 형태의 설비 오류 이력 데이터로부터 설비 오류 구절을 추출하는 단계(S210)와, 설비 오류 이력 데이터를 변환하는 단계(S230)와, 추출된 적어도 하나의 설비 오류 구절을 머신 러닝 기반으로 오류 유형별로 군집화하는 오류 유형 군집화 단계(S230)와, 군집화된 설비 오류 유형과 매칭되는 환경 데이터를 고려하여 설비 오류 발생 패턴 파악하는 단계(S240)를 포함한다.

전술한 바와 같은 설비 오류 발생 패턴 추출 방법을 수행하는 장치(1)는 S210을 수행하기 이전에 제조 공정에서 발생하는 비정형 데이터의 하나인 작업자가 설비 오류의 원인이나 현상, 조치를 수기로 작성한 텍스트 형태의 설비 오류 이력 데이터 입력받아 오탈자 등 노이즈를 제거하고 텍스트 데이터 분석 가능한 형태로 변환하는 전처리 단계(미도시)를 더 수행할 수 있다. 예컨대, 전체 오류 이력에서 분석에 불필요한 부분을 제거하고, 남은 데이터에서 오탈자 등 오류를 수정한다. 즉, 설비에서 발생한 오류 상황을 기준으로 수집된 설비 오류 이력 데이터는 설비 코드나 고장 원인, 오류 시작일 등과 같은 다양한 항목으로 구성될 수 있다. 본 발명에서 중점적으로 활용하는 데이터는 작업자가 설비 오류 상황에 대해서 수기로 작성한 비정형 텍스트 데이터이므로 이외의 요인은 제거하여 사용한다. 또한, 설비 오류 이력 데이터에서 설비 오류 상황으로 판단하기 어려운 데이터는 제외한다. 예컨대, 자재 품절과 같은 상황은 설비 오류의 범주를 벗어난다고 판단할 수 있어 제거될 수 있다. 또한, 장치는 오탈자 등 오류를 수정한다. 구체적으로, 맞춤법이 틀린 단어들을 수정하고, 동일한 의미를 가지지만 작업자에 따라 다양한 방식으로 기입된 단어들은 한 단어로 통일시킬 수 있다.

또한, 장치(1)는 텍스트 형태의 설비 오류 이력 데이터로부터 설비 오류 구절을 추출한다(S210). 즉, 하나의 단어를 분석 단위로 사용하는 대신 단어의 나열인 구절을 기준으로 텍스트 데이터 분석을 수행하여 하나의 구절이 의미를 전달하는 전문 용어의 특징을 반영한다. 여기서, 구절이란 연결된 단어들의 리스트로 설비 오류에 대한 단일의 의미를 가진 최소한의 단위로 이후 장치(1)에서 분석 단위로 사용된다.

이를 위해, 일 실시 예에 따라, 장치(1)는 단어 용도 분류 사전 DB(121)를 참조하여 설비 오류 이력 데이터에 포함된 단어들 각각의 용도를 지정한다(S211). 예컨대, 전술한 <표 1>과 같은 단어 용도 사전 DB(121)을 참조하여, '검사 치구 전극의 마모가 심해 1차 분량이 과다 발생함, 치구의 전극 전체 교체함' 이라는 텍스트에 포함된 단어들 각각에 대해 용도가 지정될 수 있다.

다음으로, 장치(1)는 설비 오류 이력 데이터에 포함된 단어들 각각에 지정된 용도에 따라, 설비 오류 구절을 추출한다(S212). 예컨대, '검사 치구 전극의 마모가 심해 1차 분량이 과다 발생함, 치구의 전극 전체 교체함' 에서 전술한 바와 같은 단어의 용도에 따라, 예시된 텍스트로부터 '검사 치구 전극 마모', '1차 불량 과다 발생', '치구 전극 교체'이라는 설비 오류 구절들을 추출할 수 있다.

장치(1)는 환경 데이터인 범주형 데이터와 추출된 설비 오류 구절 데이터를 추후 분석에 적합한 벡터 데이터로 변환한다(S220). 예컨대, 범주형 데이터는 각 요인의 종류에 따른 차원만큼 벡터화하는 알고리즘인 One-hot encoding에 의해 변환될 수 있다. 또한, 설비 오류 구절은 추출된 설비 오류 구절 간의 근접성을 기반으로 하여 텍스트 데이터를 벡터화하는 알고리즘인 phrase2vec에 의해 변환될 수 있다. 다시 도 7를 참조하면, 장치(1)는 추출된 적어도 하나의 설비 오류 구절을 각 요인의 가중치를 상이하게 선정하여 머신 러닝 기반으로 오류 유형별로 군집화한다(S230). 이때, 군집화를 수행하는 이유는 더욱 정확한 오류 패턴 마이닝을 수행하기 위해서이다. 오류 패턴 마이닝을 통해 오류가 어떤 상황에서 발생하는지 파악하기 위해서는 상황을 묘사하는 부분과 오류 타입의 쌍으로 구성된 데이터를 사용하며, 여기서 오류 타입 별 상황에 대한 데이터가 충분해야지만 유의미한 결과를 얻을 수 있다. 따라서, 다양한 표현으로 기재된 오류 구절을 군집화를 수행하여 소수 개의 오류 타입으로 변환한다.

일 실시 예에 따라, Weighted k-means 알고리즘이 사용될 수 있다. 여기서, weighted k-means 알고리즘은 결과에 영향을 크게 미치는 요인의 가중치를 크게 부여하고, 그렇지 않은 요인은 작은 가중치를 부여함으로써 실용적이며 효과적인 군집 결과를 도출해주는 방법론이다.

또한, 오류 군집화는 총 두 단계에 걸쳐서 진행되는데, 추출된 주요 구절과 달리 범주형 데이터인 환경 데이터를 활용하여 군집화하기 위해서 상이한 종류의 데이터를 동시에 군집화할 수 있는 멀티 뷰 군집화(Multi-View Clustering)을 수행할 수 있다. 여기서, 멀티 뷰 군집은 다양한 종류의 데이터들을 동시에 활용하여 군집화를 실시하는 방식으로, 다양한 종류의 데이터를 내포하고 있는 군집 대상을 각각 구성된 데이터의 특성을 고려하여 효과적으로 군집하기 위해 사용된다.

이를 위해, 일 실시 예에 따라 도 9에 도시된 바와 같이, 장치(1)는 설비 오류 이력 데이터 DB(130)에 저장된 데이터를 타입 특성을 고려하여 분리한다(S231).

장치(1)는 데이터 타입별로 각각 분리해서 1차 군집화한다(S232). 그런 후, 장치(1)는 집 모델들(123-1, 143-2,..., 143-K)에 의해 1차 군집화된 결과 기반으로 2차 군집화한다(S233). 즉, 1단계 오류 유형 군집 중 유사하다고 판단되는 군집들끼리 묶어 2단계 오류 유형 군집을 생성한다. 장치(1)는 2단계 오류 유형 군집을 오류 타입으로 지정하여 사용한다(S234).

다시 도 7을 참조하면, 장치(1)는 군집화된 설비 오류 유형과 매칭되는 환경 데이터를 고려하여 설비 오류 발생 패턴 파악한다(S230). 일 실시 예에 따라, 연관 규칙 마이닝의 대표적인 방법론인 FP-Growth를 활용하여 설비 오류 발생 패턴을 파악한다. 여기서, FP-Growth는 자주 일어나는 반복적인 패턴을 찾아내는 알고리즘으로, 선행 규칙(원인)과 결과 규칙(결과)으로 구성된 데이터를 분석하여 이들의 조합이 나타나는 횟수와 확률을 알 수 있다. 구체적으로, 선행 규칙과 결과 규칙의 조합에 대해 특정 조합의 발생 빈도를 의미하는 support 값과 특정조합의 선행 규칙이 만족하였을 때 결과 규칙이 발생할 가능성인 confidence 값을 제공한다.

전술한 바와 같이 본 발명에 따라 비정형 텍스트에서 군집된 설비 정지 원인 구절을 분석한 예를 종래 기술에서 비정형 텍스트에서 작업자가 수동으로 군집한 설비 정지 원인을 분석하 예와의 비교를 도 10 및 도 11을 참조하여 설명하기로 한다.

도 10은 본 발명에 따른 설비 오류 원인 구절 군집화의 예시도이고, 도 11은 confidence 범위에 따른 패턴 발생 횟수의 예시도이고, 도 12는 confidence 통계값의 예시도이다.

도 10 내지 도 12에서 'cluster v0.4'는 본 발명에 따른 결과를 의미하고, 'cluster v0.1'는 작업자가 수동으로 실시한 종래의 기법에 따른 결과를 의미한다.

우선 정성적 효과로, 도 10을 참조하면, 종래 기술에서 수동으로 군집화하는 것과 달리 본 발명에서는 군집화를 자동화하면서, 각 군집 3과 군집 10에는 유사한 설비 정지 원인이 동일한 군집에 할당되도록 최적화되는 것을 확인할 수 있다. 예컨대, 군집 3에는 히터와 연관된'1번존 히터 단선', '1존 히터 단선', '2존 히터 단선', '2번 히터 파손', '2번 히터부 파손' 등이 포함되고, 군집 10에는 실린더와 연관된'공급 2번 실린더 에어 샘', '공급 2번 실린더 패킹마모', '공급 8번 실리더 마모', '공급 실린더 마모', '공급 1번 실린더 노후'등이 포함된다.

또한, 정성적 효과로, 본 발명에 따라 유의미한 설비 오류 패턴을 파악 할 수 있다. 예컨대, 'OZ원주오므림기#4'의 '전기장치'에서 'B등급'의 숙련도를 가진 작업자가 점심시간이 아닌 시간에 특정 설비 오류 유형이 발생함 나타내는 오류 발생 패턴 1 또는 '전기장치'에서는 'D등급'의 숙련도를 가진 작업자가 84%의 신뢰도를 바탕으로 특정 설비 오류 유형이 발생함을 나타내는 오류 발생 패턴 2와 같이 파악되도록 할 수 있다.

한편, 도 11 및 9를 참조하면, 정량적 효과로는 도출된 설비 오류 발생 패턴의 수를 의미하는 패턴 밸생 횟수와 도출된 결과의 신뢰도를 의미하는 confidence의 값이 증가됨에 따라 본 발명의 성능이 종래의 방법에 비해 향상된 것으로 나타난다.

Claims

텍스트 형태의 설비 오류 이력 데이터로부터 설비 오류 구절을 추출하는 설비 오류 구절 추출부와,
추출된 적어도 하나의 설비 오류 구절 및 상응하는 환경 데이터를 머신 러닝 기반으로 오류 유형별로 군집화하는 오류 유형 군집화부와,
군집화된 설비 오류 유형과 매칭되는 환경 데이터를 고려하여 설비 오류 발생 패턴 파악하는 오류 패턴 분석부를 포함하되,
설비 오류 구절 추출부는 미리 설정된 소정 개수의 용도 종류 별 상응하는 단어들이 매칭된 데이터를 저장하는 단어 용도 분류 사전 DB와, 단어 용도 분류 사전 DB를 참조하여 설비 오류 이력 데이터에 포함된 단어들 각각의 용도를 지정하는 단어 용도 지정부와, 설비 오류 이력 데이터에 포함된 단어들 각각에 지정된 용도에 따라, 설비 오류 구절을 추출하는 구절 추출부를 포함하고,
용도의 종류는 구절에 포함되는 단어, 구절을 구분하면서 구절에 포함되는 단어, 구절에 포함되지 않는 단어 및 구절을 구분하면서 구절에 포함되지 않는 단어를 포함하고,
오류 유형 군집화부는 적어도 하나의 설비 오류 구절 및 상응하는 환경 데이터를 데이터 타입을 고려하여 분리하는 데이터 타입 기반 분류부와, 상응하는 데이터 타입의 데이터를 1차 군집화하는 복수의 단일뷰 군집 모델들과, 복수의 단일뷰 군집 모델들로부터 출력된 1차 군집화된 결과를 기반으로 2차 군집화하는 멀티뷰 군집 모델과, 멀티뷰 군집 모델로부터 출력된 오류 유형 군집을 오류 유형으로 지정하는 오류 확정부를 포함하여 상이한 종류의 데이터를 동시에 군집화하는 멀티 뷰 군집화를 수행하는 설비 오류 발생 패턴 추출 장치.
제1 항에 있어서, 설비 오류 이력 데이터는
작업자에 의해 수기로 작성된 설비 오류 원인, 현상 및 조치 중 적어도 하나를 포함하는 텍스트 데이터인 설비 오류 발생 패턴 추출 장치.
제1 항에 있어서,
설비 오류 이력 데이터로부터 필터링 및 오탈자 정정을 포함하는 전처리를 수행하여 분석 가능한 형태로 변환하여 설비 오류 구절 추출부로 출력하는 전처리부를 더 포함하는 설비 오류 발생 패턴 추출 장치.
삭제
삭제
제1 항에 있어서, 추출된 설비 오류 구절을 phrase2vec 기법을 사용하여 벡터화하는 데이터 변환부를 더 포함하는 설비 오류 발생 패턴 추출 장치.
제1 항에 있어서, 오류 유형 군집화부는
결과에 영향을 미치는 요인의 정도에 따라 가중치를 부여하여 군집화하는 설비 오류 발생 패턴 추출 장치.
삭제
제1 항에 있어서, 오류 유형 군집화부는
FP Growth(Frequent Pattern Growth) 기법을 사용하는 설비 오류 발생 패턴 추출 장치.
텍스트 형태의 설비 오류 이력 데이터로부터 설비 오류 구절을 추출하는 단계와,
추출된 적어도 하나의 설비 오류 구절 및 상응하는 환경 데이터를 머신 러닝 기반으로 오류 유형별로 군집화하는 단계와,
군집화된 설비 오류 유형과 매칭되는 환경 데이터를 고려하여 설비 오류 발생 패턴 파악하는 단계를 포함하되,
설비 오류 구절을 추출하는 단계는
미리 설정된 소정 개수의 용도 종류 별 상응하는 단어들이 매칭된 데이터를 저장하는 단어 용도 분류 사전을 참조하여 설비 오류 이력 데이터에 포함된 단어들 각각의 용도를 지정하는 단계와, 설비 오류 이력 데이터에 포함된 단어들 각각에 지정된 용도에 따라, 설비 오류 구절을 추출하는 단계를 포함하고,
용도의 종류는 구절에 포함되는 단어, 구절을 구분하면서 구절에 포함되는 단어, 구절에 포함되지 않는 단어 및 구절을 구분하면서 구절에 포함되지 않는 단어를 포함하고,
오류 유형별로 군집화하는 단계는 설비 오류 구절 데이터를 타이터 타입 특성을 고려하여 분리하는 단계와, 상응하는 데이터 타입별로 1차 군집화하는 단계와, 1차 군집화된 결과를 기반으로 2차 군집화하는 단계와, 오류 유형 군집을 오류 유형으로 지정하는 단계를 포함하여 상이한 종류의 데이터를 동시에 군집화하는 멀티 뷰 군집화를 수행하는 설비 오류 발생 패턴 추출 방법.
제10 항에 있어서, 설비 오류 이력 데이터는
작업자에 의해 수기로 작성된 설비 오류 원인, 현상 및 조치 중 적어도 하나를 포함하는 텍스트 데이터인 설비 오류 발생 패턴 추출 방법.
제10 항에 있어서,
설비 오류 이력 데이터로부터 필터링 및 오탈자 정정을 포함하는 전처리를 수행하여 분석 가능한 형태로 변환하는 전처리 단계를 더 포함하는 설비 오류 발생 패턴 추출 방법.
삭제
삭제
제10 항에 있어서, 추출된 설비 오류 구절을 phrase2vec 기법을 사용하여 벡터화하는 단계를 더 포함하는 설비 오류 발생 패턴 추출 방법.
제10 항에 있어서, 오류 유형별로 군집화하는 단계는
결과에 영향을 미치는 요인의 정도에 따라 가중치를 부여하여 군집화하는 설비 오류 발생 패턴 추출 방법.
삭제
제10 항에 있어서, 오류 유형별로 군집화하는 단계는
FP Growth(Frequent Pattern Growth) 기법을 사용하는 설비 오류 발생 패턴 추출 방법.