KR20230016345A

KR20230016345A - 머신 러닝 기반 품질데이터 자동 분석 시스템

Info

Publication number: KR20230016345A
Application number: KR1020210097719A
Authority: KR
Inventors: 박준형; 이기훈
Original assignee: 현대모비스 주식회사
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-02-02

Abstract

본 실시예는, 제품의 품질분석에 대한 소요 시간 및 불량 발생의 감소에 따른 품질비용 저감을 위해, 제품에 대한 품질데이터를 기반으로 머신 러닝(Machine Learning) 기반 추론 모델을 트레이닝하고, 추론 모델을 기반으로 품질데이터를 분석하여 분석리포트를 제공하며, 추론 모델을 시뮬레이터로 이용하여 공정인자(process feature)를 조정하는 품질데이터 분석 시스템 및 방법을 제공한다.

Description

머신 러닝 기반 품질데이터 자동 분석 시스템{Automatic Analysis System for Quality Data Based on Machine Learning}

본 개시는 머신 러닝(machine learning) 기반 품질데이터 자동 분석 시스템에 관한 것이다. 더욱 상세하게는, 제품에 대한 축적된 품질데이터를 기반으로 AI 기반 추론 모델을 트레이닝하고, 추론 모델을 기반으로 품질데이터를 분석하여 분석리포트를 제공하며, 추론 모델을 시뮬레이터로 이용하여 공정인자(process feature)를 조정하는 품질데이터 분석 시스템 및 방법에 관한 것이다.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.

종래의 품질시스템은 제품의 생산과정에서 발생하는, 공정인자(process feature 또는 process parameter)에 대한 품질데이터, 및 판매과정에서 발생하는 필드클레임(field claim) 데이터를 축적함에도, 그들에 대한 활용은 거의 미미한 수준이다. 품질비용 감소를 창출한다는 측면에서, 축적된 필드클레임 데이터와 공정인자 간의 상관관계를 분석함으로써, 불량을 발생시키는 공정인자를 선별하고, 해당 공정인자의 값을 조절하여 불량을 개선하는 것이 필요하다.

최근 머신 러닝을 이용하는 품질데이터 분석이 산발적으로 시도되고 있으나, 공정 하나당 평균 2~3 개월이 소요되고, 분석된 결과를 확대하여 전개하기 위한 데이터 분석 전문인력도 부족하다는 문제가 있다. 또한, 품질데이터 분석은 한번으로 마감되는 경우가 드물기 때문에, 제품의 사양이나 생산조건의 변경 시, 품질데이터를 재분석하여 그 결과를 현장에 적용해야 한다는 문제도 존재한다.

한편, 생산과정에서 수집되는 품질데이터는 불량 원인 분석, 공정 개선, 및 그에 따른 품질비용 감소 측면에서 가치가 높은 자산이다. 그러나, 수집된 품질데이터에 있어서, 공정인자값들이 편향된(biased) 경우가 매우 많은데, 편향된 공정인자는 품질데이터에 기반하는 품질분석 과정을 어렵게 할 수 있다. 이러한 공정인자 편향의 원인의 하나로는, 체계적이지 못한 공정인자에 대한 관리를 들 수 있다.

일반적으로 공정인자는 품질관리 기준 범위 내에서 조정될 수 있다. 그러나, 현장 담당자가 직접 공정인자를 변경 또는 관리해야 한다는 특성으로 인하여, 하나의 공정인자값으로 고정되어 관리되는 경우가 흔히 발생할 수 있다. 예컨대, 현장 담당자의 판단에 따라 공정인자값이 변경되므로, 특정 공정인자값이 변경되지 못한 채로 단일한 값으로 관리되는 경우도 발생한다. 특히, 이러한 경우는 품질데이터에 대한 분석 자체가 불가능하다는 문제가 있다.

따라서, 공정인자 편향을 해결하여 분석이 용이한 품질데이터를 축적하고, 축적된 품질데이터를 분석하여 불량을 발생시키는 공정인자를 선별하며, 해당 공정인자의 값을 조절하여 불량을 감소시킬 수 있는 효과적인 방안이 고려되어야 한다.

본 개시는, 제품의 품질분석에 대한 소요 시간 및 불량 발생의 감소에 따른 품질비용 저감을 위해, 제품에 대한 품질데이터를 기반으로 머신 러닝(Machine Learning) 기반 추론 모델을 트레이닝하고, 추론 모델을 기반으로 품질데이터를 분석하여 분석리포트를 제공하며, 추론 모델을 시뮬레이터로 이용하여 공정인자(process feature)를 조정하는 품질데이터 분석 시스템 및 방법을 제공하는 데 목적이 있다.

본 개시의 실시예에 따르면, 컴퓨팅 장치가 수행하는, 기어박스에 대해 품질관리 기준을 조정하는 방법에 있어서, 상기 기어박스에 대한 주요 공정인자에 대해, 상기 기어박스의 양 또는 불량 유무에 대한 영향을 분석하여 조정 공정인자를 선정하는 과정, 여기서, 상기 주요 공정인자는, 추론 모델에 대한 선정되는 트레이닝 과정에서 사전에 선정됨; UI(User Interface)부를 이용하여, 상기 조정 공정인자에 대한 조정 인자값을 획득하는 과정: 상기 추론 모델를 이용하여 상기 조정 공정인자를 기반으로 판정 결과를 생성하는 과정, 여기서, 추론 모델은 상기 트레이닝 과정에서 선정된 랜덤 포레스트(random forest) 알고리즘 기반 모델이고, 상기 판정 결과는 상기 기어박스에 대한 필드클레임의 발생 유무로서, 상기 기어박스의 양 또는 불량 여부에 대한 확률을 나타냄; 및 상기 기어박스의 불량에 대한 확률을 기반으로, 상기 조정 인자값을 이용하여 상기 조정 공정인자에 대한 품질관리 기준을 변경하는 과정을 포함하는, 품질관리 기준을 조정하는 방법을 제공한다.

본 개시의 다른 실시예에 따르면, 품질관리 기준을 조정하는 방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 제품에 대한 축적된 품질데이터를 기반으로 머신 러닝 기반 추론 모델을 트레이닝하고, 추론 모델을 기반으로 수집된 품질데이터를 분석하여 분석리포트를 제공하는 품질데이터 분석 시스템 및 방법을 제공함으로써, 제품의 품질분석에 대한 소요 시간의 감소에 따른 품질비용 저감이 가능해지는 효과가 있다.

또한 본 실시예에 따르면, 추론 모델을 시뮬레이터로 이용하여 공정인자를 조정하는 품질데이터 분석 시스템 및 방법을 제공함으로써, 제품 불량 발생을 감소시키는 것이 가능해지는 효과가 있다.

또한 본 실시예에 따르면, 추론 모델을 기반으로 수집된 품질데이터를 분석하여 분석리포트를 제공하고, 추론 모델을 시뮬레이터로 이용하여 공정인자를 조정하는 품질데이터 분석 시스템 및 방법을 제공함으로써, 데이터 분석 비전공자인 현업 담당자가 제품에 대한 품질분석을 수행할 수 있는 MLaaS(Machine Learning as a Service) 환경을 구축하고, 현업 주도 품질데이터 관리 및 분석이 가능해지는 효과가 있다.

또한 본 실시예에 따르면, 품질관리 기준의 개선을 기반으로 공정인자 편향을 해결하여 품질데이터를 축적하는 품질데이터 분석 시스템 및 방법을 제공함으로써, 품질데이터의 불균형을 감소시키고, 품질데이터 분석의 효율을 증대시키는 것이 가능해지는 효과가 있다.

도 1은 본 개시의 일 실시예에 따른 품질데이터 분석 시스템에 대한 개략적인 예시도이다.
도 2는 본 개시의 일 실시예에 따른 분석리포트의 구성요소를 나타내기 위한 예시도이다.
도 3은 본 개시의 일 실시예에 따른 시뮬레이터의 추가적인 구성요소를 개략적으로 나타낸 것이다.
도 4는 본 개시의 일 실시예에 따른 공정인자 선택을 위한 UI의 예시도이다.
도 5는 본 개시의 일 실시예에 따른 공정인자 중요도를 나타내기 위한 UI의 예시도이다.
도 6은 본 개시의 일 실시예에 따른 분석결과를 나타내기 위한 UI의 예시도이다.
도 7은 본 개시의 일 실시예에 따른 공정인자 조정을 위한 UI의 예시도이다.
도 8은 본 개시의 일 실시예에 따른 추론 모델의 트레이닝에 이용되는 추가적인 구성요소를 개략적으로 나타낸다.
도 9는 본 개시의 일 실시예에 따른 품질데이터의 전처리과정에 대한 흐름도이다.
도 10은 본 개시의 일 실시예에 따른 공정인자 선정과정에 대한 흐름도이다.
도 11은 본 개시의 다른 실시예에 따른 머신 러닝 모델에 대한 트레이닝 과정을 나타내는 흐름도이다.
도 12는 본 개시의 일 실시예에 따른 품질데이터 분석방법에 대한 흐름도이다.
도 13은 본 개시의 일 실시예에 따른 시뮬레이터를 기반으로 품질관리 기준을 변경하는 방법에 대한 흐름도이다.
도 14는 본 개시의 일 실시예에 따른 추론 모델의 트레이닝 방법에 대한 흐름도이다.
도 15는 본 개시의 일 실시예에 따른 공정인자에 대한 품질관리 기준 개선장치에 대한 개략적인 구성도이다.
도 16은 본 개시의 일 실시예에 따른 공정인자의 품질관리 기준을 개선하는 방법에 대한 흐름도이다.
도 17은 본 개시의 일 실시예에 따른 분석 시스템을 기어박스에 적용하는 과정에 대한 흐름도이다.
도 18은 본 개시의 일 실시예에 따른 기어박스의 공정인자에 대한 특성 중요도를 나타내는 예시도이다.
도 19는 본 개시의 일 실시예에 따른 T-테스트를 나타내는 예시도이다.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.

본 실시예는 머신 러닝(machine learning) 기반 품질데이터 자동 분석 시스템에 관한 내용을 개시한다. 보다 자세하게는, 제품의 품질분석에 대한 소요 시간 및 불량 발생의 감소에 따른 품질비용 저감을 위해, 축적된 품질데이터를 기반으로 머신 러닝(machine learning) 기반 추론 모델을 트레이닝하고, 추론 모델을 기반으로 품질데이터를 분석하여 분석리포트를 제공하며, 추론 모델을 시뮬레이터로 이용하여 공정인자(process feature)를 조정하는 품질데이터 분석 시스템 및 방법을 제공한다.

이하의 설명에서, 사용자(예컨대, 현업 또는 현장 담당자)에게 머신 러닝(machine learning) 기반의 품질분석 서비스를 제공할 수 있으므로, 본 실시예에 따른 품질데이터 분석 시스템이 사용자에 제공할 수 있는 서비스를 MLaaS(Machine Learning as a Service)로 나타낸다.

도 1은 본 개시의 일 실시예에 따른 품질데이터 분석 시스템에 대한 개략적인 예시도이다.

본 실시예에 따른 품질데이터 분석 시스템(100, 이하, '분석 시스템')은, 제품에 대한 축적된 품질데이터를 기반으로 머신 러닝(machine learning) 기반 추론 모델을 트레이닝하고, 추론 모델을 기반으로 품질데이터를 분석하여 분석리포트를 제공하며, 추론 모델을 시뮬레이터로 이용하여 공정인자를 조정한다. 분석 시스템(100)은 입력부(102), 데이터 전처리부(104), 판정부(106), 및 데이터 시각화부(108)의 전부 또는 일부를 포함한다.

여기서, 본 실시예에 따른 분석 시스템(100)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 분석 시스템(100)은 UI부(110)를 추가로 구비하여, 사용자가 MLaaS를 이용함에 있어서, 편의성을 제공할 수 있다. 또한, 분석 시스템(100)은, 판정부(106)에 포함된 추론 모델의 트레이닝을 위한 트레이닝부(112)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.

도 1의 도시는 본 실시예에 따른 예시적인 구성이며, 입력부의 형태, 데이터 전처리부의 동작, 판정부에 포함된 추론 모델의 구조와 동작, 품질데이터 분석부의 동작, 트레이닝부의 구조와 동작, 및 UI부의 구성에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 다양한 구현이 가능하다.

입력부(102)는 제품에 대한 품질데이터를 획득한다. 여기서, 제품은 기어박스(gearbox)와 같은, 차량에 포함되는 부품일 수 있다. 품질데이터는 제품의 생산과정에(서) 적용되거나 발생하는, 복수의 공정인자에 대해 수집될 수 있다.

공정인자는 제품의 생산과정을 조정하기 위한 입력인자, 생산과정의 중간에 형성되는 중간출력인자, 또는 생산과정의 결과로서 생성되는 출력인자의 전부 또는 일부를 포함할 수 있다.

한편, 품질데이터 분석을 위해 입력되는 공정인자는, 추론 모델에 대한 사전 트레이닝 과정에서 선정된 주요 공정인자일 수 있다. 이러한 주요 공정인자의 선정 과정은 추론 모델에 대한 트레이닝 과정에서 설명하기로 한다.

입력부(102)는, 추론 모델의 입력으로 이용되는 공정인자에 대해 데이터 유형을 설정할 수 있다. 여기서 공정인자의 데이터 유형은, 수치로 표현되는 숫자형(numerical type), 및 문자로 표현되는 범주형(category type)을 포함할 수 있다. 다른 데이터 유형으로는, 데이터가 수집된 시간 정보를 포함하는 시간형(time type)이 존재하나, 트레이닝 과정 중 주요 공정인자 선정 과정에서 제거될 수 있다.

한편, 품질데이터는, 추론 모델의 성능을 분석하기 위해, 타겟 출력(즉, 분석용 레이블)으로 이용될 수 있는 인자(예컨대, 제품에 대한 필드클레임 발생 유무)를 포함할 수 있다. 입력부(102)는 타겟 출력으로 이용되는 인자를 타겟 인자로 설정한다.

데이터 전처리부(104)는 공정인자의 데이터 유형별로 적절한 인코딩 과정을 수행하고, 수집과정에서 발생한 누락 데이터를 적절한 값으로 설정한다.

데이터 전처리부(104)는, 범주형 공정인자에 대해, 추론 모델에 적합한 임베딩 값(embedding value)으로 변환하는 인코딩 과정을 수행할 수 있다.

범주형 데이터의 예로는, 제품에 대한 필드클레임 발생 유무를 나타내는 타겟 인자를 들 수 있다. 타겟 인자에 대한 인코딩 과정은, 예컨대, 제품에 대한 필드클레임이 발생하지 않은 경우를 0, 필드클레임이 발생한 경우를 1로 나타낸다. 따라서, 이러한 타겟 인자에 대한 인코딩은, 추론 모델에 기반하는 품질 분석을 위한 분석용 레이블을 생성하는 과정일 수 있다.

또한, 데이터 전처리부(104)는 수집과정에서 누락된 공정인자의 값을 설정할 수 있다. 예컨대, 숫자형 공정인자는 중앙값(median value)으로 설정되고, 범주형 공정인자는 최빈값(mode value)으로 설정될 수 있다.

판정부(106)는 추론 모델을 포함하고, 전처리된 복수의 공정인자를 기반으로 추론 모델을 이용하여 제품의 양(OK) 또는 불량(No Good: NG) 여부에 대한 판정 결과를 생성한다. 여기서, 판정 결과는 제품의 양 또는 불량에 대한 확률값일 수 있다.

제품의 불량에 대한 판정 결과는, 제품에 대한 필드클레임이 발생한 경우를 나타낼 수 있다. 따라서, 제품의 양에 대한 판정 결과는, 제품에 대한 필드클레임이 발생하지 않는 경우를 나타낸다.

추론 모델은 머신 러닝 모델 형태로 구현되는데, 품질데이터를 대상으로 좋은 성능을 보이는, 트리 기반의 결정 트리(decision tree), 랜덤 포레스트(random forest), XGBoost(Extreme Gradient Boosting), 또는 LightGBM(Light Gradient Boosting Model)과 같은 4 가지 머신 러닝 알고리즘 중 하나가 구현된 모델일 수 있다. 트레이닝 과정을 이용하여, 트레이닝부(112)는, 4 가지 머신 러닝 알고리즘 각각을 적용한 모델 중에서 가장 성능이 좋은 모델을 추론 모델로 선정할 수 있다. 추론 모델의 선정을 위한 트레이닝 과정은 추후 설명하기로 한다.

데이터 시각화부(108)는 복수의 공정인자, 분석용 레이블, 및 판정 결과를 기반으로, 제품의 품질 분석, 또는 추론 모델의 학습 결과에 대한 분석리포트를 생성한다.

도 2는 본 개시의 일 실시예에 따른 분석리포트의 구성요소를 나타내기 위한 예시도이다.

판정 결과(제품의 양 또는 불량)에 미치는 공정인자별 영향을 포괄적/미시적으로 나타내기 위해, 데이터 시각화부(108)가 제공하는 분석리포트는 분석데이터 요약(202), 공정인자 중요도(204), 공정인자별 데이터 분포(206), 및 분석결과(208)의 전부 또는 일부를 포함할 수 있다.

분석데이터 요약(202)은 품질데이터를 구성하는 공정인자의 전반적인 정보를 나타낸다. 여기서 전반적인 정보는, 데이터 유형, 최빈값, 최솟값, 최댓값, 평균, 표준편차 등을 포함할 수 있다. 분석데이터 요약(202)은 제품의 품질 분석, 또는 추론 모델의 학습에 대한 결과로서 제공될 수 있다.

공정인자 중요도(204)는 공정인자의 특성 중요도(feature importance)를 나타냄으로써, 각 공정인자가 판정 결과에 미치는 영향을 확인할 수 있도록 한다. 공정인자 중요도(204)는 추론 모델의 학습에 대한 결과로서 제공될 수 있다. 특성 중요도는 트리 기반 머신 러닝 알고리즘의 결과물인데, 자세한 사항에 대해서는 추후 설명하기로 한다.

공정인자별 데이터 분포(206)는 각 공정인자와 판정 결과 간, 또는 각 공정인자와 분석용 레이블 간의 관계에 대한 분포를 나타낸다.

분석결과(208)는 판정 결과 및 분석용 레이블에 기반하는, 추론 모델에 대한 성능 분석을 나타낸다. 분석결과(208)는 제품의 품질 분석, 또는 추론 모델의 학습에 대한 결과로서 제공될 수 있다. 분석결과(208)에 대해서는 추후 설명하기로 한다.

분석리포트는, 품질관리 기준을 변경하여 신규 품질관리 기준을 산출하는 과정에서 활용될 수 있다. 또한, 신규 품질관리 기준이 적용된 생산과정에서 수집된 품질데이터의 특성을 확인하기 위해, 분석리포트가 생성될 수 있다.

한편, 판정부(106)는, 신규 품질관리 기준을 산출하기 위한 시뮬레이터로서 추론 모델을 이용할 수 있다.

특정한 공정인자에 대하여, 조정된 인자값을 설정한 후, 판정부(106)는 조정된 공정인자를 시뮬레이터에 입력하여 시뮬레이션된(simulated) 판정 결과를 생성한다. 조정된 공정인자 및 해당되는 판정 결과를 이용하여, 제품의 불량 발생을 감소시키는 방향으로 공정인자에 대한 신규 품질관리 기준이 생성될 수 있다.

한편, 시뮬레이터는 사용자에게 편의를 제공하기 위해 추가적인 구성요소를 포함할 수 있다. 따라서, 이하의 설명에서, 시뮬레이터는 추론 모델과 추가적인 구성요소를 포함하는 시스템을 나타낸다.

도 3은 본 개시의 일 실시예에 따른 시뮬레이터의 추가적인 구성요소를 개략적으로 나타낸 것이다.

시뮬레이터는, 공정인자의 선정과 조정, 및 판정 결과의 제공을 위해 공정인자 조정부(302), 판정결과 출력부(304), 중요인자 출력부(306), 및 기준적용부(308)의 전부 또는 일부를 포함한다.

공정인자 조정부(302)는 주요 공정인자인자로부터 조정 공정인자의 선정, 및 조정 공정인자의 값에 대한 조정을 수행한다. 전술한 바와 같이, 조정 공정인자의 선정에는 분석리포트가 제공하는 특성 중요도 및 공정인자별 데이터 분포(206)가 활용될 수 있다.

한편, 공정인자 조정부(302)는, 전술한 바와 같은, 입력인자를 조정 공정인자로 선정할 수 있다.

선정된 조정 공정인자가 범주형인 경우, 체크박스(check box)를 이용하여, 사용자가 원하는 범주가 선택될 수 있다. 숫자형인 경우, 슬라이더(slider)를 이용하여, 공정인자의 값이 조절될 수 있다. 체크박스 해제에 따라 공정인자를 시뮬레이션에서 제외할 수 있으므로, 단일 공정인자에 대한 시뮬레이션도 수행될 수 있다. 이때, 추론 모델로서 XGBoost 기반 모델이 채택된 경우, 제외된 공정인자는 기설정된 값으로 설정되며, 다른 알고리즘 기반 모델이 채택된 경우, 공정인자의 데이터 유형에 따라 최빈값 또는 중앙값으로 설정될 수 있다.

한편, 공정인자값의 조정 시, 해당 공정인자에 대한 T-테스트 결과를 참조하여, 제품에 대한 불량 분포를 최소화할 수 있도록 공정인자값을 조정할 수 있다.

판정결과 출력부(304)는, 조정 공정인자가 시뮬레이터에 입력되었을 경우에 대해 판정결과를 제공한다. 전술한 바와 같이, 판정 결과는 제품의 양 또는 불량에 대한 확률값이다.

한편, 사용자는 조정 공정인자의 값을 변경하여 입력한 후, 판정 결과를 확인함으로써, 조정 공정인자의 불량 발생에 대한 영향을 확인할 수 있다.

중요인자 출력부(306)는, 시뮬레이터가 사용 중인 공정인자의 특성 중요도를 제공한다. 여기서, 특성 중요도로는, 시뮬레이터로 이용되는 추론 모델에 대한 학습과정에서 생성된 특성 중요도가 재사용된다.

기준적용부(308)는, 조정 공정인자의 값에 대한 판정 결과를 기반으로 조정 공정인자에 대한 최적 인자값을 선정하고, 이를 기반으로 조정 공정인자에 대한 품질관리 기준을 변경한다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 추론 모델을 시뮬레이터로 이용하여 공정인자를 조정하는 분석 시스템을 제공함으로써, 제품 불량 발생을 감소시키는 것이 가능해지는 효과가 있다.

UI부(110)는, 분석 시스템(100)에 관련된 입력을 사용자로부터 획득하거나, 분석 시스템(100)이 생성하는 출력을 디스플레이 상에 제공함으로써, 분석 시스템(100)이 제공하는 MLaaS를 사용자와 연결시키는 역할을 수행한다. UI부(110)를 기반으로, 마우스, 키보드 등의 수단을 이용하여, 사용자 입력이 분석 시스템(100)에 제공될 수 있다.

도 4는 본 개시의 일 실시예에 따른 공정인자 선택을 위한 UI의 예시도이다.

UI부(110)는, 도 4에 예시된 바와 같이, 데이터 분석에 적용되는 품질데이터 중에서 공정인자를 선택하기 위한 체크박스(check box)를 포함한다. 체크박스가 선택된 공정인자에 대해, 공정인자의 유형이 추가로 입력될 수 있으며, 서술(description)은 공정인자의 유형에 따른 제약 사항을 나타낸다.

또한, 도 4에 예시된 바는, 추론 모델의 트레이닝에 이용되는 공정인자를 선택하기 위한 체크박스(check box)로도 이용될 수 있다.

한편, UI부(110)는, 공정인자 중에서 타겟 인자를 설정하기 위한 입력 인터페이스를 포함한다.

UI부(110)는, 분석데이터 요약(202), 공정인자 중요도(204), 공정인자별 데이터 분포(206), 또는 분석결과(208)를 포함하는 분석리포트를 디스플레이 상에 제공한다. 예컨대, UI부(110)는, 도 5에 예시된 바와 같이, 공정인자에 대한 특성 중요도를 제공할 수 있다.

또한, UI부(110)는, 추론 모델의 판정 결과에 기반하는 분석결과(208)를 제공할 수 있다.

분석결과(208)는, 도 6에 예시된 바와 같이, 제품에 대한 양 또는 불량 판정에 대한 정확도(accuracy), 정밀도(precision), 리콜(recall), 및 F1 스코어를 포함할 수 있다.

여기서, 정확도는, 양 또는 불량에 대한 예측이 GT(Ground Truth, 즉, 정답 또는 레이블)와 일치하는 비율이다. 정밀도는 불량으로 예측한 것의 GT도 불량인 비율이고, 리콜은 GT가 불량인 것을 불량으로 예측한 비율이다. F1 스코어는 정밀도와 리콜의 조화평균값(harmonic mean value)이다.

한편, 도 6의 예시에서, 머신 러닝 모델 식별자는, 머신 러닝 모델이 구현하고 있는 알고리즘, 즉 결정 트리, 랜덤 포레스트, XGBoost, 또는 LightGBM 중의 하나를 나타낸다.

UI부(110)는, 4 가지 머신 러닝 알고리즘을 각각을 적용한 모델에 대한 트레이닝 결과를 디스플레이 상에 제공한다. 도 6에 예시된 바와 같은 분석결과(208)는, 각 알고리즘 기반 모델에 대한 트레이닝 결과로도 이용될 수 있다. 또한, 트레이닝 결과는 추론 모델의 학습에 소요된 시간인 수행시간(runtime)을 포함할 수 있다.

UI부(110)는, 도 7에 예시된 바와 같이, 시뮬레이터의 이용 시, 공정인자 조정부(302)와 관련된 입력을 획득하기 위한 체크박스(check box)를 포함한다. 체크박스가 선택된 공정인자에 대해, 공정인자값이 데이터 유형에 따라 조정될 수 있다. 또한, UI부(110)는, 판정결과 출력부(304) 및 중요인자 출력부(306)와 관련된 결과를 디스플레이 상에 제공한다.

UI부(100)는, 공정인자 간의 상관관계 분석에 이용되는 매트릭스 형태의 히트맵(heatmap)을 제공할 수 있다.

또한, UI부(100)는, MLaaS 상에서 각종 판단의 근거가 되는 기설정값들(예를 들어, 주요 공정인자의 개수를 나타내는 기설정값)을, 획득하기 위한 입력 인터페이스를 제공한다.

UI부(100)가 지원하는 인터페이스가 전술한 바에 한정되는 것은 아니며, MLaaS를 사용자와 연결시키기 위한 인터페이스가 필요에 따라 더 추가될 수 있다.

트레이닝부(112)는 학습용 품질데이터 및 해당되는 레이블을 이용하여 추론 모델에 대한 트레이닝을 수행한다.

전술한 바와 같이, 추론 모델은 머신 러닝 모델 형태로 구현되는데, 결정 트리, 랜덤 포레스트, XGBoost, 또는 LightGBM 과 같은 4 가지 머신 러닝 알고리즘 중 하나가 구현된 모델일 수 있다.

결정 트리는 특정한 기준(예컨대, 수치형 공정인자의 특정값, 또는 범주형 공정인자의 범주 등)에 따라 데이터를 구분하는 모델이다. 결정 트리에서 분기는, 분기에 이용되는 공정인자에 의한 정보 이득(information gain)이 최대화되는 방향으로 수행되며, 이를 결정 트리에 대한 트레이닝이라 한다.

루트 노드(root node)를 하나의 공정인자를 기준으로 분기하여 두 개의 리프 노드(leaf node)가 생성된 경우, 루트 노드가 갖는 정보에서 두 개의 리프 노드가 갖는 정보를 감산함으로써, 정보 이득을 산출할 수 있다. 이때, 정보 이득의 산출 과정에서 레이블이 이용된다. 분기된 리프 노드가 더 정돈된 상태이므로, 두 개의 리프 노드가 갖는 정보는 루트 노드의 정보보다 클 수 없다. 따라서, 정보 이득은 항상 0 이상의 값을 갖는다. 한편, 정보로는 엔트로피(entropy) 또는 지니 불순도(Gini impurity)가 이용될 수 있다.

랜덤 포레스트는, 다수의 결정 트리에 기반하는 앙상블 모델(ensemble model)로서, 다수의 결정 트리에 의한 결정을 결합(aggregation, 예컨대, 분류 모델인 경우, 다수결을 택하고, 회귀 모델인 경우 평균을 취함)하여 최종 출력을 생성한다. 랜덤 포레스트에 포함된 각 결정 트리에 대한 트레이닝은, 하나의 결정 트리에 대한 학습과 동일하게 수행될 수 있다. 랜덤 포레스트의 특징은, 각 결정 트리의 학습에 이용되는 학습용 데이터 셋 간에 복원추출(boostrap)을 허락한다는 점이다. 랜덤 포레스트가 갖는 복원추출, 및 다수의 결정 트리에 의한 결정의 결합을 포괄하여 이를 배깅(bagging, boostrap+aggregation)이라 한다.

XGBoost와 LightGBM은 모두 GBM(Gradient Boosting Model) 계열의 알고리즘이다. GBM은 부스팅(boosting) 계열의 앙상블 알고리즘이다. 여기서, 부스팅이란 다수의 약한 분류기(weak classifier)를 순차적으로 생성(즉, 트레이닝)한 후, 이들을 결합하여 강한 분류기(strong classifier)를 생성하는 과정이다. 예컨대, 3 개의 약한 분류기 A, B, C에 대해, 분류기 A를 생성하고, 그 정보를 바탕으로 분류기 B를 생성하며, 다시 그 정보를 바탕으로 분류기 C를 생성한 후, 최종적으로 분류기들을 모두 결합하여 강한 분류기를 만들 수 있다. 이러한 부스팅 과정에서, GBM은 전단의 약한 모델로부터 산출된 부의 경사도(negative gradient)를 기반으로 다음 단의 약한 모델을 생성한다.

XGBoost 알고리즘은, 약한 분류기가 결정 트리로 구현된 앙상블 모델을 학습하기 위한 GBM 계열의 알고리즘이다. XGBoost 알고리즘은 트레이닝을 위한 손실함수에 규제항(regulation term)을 포함하여, GBM의 단점인 과적합(overfitting)을 방지하는 데 있어서 유용하다는 장점을 갖는다.

LightGBM 알고리즘도, 약한 분류기가 결정 트리로 구현된 앙상블 모델을 학습하기 위한 GBM 계열의 알고리즘이다. LightGBM 알고리즘은, GBM 계열의 알고리즘들의 느린 학습 속도를 개선하기 위해, 레벨중심(level-wise)가 아닌, 리프중심(leaf-wise)으로 트리 분기를 수행한다. LightGBM 알고리즘은, 너무 적은 수의 데이터를 이용하면 과적합 문제를 발생시키므로, 대용량의 데이터 처리에 적합한 것으로 알려져 있다.

4 가지 머신 러닝 알고리즘은 모두 결정 트리 기반으로 동작하므로, 학습의 결과물로서 분기에 이용되는 공정인자에 대한 특성 중요도를 생성할 수 있다.

하나의 공정인자에 대한 특성 중요도는, (복수의) 결정 트리에 의한 총 정보 이득에 대한, 하나의 공정인자가 생성한 총 정보 이득의 비율이다. 즉, 학습된 결정 트리가 생성한 총 정보 이득 중에, 하나의 공정인자에 따른 모든 분기들이 기여한 정도를 나타낸다. 특성 중요도가 높을수록, 해당되는 공정인자는, 추론 모델이 판정 결과를 생성함에 있어서, 기여하는 바가 높은 것으로 판단된다.

특정 공정인자에 대한 품질관리 기준을 조정할 때, 이러한 특성 중요도를 활용할 수 있으므로, 본 실시예에서는 추론 모델을 위한 머신 러닝 알고리즘으로서, 전술한 바와 같은 결정 트리, 랜덤 포레스트, XGBoost, 또는 LightGBM 중의 하나를 이용한다.

트레이닝 과정을 이용하여, 트레이닝부(110)는, 4 가지 머신 러닝 알고리즘 각각을 적용한 모델 중에서 가장 성능이 좋은 모델을 추론 모델로 선정할 수 있다. 추론 모델에 대한 알고리즘을 선정한 후, 트레이닝부(110)는 4 가지 머신 러닝 알고리즘을 구현한 모델 각각에 대한 트레이닝 결과를 판정근거로서 제시한다.

이하, 도 8 내지 도 11의 예시를 이용하여, 트레이닝부(110)가 수행하는 추론 모델의 트레이닝 과정에 대해 설명하도록 한다.

도 8은 본 개시의 일 실시예에 따른 추론 모델의 트레이닝에 이용되는 추가적인 구성요소를 개략적으로 나타낸다.

추론 모델을 트레이닝하기 위해, 트레이닝부(110)는 입력부(102) 외에 추가적으로 데이터 전처리부(104), 공정인자 선정부(806), 데이터 균형화부(808), 및 4 개의 머신 러닝 모델(810, 이하, '4 개의 모델'과 호환하여 사용)의 전부 또는 일부를 이용할 수 있다. 여기서, 4 개의 모델(810)은, 전술한 바와 같은, 4 가지 머신 러닝 알고리즘 각각을 적용한 모델을 나타낸다.

입력부(102)는, 트레이닝에 사용하기 위해, 제품에 대한 품질데이터를 획득한다. 품질데이터는 제품의 생산과정에(서) 적용되거나 발생하는, 복수의 공정인자에 대해 수집될 수 있다.

입력부(102)는, 트레이닝에 사용되는 공정인자에 대해 데이터 유형을 설정할 수 있다. 여기서 공정인자의 데이터 유형은, 수치로 표현되는 숫자형, 문자로 표현되는 범주형, 및 데이터가 수집된 시간 정보를 포함하는 시간형을 포함할 수 있다.

한편, 품질데이터는, 추론 모델의 트레이닝 과정에서 타겟 출력(즉, 학습용 레이블)으로 이용될 수 있는 인자(예컨대, 제품에 대한 필드클레임 발생 유무)를 포함할 수 있다. 입력부(102)는 타겟 출력으로 이용되는 인자를 타겟 인자로 설정한다.

공정인자에 대한 범주, 및 타겟 인자는, 전술한 바와 같은, UI부(110)를 이용하여 설정될 수 있다.

도 9는 본 개시의 일 실시예에 따른 품질데이터의 전처리과정에 대한 흐름도이다.

데이터 전처리부(104)는 공정인자의 데이터 유형을 확인한다(S900).

데이터 전처리부(104)는, 데이터 유형이 숫자형 데이터인지를 확인하여(S902), 아닌 경우, 범주형 데이터인지를 확인한다(S904).

데이터 전처리부(104)는 숫자형/범주형 데이터가 아닌, 시간형 데이터를 제거한다(S906). 품질데이터가 수집된 시간은, 제품의 양 또는 불량과 연관 관계가 적다고 판단하여, 시간형 공정인자는 트레이닝을 위한 품질데이터에서 제거된다.

범주형 데이터인 경우, 데이터 전처리부(104)는 추론 모델에 적합한 임베딩 값으로 변환하는 인코딩 과정을 수행한다(S908).

범주형 데이터의 예로는, 제품에 대한 필드클레임 발생 유무를 나타내는 타겟 인자를 들 수 있다. 타겟 인자에 대한 인코딩 과정은, 예컨대, 제품에 대한 필드클레임이 발생하지 않은 경우를 0, 필드클레임이 발생한 경우를 1로 나타낸다. 따라서, 이러한 타겟 인자에 대한 인코딩은, 추론 모델의 트레이닝을 위한 학습용 레이블을 생성하는 과정일 수 있다.

숫자형 데이터, 및 인코딩된 범주형 데이터에 대해, 데이터 전처리부(104)는 수집과정에서 발생한 누락 데이터를 처리한다(S910). 이때, 범주형 데이터는 최빈값으로, 숫자형 데이터는 중앙값으로 설정될 수 있다. 한편, 누락이 심한 공정인자의 경우, 추론 모델의 트레이닝에 방해가 될 수 있다. 따라서, 데이터 전처리부(104)는, 누락률이 기설정된 비율(예컨대, 80 %)보다 큰 공정인자를 트레이닝 과정에서 제거할 수 있다.

품질데이터에 포함된 공정인자의 개수는, 대상 제품에 따라 수십에서 수백 개일 수 있다. 공정인자 선정부(806)는, 품질데이터에 포함된 다수의 공정인자로부터 타겟 인자에 영향력이 높은 주요 공정인자를 선별한다. 선별된 주요 공정인자를 사용함으로써, 추론 모델의 복잡도, 및 학습 소요 시간이 감소될 수 있다.

도 10은 본 개시의 일 실시예에 따른 공정인자 선정과정에 대한 흐름도이다.

공정인자 선정부(806)는, 데이터 전처리부(104)에 의해 전처리된 품질데이터를 획득한다(S1000).

공정인자 선정부(806)는, 공정인자의 개수가 기설정된 개수(도 10의 예시에서는 20 개) 이하인지 확인한다(S1002), 공정인자의 개수가 기설정된 개수 이하인 경우, 공정인자 선정부(806)는 공정인자 선정과정을 생략할 수 있다.

공정인자의 개수가 기설정된 개수보다 큰 경우, 공정인자 선정부(806)는 주요 공정인자를 산출하기 위한 과정(S1004 내지 S1008)을 수행하여, 기설정된 개수 이하가 되도록 주요 공정인자를 선별할 수 있다.

먼저, 공정인자 선정부(806)는 품질데이터에 포함된 공정인자에 대하 T-테스트를 수행한다(S1004).

여기서, T-테스트는, 각 공정인자별로 제품의 양 및 불량에 대한 두 개의 분포를 비교하여 통계적 유의성을 확인하는 방식이다. 두 개의 분포 간에 차이가 유의한 경우, 공정인자 선정부(806)는 해당 공정인자가 불량의 발생에 영향을 줄 수 있다고 판단하여, 주요 공정인자로 선정한다.

공정인자 선정부(806)는, T-테스트를 통과한 공정인자의 개수가 기설정된 개수 이하인 경우, 잔여 과정(S1006 및 S1008)을 생략하고, T-테스트를 통과한 공정인자를 최종적인 주요 공정인자로 선별할 수 있다.

공정인자 선정부(806)는, T-테스트를 통과한 공정인자에 대해, 이들 간의 정보 이득을 비교한다(S1006). 정보 이득이 높은 순으로, 기설정된 개수(예컨대, 20 개)의 공정인자가 선별될 수 있다. 여기서 정보 이득은, 전술한 바와 같이, 제품의 정상 또는 불량에 대한 정보로부터, 하나의 공정인자에 의한 분기 후의 정상 또는 불량에 대한 정보를 감산하여 생성할 수 있다.

공정인자 선정부(806)는, 정보 이득 순으로 선별된 공정인자 간의 상관관계를 분석한다(S1008). 전술한 바와 같이, 공정인자는 제품 생산과정의 입력인자, 중간출력인자, 또는 출력인자일 수 있으므로, 정보 이득 순으로 선별된 공정인자 간에 상관관계가 존재할 수 있다. 이때, 복수의 공정인자 대해, 두 공정인자 간의 상관관계는 상관계수(correlation coefficient)로 나타내는데, 상관계수는 두 공정인자의 공분산(covariance)을 두 공정인자의 표준편차의 곱으로 나눈 값이다. 한편, 상관계수는 매트릭스 형태의 히트맵(heatmap) 상에 표현될 수 있다.

공정인자 선정부(806)는 선별된 공정인자 간의 상관관계를 분석하여, 상관계수가 기설정된 기준치보다 큰 경우를 확인한다. 공정인자 선정부(806)는, 상관계수가 기설정된 기준치보다 큰 두 공정인자에 대해, 출력인자, 중간출력인자, 및 입력인자 순으로 제거한다. 예컨대, 상관관계가 존재하는 두 공정인자 각각이 출력인자 및 입력인자인 경우, 출력인자를 제거한다. 한편, 상관계수가 기설정된 기준치보다 큰 두 공정인자가 같은 종류인 경우, 정보 이득이 높은 공정인자를 선별한다.

상관관계에 기반하는 공정인자 선별을 이용하여, 공정인자 선정부(806)는 공정인자 간에 존재하는 다중공선성(multicollinearity)를 제거할 수 있다.

한편, 상관관계 분석에 따른 공정인자의 제거 때문에, 선별된 공정인자의 개수가 기설정된 개수보다 작아진 경우, 공정인자 선정부(806)는 정보 이득의 순서에 따라, 추가로 공정인자를 선별할 수 있다.

전술한 바와 같은 T-테스트, 정보 이득 비교, 및 상관관계 분석을 기반으로, 공정인자 선정부(806)는 최종적인 주요 공정인자를 선별할 수 있다.

한편, 품질데이터는 대체로 양품 대비하여 불량품 데이터가 굉장히 적은 불균형 상태를 가질 수 있다. 예컨대, 제품에 따라 수천 대 일의 심각한 비율을 나타내는 경우도 존재한다. 이러한 불균형 상태는 머신 러닝 알고리즘 기반 모델에 대한 편향된 학습을 유도할 수 있으므로, 불량품 데이터의 증강에 기반하는 데이터 균형화(data balancing)가 필요할 수 있다.

데이터 균형화부(808)는 불량 데이터에 대한 데이터 균형화(data balancing)을 수행한다. 데이터 균형화부(808)는 불량 데이터를 업샘플링(upsampling)하여 불량 데이터의 개수를 증강시킴으로써, 불량 데이터와 양품 데이터 간의 균형을 성취한다. 예컨대, 데이터 균형화부(808)는 kNN(k Nearest Neighbors) 모델 기법을 이용하여 데이터 분포 내에서 유사한 데이터를 생성할 수 있다.

여기서, kNN 모델 기법은, 새로운 데이터가 주어지면, 그 주변(이웃) k 개의 데이터를 살펴본 후, 더 많은 데이터가 포함되어 있는 범주로 분류하는 방식이다. 따라서, k 개 중에 과반 이상의 불량 데이터를 포함하는 주변에서 새로운 데이터를 생성함으로써, 데이터 균형화부(808)는 불량 데이터의 개수를 증강시킬 수 있다.

품질데이터에 대한 전처리, 주요 공정인자 선별, 및 균형화를 수행한 후, 트레이닝부(112)는, 전술한 바와 같은, 결정 트리, 랜덤 포레스트, XGBoost, 및 LightGBM 알고리즘에 기반하는 4 개 머신 러닝 모델(810)에 대한 트레이닝을 수행한 후, 가장 성능이 좋은 하나를 추론 모델로 선정한다.

먼저, 트레이닝부(112)는 균형화된 품질데이터를 학습용 데이터 및 검증용 데이터로 분할한다. 예컨대, 80 %의 품질데이터가 학습용 데이터로, 잔여 20 %의 품질데이터가 검증용 데이터로 이용될 수 있다.

트레이닝부(112)는 학습용 데이터 및 학습용 레이블을 기반으로 4 개의 머신 러닝 모델(810)에 대한 트레이닝을 수행한다. 각 모델은 결정 트리 기반으로 구현되므로, 트리 내 각 분기에서의 정보 이득을 최대화하는 방향으로 트레이닝이 수행될 수 있다.

트레이닝부(112)는 검증용 데이터를 기반으로 4 개의 머신 러닝 모델(810)에 대한 교차 검증을 수행하여, 4 개의 머신 러닝 모델(810)에 대한 트레이닝 성능을 저장한다.

트레이닝을 위한 하이퍼파라미터로는, 예컨대, 최대 깊이(max-depth), 리프 한계(leaf-limit) 등이 이용되는데, 최대 깊이는 트리 분기의 최대값을 나타내고, 리프 한계는 리프에 대한 한계값을 나타낸다.

특히, 트레이닝부(112)는, 4 개의 모델(810)에 대한 트레이닝 과정에서 최대 깊이를 적절히 조절함으로써, 과적합을 방지하는 데 중점을 둔다.

4 개의 모델(810)에 대한 학습이 완료된 후, 트레이닝부(112)는 4 개의 모델(810) 간의 성능을 비교하여, 추론 모델을 선정한다. 학습된 모델의 성능은, 도 6에 예시된 바와 같이, 학습용 레이블, 및 각 머신 러닝 모델이 생성하는 판정 결과에 기반하는 정확도, 정밀도, 리콜, F1 스코어를 포함한다. 또한, 학습된 모델의 성능은 학습에 소요된 시간인 수행시간(runtime)을 포함할 수 있다.

트레이닝부(112)는, F1 스코어가 가장 높은 모델을 최종적인 추론 모델로 선정한다. 다만, 사용자는 최종 모델의 선정 시, 불량을 감소시키는 것이 목적이면 리콜을, 가성불량을 감소시키는 것이 목적이면 정밀도를 선정기준으로 이용할 수 있다.

도 11은 본 개시의 다른 실시예에 따른 머신 러닝 모델에 대한 트레이닝 과정을 나타내는 흐름도이다.

트레이닝부(112)는 균형화된 품질데이터를 학습용 데이터 및 검증용 데이터로 분할한다(S1100).

트레이닝부(112)는, 학습용 데이터 및 학습용 레이블을 기반으로 하나의 머신 러닝 모델에 대한 트레이닝을 수행한다(S1102). 각 모델은 결정 트리 기반으로 구현되므로, 트리 내 각 분기에서의 정보 이득을 최대화하는 방향으로 트레이닝이 수행될 수 있다.

트레이닝부(112)는, 학습된 머신 러닝 모델에 대해, 검증용 데이터를 기반으로 교차 검증을 수행한 후(S1104), 트레이닝 결과로서 모델에 대한 성능을 저장한다(S1106).

머신 러닝 모델의 트레이닝에 있어서, 중요한 사항 중 하나는 학습 소요 시간과 성취되는 모델 성능 간의 절충(trade-off)이다. 데이터 분석에 숙달되지 않은 현업 담당자가 분석 시스템(100)을 활용하기 위해서, 학습 소요 시간을 2~3 시간 내외로 관리하는 것이 적정할 수 있으므로, 이 정도의 학습 시간이 절충 과정에서 기준으로 이용될 수 있다. 이러한 학습 시간의 기준을 만족시키기 위해, 품질데이터에 적합하도록 기설정된 하이퍼파라미터(hyperparameter, 초매개변수)를 기반으로 머신 러닝 모델 각각에 대해 한 차례 트레이닝을 진행하고, 4 개의 머신 러닝 모델(810)에 대해 교차검증(cross validation) 성능을 비교하여 최적의 모델을 선정하는 방식이 이용될 수 있다.

최적화의 측면에서는, 모델별로 하이퍼파라미터를 조정한 후에, 모델 간 성능을 비교하여 최적 모델을 선정해야 한다. 그러나, 본 실시예에 있어서, 품질데이터의 불균형 특성에 맞도록 경험적으로 적절한 값으로 하이퍼파라미터가 조정되었기 때문에, 한 차례의 학습 후에 교차검증을 수행하여 모델의 성능을 비교함으로써 학습 시간이 최소화될 수 있다.

특히, 트레이닝부(112)는, 4 개의 모델(810)에 대한 트레이닝 과정에서 최대 깊이를 적절히 설정함으로써, 과적합을 방지하는 데 중점을 둔다.

트레이닝부(112)는, 4 개의 모델(810)에 대한 트레이닝이 모두 수행되었는지를 확인하여(S1110), 학습되지 않은 모델이 남아 있는 경우, 이들에 대한 학습 및 검증(S1102 내지 S1106)을 계속하여 수행한다.

4 개의 모델(810)에 대한 학습이 완료된 후, 트레이닝부(112)는 4 개의 모델 간의 성능을 비교하여, 추론 모델을 선정한다(S1112).

트레이닝부(112)는 선정된 추론 모델에 대한 하이퍼파라미터 최적화를 수행한다(S1114).

전술한 바와 같은, 학습 소요 시간에 대한 감축 방안을 이용하여 트레이닝된 추론 모델에 대해, 트레이닝부(112)는 하이퍼파라미터를 적정 범위 내에서 조정하여 성능을 향상시킨다. 대표적인 방법으로는 그리드 검색(grid search)이 이용될 수 있으나, 모든 경우의 하이퍼파라미터 설정에 대해 성능을 확인하기 때문에, 소요 시간이 길어진다는 단점이 있다.

이를 개선하기 위해, 본 실시예에 따른 트레이닝부(112)는 임의 검색(random search) 방법을 기반으로 하이퍼파라미터를 조정할 수 있다. 임의 검색에서는, 하이퍼파라미터를 임의로 설정하고, 추론 모델의 성능을 확인하되, 기설정된 회수만큼 임의 설정 및 성능 확인이 수행될 수 있다. 트레이닝부(112)는, 가장 좋은 성능을 보이는 경우에 대한 하이퍼파라미터를 찾아냄으로써, 하이퍼파라미터에 대한 최적화를 수행할 수 있다.

본 개시의 다른 실시예에 있어서, 트레이닝부(112)는, 기설정된 회수 동안 임의 검색을 수행함에 있어서, 임의의 하이퍼파라미터에 대해, 추론 모델이 기설정된 성능을 만족하는 경우, 임의의 하이퍼파라미터를 최적 하이퍼파라미터로 선정하고, 임의 검색을 종료할 수 있다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 하이퍼파라미터 최적화를 추론 모델에 대해서만 적용하고, 또한 임의 검색에 기반하는 최적화를 수행함으로써, 추론 모델의 학습 시간을 최소한으로 감소시키는 것이 가능해지는 효과가 있다.

본 실시예에 따른 분석 시스템(100)이 탑재되는 디바이스(미도시)는 프로그램가능 컴퓨터일 수 있으며, 서버(미도시)와 연결이 가능한 적어도 한 개의 통신 인터페이스를 포함한다.

전술한 바와 같은 추론 모델에 대한 트레이닝은, 분석 시스템(100)이 탑재되는 디바이스의 컴퓨팅 파워를 이용하여 분석 시스템(100)가 탑재되는 디바이스에서 진행될 수 있다.

전술한 바와 같은 추론 모델에 대한 트레이닝은 서버에서 진행될 수 있다. 디바이스 상에 탑재된 분석 시스템(100)의 구성요소인 추론 모델과 동일한 구조의 머신 러닝 모델에 대하여 서버의 트레이닝부는 트레이닝을 수행할 수 있다. 디바이스와 연결되는 통신 인터페이스를 이용하여 서버는 트레이닝된 머신 러닝 모델의 파라미터를 디바이스로 전달하고, 전달받은 파라미터를 이용하여 분석 시스템(100)은 추론 모델의 파라미터를 설정할 수 있다. 또한, 분석 시스템(100)이 디바이스에 탑재되는 시점에, 추론 모델의 파라미터가 설정될 수 있다.

도 12는 본 개시의 일 실시예에 따른 품질데이터 분석방법에 대한 흐름도이다.

분석 시스템(100)은 제품에 대한 품질데이터를 획득한다(S1200). 품질데이터는 제품의 생산과정에(서) 적용되거나 발생하는, 복수의 공정인자에 대해 수집될 수 있다. 품질데이터 분석을 위해 입력되는 공정인자는, 추론 모델에 대한 사전 트레이닝과정에서 선정된 주요 공정인자일 수 있다.

분석 시스템(100)은, 추론 모델의 입력으로 이용되는 공정인자에 대해, 범주형, 숫자형 등의 데이터 유형을 설정할 수 있다. 이때, 분석 시스템(100)은 UI부(110)를 이용하여, 분석에 필요한 입력(예컨대, 품질데이터, 공정인자의 유형 등)을 사용자로부터 획득할 수 있다.

한편, 분석 시스템(100)은 타겟 출력으로 이용되는 공정인자를 타겟 인자로 설정한다.

분석 시스템(100)은 품질데이터에 대한 전처리과정을 수행한다(S1202).

범주형 공정인자에 대해, 추론 모델에 적합한 임베딩 값으로 변환하는 인코딩 과정이 수행될 수 있다.

범주형 데이터의 예로는, 제품에 대한 필드클레임 발생 유무를 나타내는 타겟 인자를 들 수 있다. 따라서, 이러한 타겟 인자에 대한 인코딩은, 추론 모델에 기반하는 품질 분석을 위한 분석용 레이블을 생성하는 과정일 수 있다.

또한, 분석 시스템(100)은 수집과정에서 누락된 공정인자의 값을 설정할 수 있다. 예컨대, 숫자형 공정인자는 중앙값(median value)으로 설정되고, 범주형 공정인자는 최빈값(mode value)으로 설정될 수 있다.

분석 시스템(100)은 전처리된 복수의 공정인자를 기반으로 추론 모델을 이용하여 제품의 양 또는 불량 여부에 대한 판정 결과를 생성한다(S1204). 여기서, 판정 결과는 제품의 양 또는 불량에 대한 확률값일 수 있다.

추론 모델은 머신 러닝 모델 형태로 구현되는데, 트리 기반의 결정 트리, 랜덤 포레스트, XGBoost, 또는 LightGBM과 같은 4 가지 머신 러닝 알고리즘 중 하나가 구현된 모델일 수 있다. 트레이닝 과정을 이용하여, 트레이닝부(112)는, 4 가지 머신 러닝 알고리즘 각각을 적용한 모델 중에서 가장 성능이 좋은 모델을 추론 모델로 선정할 수 있다.

분석 시스템(100)은 복수의 공정인자, 분석용 레이블 및 판정 결과를 기반으로, 제품의 품질에 대한 분석리포트를 생성한다(S1206). 판정 결과(제품의 양 또는 불량)에 미치는 공정인자별 영향을 포괄적/미시적으로 나타내기 위해, 분석리포트는 분석데이터 요약(202), 공정인자 중요도(204), 공정인자별 데이터 분포(206), 및 분석결과(208)의 전부 또는 일부를 포함할 수 있다.

분석 시스템(100)은 UI부(110)를 이용하여, 사용자에게 분석리포트를 제공한다(S1208).

도 13은 본 개시의 일 실시예에 따른 시뮬레이터를 기반으로 품질관리 기준을 변경하는 방법에 대한 흐름도이다.

시뮬레이터는, 인자값 조절을 위한 조정 공정인자를 선정하고, 조정 공정인자에 대한 조정 인자값을 획득한다(S1300). 시뮬레이터는, 도 7에 예시된 바와 같은 UI부(110)를 이용하여, 조정 공정인자를 선정한 후, 이들에 대한 조정된 공정인자값을 사용자로부터 획득할 수 있다.

조정 공정인자의 선정에는 체크박스가 이용될 수 있다. 체크박스가 선택된 공정인자에 대해, 공정인자값이 데이터 유형에 따라 조정될 수 있다.

선정된 공정인자가 범주형인 경우, 체크박스를 이용하여, 사용자가 원하는 공정인자값의 범주가 선택될 수 있다. 숫자형인 경우, 슬라이더를 이용하여, 공정인자의 값이 조절될 수 있다.

또한, 공정인자에 대한 T-테스트 결과를 참조하여, 제품에 대한 불량 분포를 최소화할 수 있도록 해당 공정인자값이 조정될 수 있다.

조정 공정인자는, 추론 모델에 대한 사전 트레이닝 과정에서 선정된 주요 공정인자의 전부 또는 일부일 수 있다.

또한, 조정 공정인자로는, 전술한 바와 같은 입력인자가 선정될 수 있다.

시뮬레이터는 추론 모델을 이용하여, 조정 공정인자를 기반으로 제품의 양 또는 불량 여부에 대한 확률을 생성한다(S1302). 전술한 바와 같이, 추론 모델이 생성하는 판정 결과는 제품의 양 또는 불량에 대한 확률값일 수 있다.

시뮬레이터는 불량에 대한 확률이 기설정된 기준 확률 미만인지를 확인한다(S1304). 불량에 대한 확률이 기준 확률 이상인 경우, 시뮬레이터는 조정된 공정인자를 신규로 획득하여, 시뮬레이션하는 과정(S1300 내지 S1304)을 반복하여 수행한다.

불량에 대한 확률이 기준 확률 미만인 경우, 시뮬레이터는 조정 인자값을 조정 공정인자에 대한 최적 인자값으로 선정한다(S1306).

시뮬레이터는, 최적 인자값을 기반으로 조정 공정인자에 대한 품질관리 기준을 변경한다(S1308). 변경된 품질관리 기준은, 추후 제품에 대한 생산과정에 적용될 수 있다.

도 14는 본 개시의 일 실시예에 따른 추론 모델의 트레이닝 방법에 대한 흐름도이다.

트레이닝부(112)는, 추론 모델의 트레이닝에 사용하기 위해, 제품에 대한 품질데이터를 획득한다(S1410). 품질데이터는 제품의 생산과정에(서) 적용되거나 발생하는, 복수의 공정인자에 대해 수집될 수 있다.

트레이닝부(112)는, 트레이닝에 사용되는 공정인자에 대해 데이터 유형을 설정할 수 있다.

한편, 품질데이터는, 추론 모델의 트레이닝 과정에서 타겟 출력(즉, 학습용 레이블)으로 이용될 수 있는 인자(예컨대, 제품에 대한 필드클레임 발생 유무)를 포함할 수 있다. 트레이닝부(112)는 타겟 출력으로 이용되는 인자를 타겟 인자로 설정한다.

트레이닝부(112)는, 품질데이터에 대한 전처리과정을 수행한다(S1402).

트레이닝부(112)는, 범주형 공정인자에 대해, 추론 모델에 적합한 임베딩 값으로 변환하는 인코딩 과정을 수행할 수 있다. 또한, 트레이닝부(112)는 수집과정에서 누락된 공정인자의 값을 설정할 수 있다. 예컨대, 숫자형 공정인자는 중앙값으로 설정되고, 범주형 공정인자는 최빈값으로 설정될 수 있다.

범주형 데이터인 타겟 인자에 대한 인코딩은, 추론 모델의 트레이닝을 위한 학습용 레이블을 생성하는 과정일 수 있다.

트레이닝부(112)는, 품질데이터에 포함된 다수의 공정인자로부터 타겟 인자에 영향력이 높은 주요 공정인자를 선정한다(S1404).

공정인자의 개수가 기설정된 개수보다 큰 경우, 트레이닝부(112)는, 전술한 바와 같은 주요 공정인자를 산출하는 과정을 수행하여, 기설정된 개수 이하가 되도록 주요 공정인자를 선별할 수 있다. 주요 공정인자를 산출하는 과정으로는 T-테스트, 정보 이득의 비교, 및 상관관계 분석의 전부 또는 일부가 수행될 수 있다.

트레이닝부(112)는, 주요 공정인자에 대해, 불량 데이터에 대한 데이터 균형화를 수행한다(S1406). 트레이닝부(112)는 불량 데이터를 업샘플링(upsampling)하여 불량 데이터의 개수를 증강시킴으로써, 불량 데이터와 양품 데이터 간의 균형을 성취할 수 있다.

트레이닝부(112)는, 4 개 머신 러닝 모델(810)에 대한 트레이닝을 수행한다(S1408).

트레이닝부(112)는 균형화된 품질데이터를 학습용 데이터 및 검증용 데이터로 분할한 후, 학습용 데이터 및 학습용 레이블을 기반으로 4 개 머신 러닝 모델(810) 각각에 대한 트레이닝을 수행한다. 또한, 트레이닝부(112)는 학습된 머신 러닝 모델들에 대해, 검증용 데이터를 기반으로 교차 검증을 수행한 후, 각 모델에 대한 성능을 저장한다.

트레이닝부(112)는, 4 개의 모델(810)에 대한 트레이닝 과정에서 최대 깊이를 적절히 조절함으로써, 과적합을 방지하는 데 중점을 둘 수 있다.

4 개의 모델(810)에 대한 학습이 완료된 후, 트레이닝부(112)는 4 개의 모델(810) 간의 성능을 비교함으로써, 최적의 모델을 추론 모델로 선정한다(S1410). 트레이닝부(112)는, F1 스코어가 가장 높은 모델을 최종적인 추론 모델로 선정할 수 있다.

본 실시예에 따른 분석 시스템(100)은, 품질데이터에 포함된 공정인자의 편향 문제를 해결하기 위해, 공정인자의 품질관리 기준을 개선하는 방안을 이용한다.

이하, 도 15 및 도 16을 이용하여, 분석 시스템(100)이 수행하는, 공정인자의 품질관리 기준을 개선하는 방안에 대해 설명한다.

도 15는 본 개시의 일 실시예에 따른 공정인자에 대한 품질관리 기준 개선장치에 대한 개략적인 구성도이다.

본 실시예에 따른 품질관리 기준 개선장치는, 분석 시스템(100)에 포함되고, 제품에 대한 공정인자와 필드클레임 간의 영향 정도(이하, '영향도')를 기반으로, 영향도가 낮은 공정인자에 대한 품질관리 기준을 조정한다. 품질관리 기준 개선장치는 입력부(102), 영향 분석부(1504), 관리범위 조정부(1506), 데이터 재수집부(1508), 및 세분화 수집부(1510)의 전부 또는 일부를 포함할 수 있다.

입력부(102)는 제품에 대한 품질데이터와 필드클레임을 획득한다. 품질데이터는 제품의 생산과정에(서) 적용되거나 발생하는, 복수의 공정인자에 대해 수집될 수 있다. 한편, 필드클레임은, 제품에 대한 양 또는 불량을 나타낼 수 있으며, 추후 트레이닝을 위한 타겟 인자로 설정될 수 있다.

영향 분석부(1504)는 품질데이터에 포함된 공정인자와 필드클레임 간의 영향도를 분석한다. 영향도를 분석하는 방법으로는, 전술한 바와 같은, 주요 공정인자 선정과정에서 이용되었던 방식들(예컨대, T-테스트, 정보 이득의 산정, 상관관계 분석 등)이 이용될 수 있다. 이러한 영향 분석을 기반으로, 영향 분석부(1204)는 영향도 순서대로 공정인자를 배열할 수 있다.

즉, 영향 분석부(1504)는 T-테스트를 이용하여, 제품의 양 또는 불량과 통계적인 유의성을 갖는 공정인자를 선별한다. 영향 분석부(1504)는 선별된 공정인자들 간의 정보 이득을 비교하여, 정보 이득이 높은 순으로 배열을 생성할 수 있다. 영향 분석부(1504)는 배열된 공정인자 간의 상관관계를 분석하여, 상관계수가 기설정된 기준치보다 큰 두 공정인자의 경우 둘 중의 하나(예컨대, 정보 이득이 낮은 공정인자)를 배열에서 제거한다. 이는, 상관관계가 높은 두 공정인자 모두에 대해 관리범위가 조정될 경우, 상충된 조정 결과가 발행할 수 있기 때문이다. 따라서, 영향도 순서는, 통계적인 유의성 및 상관관계가 반영된 정보 이득이 높은 순서일 수 있다.

관리범위 조정부(1506)는, 영향도가 상위 20 % 이내에 들지 못하는 편향 공정인자에 대해, 편향 공정인자의 관리범위를 확대한다. 편향 공정인자의 관리범위를 확대하기 위해, 분석 시스템(100)은 기존 관리범위의 하한값을 더 하향시키거나 상한값을 더 상향시킴으로써, 생산과정에서 수집되는 데이터의 범위를 확대시킬 수 있다.

데이터 재수집부(1508)는, 확대된 관리범위를 기반으로, 품질데이터를 재수집한다. 분석 시스템(100) 또는 서버에 포함된 저장장치를 이용하여, 데이터 재수집부(1208)는 품질데이터를 재수집하여 저장할 수 있다. 생산과정 또는 공정인자의 특성에 따라, 이러한 재수집 과정은 수일, 수주, 또는 수개월 이상이 소요될 수 있다.

한편 영향 분석부(1504)는, 관리범위가 조정된 후, 재수집된 품질데이터에 포함된 공정인자와 필드클레임 간의 영향도를 분석할 수 있다. 영향 분석을 기반으로, 영향도 순으로 공정인자가 재배열될 수 있다. 재수집된 품질데이터에 있어서, 영향도가 상위 20 % 이내에 들지 못하는 편향 공정인자에 대해, 영향 분석부(1204)는 기존 관리범위를 유지할 수 있다.

데이터세분화 수집부(1510)는, 입력된 품질데이터 또는 재수집된 품질데이터에 있어서, 영향도가 상위 20 % 이내인 공정인자에 대해, 관리범위 내의 데이터를 세분화한 후 재수집한다. 관리범위 내의 데이터를 세분화한 후 재수집함으로써, 품질데이터가 관리범위 내에 고르게 존재할 수 있도록 할 수 있다.

도 16은 본 개시의 일 실시예에 따른 공정인자의 품질관리 기준을 개선하는 방법에 대한 흐름도이다.

분석 시스템(100)은 품질데이터에 포함된 공정인자와 필드클레임 간의 영향도를 분석한다(S1600). 영향도를 분석하는 방법으로는, 전술한 바와 같은, 주요 공정인자 선정과정에서 이용되었던 방식들(예컨대, T-테스트, 정보 이득의 산정, 상관관계 분석 등)이 이용될 수 있다. 영향 분석을 기반으로, 분석 시스템(100)은 영향도 순서대로 공정인자를 배열할 수 있다. 여기서, 영향도 순서는, 통계적인 유의성 및 상관관계가 반영된 정보 이득이 높은 순서일 수 있다.

분석 시스템(100)은 공정인자의 영향도가 상위 20 % 이내인지를 확인한다(S1602).

분석 시스템(100)은, 영향도가 20 % 이내에 들지 못하는 편향 공정인자에 대해, 편향 공정인자의 관리범위를 확대한다(S1604). 편향 공정인자의 관리범위를 확대하기 위해, 분석 시스템(100)은 기존 관리범위의 하한값을 더 하향시키거나 상한값을 더 상향시킴으로써, 생산과정에서 수집되는 데이터의 범위를 확대할 수 있다.

분석 시스템(100)은, 확대된 관리범위를 기반으로, 품질데이터를 재수집한다(S1606). 분석 시스템(100) 또는 서버에 포함된 저장장치를 이용하여, 분석 시스템(100)은 품질데이터를 재수집하여 저장할 수 있다.

분석 시스템(100)은, 관리범위가 확대된 채로 재수집된 공정인자에 대해, 공정인자와 필드클레임 간 영향도를 분석한다(S1608). 영향 분석을 기반으로, 분석 시스템(100)은 영향도 순으로 공정인자를 재배열할 수 있다.

분석 시스템(100)은 공정인자의 영향도가 상위 20 % 이내인지를 확인한다(S1610).

분석 시스템(100)은, 영향도가 상위 20 % 이내에 들지 못하는 편향 공정인자에 대해, 기존 관리범위를 유지한다(S1612).

한편, 분석 시스템(100)은, 관리범위가 확대된 편향 공정인자를 포함하여 영향도가 상위 20 % 이내인 공정인자에 대해(S1602 및 S1610), 관리범위 내의 데이터를 세분화한 후 재수집한다(S1614). 관리범위 내의 데이터를 세분화한 후 재수집함으로써, 품질데이터가 관리범위 내에 고르게 존재할 수 있도록 할 수 있다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 관리범위 내의 데이터를 세분화한 후 재수집하는 분석 시스템을 제공함으로써, 공정인자의 편향의 영향을 감소시키고, 품질데이터 분석의 효율을 증대시키는 것이 가능해지는 효과가 있다.

본 실시예에 있어서, 전술한 바와 같이, 품질 분석의 대상이 되는 제품은 기어박스와 같은, 차량에 포함되는 부품일 수 있다. 복합 시스템인 차량 전체에 비해, 기어박스는, 본 실시예에 따른 분석 시스템(100)을 기반으로 품질 분석을 수행하기에 적절한 규모의 시스템이다. 즉, 머신 러닝 기반의 추론 모델은, 트레이닝 과정을 이용하여, 기어박스에 대한 다수의 공정인자와 필드클레임(즉, 제품의 양 또는 불량) 간의 인과 관계를 모델링할 수 있다. 또한, 트레이닝된 추론 모델을 이용하여, 특정한 공정인자에 대한 품질관리 기준을 조정함으로써, 기어박스의 불량 발생률을 감소시킬 수 있다.

한편, 기어박스에 대한 품질데이터를 구성하는 공정인자로는, 피니언 플러그 체결 토크, lock ring 압입깊이, 피니언 그리스 도포량, lock ring 코킹량, 피니언 플러그 LDVT 높이, 코킹하중, 4점 베어링 압입깊이, rack bar 하중(LH 방향), rack bar 하중(RH 방향), 요크 압입하중 등을 들 수 있다. 본 실시예는 기어박스와 같은 제품에 대한 품질분석에 대한 발명이므로, 기어박스의 공정인자에 대해 자세한 설명을 생략한다.

이하, 본 실시예에 따른 분석 시스템(100)을 기어박스의 품질분석에 적용한 사례에 대해 설명한다.

도 17은 본 개시의 일 실시예에 따른 분석 시스템을 기어박스에 적용하는 과정에 대한 흐름도이다.

먼저, 기어박스에 대한 품질 분석에 이용되는 추론 모델을 선정하는 과정을 설명한다.

분석 시스템(100)은 기어박스에 대한 품질데이터를 획득한다(S1700).

일반적으로, 품질시스템에서 관리되는 필드클레임 데이터와 달리, 공정인자 데이터는 제조시스템(Manufacture Executive System: MES)에서 별도로 축적 및 관리되므로, 품질분석을 위해서는 두 데이터가 통합되어야 한다. 기어박스라는 제품 식별자(ID)를 기준으로 두 데이터를 통합하는 것이 가능한데, 두 가지 방안이 이용될 수 있다.

첫 번째는, 필드클레임의 종류에 따라 공정인자 데이터를 분류하여 통합하는 방안이다. 기어박스의 경우, 진동, 소음, 파손 등과 같이 다양한 필드클레임의 존재하므로, 이들을 각각을 클래스로 분류하여 데이터 분석을 진행할 수 있다. 첫 번째 방안은 필드클레임 종류별로 세밀한 원인분석이 가능하다는 장점을 가지나, 필드클레임 종류별 데이터가 적을 경우 분석 결과가 편향된다는 문제가 있다.

두 번째는, 필드클레임 종류와는 상관없이 필드클레임 발생 유무에 따라 공정인자 데이터를 양 또는 불량으로 이원화하여 통합하는 방안이다. 이 방안은 데이터를 분류하는 작업이 간단하여 시간 소모가 적고, 일부 필드클레임에 대한 데이터가 적더라도 보편적인 분석이 가능하다는 장점이 있다. 본 실시예에 있어서, 분석 시스템(100)은 두 번째 방안에 따라 통합된 품질데이터를 획득하나, 반드시 이에 한정하는 것은 아니다. 본 개시에 따른 다른 실시예에 있어서, 클래스에 따른 필드클레임 발생 유무를 추론하도록 추론 모델이 트레이닝될 수 있다.

한편, 통합된 품질데이터는, 전술한 바와 같이, 추론 모델의 트레이닝에 이용될 수 있다.

분석 시스템(100)은, 트레이닝에 사용되는 공정인자에 대해 데이터 유형을 설정할 수 있다. 여기서 공정인자의 데이터 유형은, 수치로 표현되는 숫자형, 문자로 표현되는 범주형, 및 데이터가 수집된 시간 정보를 포함하는 시간형을 포함할 수 있다.

한편, 통합된 품질데이터는, 추론 모델의 트레이닝 과정에서 타겟 출력(즉, 학습용 레이블)으로 이용될 수 있는 인자(예컨대, 기어박스에 대한 필드클레임 발생 유무)를 포함한다. 분석 시스템(100)은 타겟 출력으로 이용되는 인자를 타겟 인자로 설정한다.

분석 시스템(100)은, 도 9에 예시된 바와 같이, 품질데이터에 대한 전처리과정을 수행한다(S1702).

품질데이터가 수집된 시간은, 제품의 양 또는 불량과 연관 관계가 적다고 판단하여, 시간형 공정인자는 트레이닝을 위한 품질데이터에서 제거된다.

범주형 데이터인 경우, 분석 시스템(100)은 추론 모델에 적합한 임베딩 값으로 변환하는 인코딩 과정을 수행한다.

범주형 데이터의 예로는, 제품에 대한 필드클레임 발생 유무를 나타내는 타겟 인자를 들 수 있다. 이러한 타겟 인자에 대한 인코딩은, 추론 모델의 트레이닝을 위한 학습용 레이블을 생성하는 과정이다.

숫자형 데이터, 및 인코딩된 범주형 데이터에 대해, 분석 시스템(100)은 수집과정에서 발생한 누락 데이터를 처리한다. 이때, 범주형 데이터는 최빈값으로, 숫자형 데이터는 중앙값으로 설정될 수 있다. 한편, 누락이 심한 공정인자의 경우, 추론 모델의 트레이닝에 방해가 될 수 있다. 따라서, 분석 시스템(100)은, 누락률이 기설정된 비율보다 큰 공정인자를 트레이닝 과정에서 제거할 수 있다.

한편, 공정인자의 개수가 20 개보다 많은 경우, 분석 시스템(100)은, 도 10에 예시된 바와 같이, 트레이닝을 위한 주요 공정인자를 선정하는 과정을 수행할 수 있다. 기어박스와 관련된 도 17 예시에는, 주요 공정인자를 선정하는 과정이 생략되어 있는데, 이는 기어박스의 품질데이터를 구성하는 공정인자의 개수가 20 개 이하였기 때문이다.

분석 시스템(100)은 공정인자에 대한 데이터 균형화를 수행한다(S1704).

분석 시스템(100)은 불량 데이터를 업샘플링(upsampling)하여 불량 데이터의 개수를 증강시킴으로써, 불량 데이터와 양품 데이터 간의 균형을 성취한다. 예컨대, 분석 시스템(100)은 kNN 모델 기법을 이용하여 데이터 분포 내에서 유사한 데이터를 생성할 수 있다.

분석 시스템(100)은, 4 개의 머신 러닝 모델(810)에 대한 학습을 수행한 후, 최적 모델을 선정하여 추론 모델로 결정한다(S1706).

분석 시스템(100)은, 도 11에 예시된 바와 같이, 기어박스와 관련된 품질데이터 및 학습용 레이블을 이용하여 4 개의 머신 러닝 모델(810)에 대한 학습을 수행하여, 4 개의 머신 러닝 모델(810)에 대한 학습 성능을 기반으로 추론 모델을 선정할 수 있다.

본 실시예에 있어서, 4 개의 머신 러닝 모델(810)에 대한 트레이닝을 수행한 결과, 추론 모델로는 랜덤 포레스트 알고리즘을 구현한 모델이 선정되었다. 트레이닝 과정에서, 최대 깊이를 중심으로 하이터파라미터를 최적화하여, 추론 모델에 대해 최적 성능을 달성하였다.

한편, 근래 일반적으로 활용되는 알고리즘은 XGBoost 또는 LightGBM과 같은 부스팅 계열 알고리즘이다. 하지만, 데이터 불균형이 심한 품질데이터 특성상, 최대 깊이를 조절하여 과적합을 방지하는 방안을 이용되기 때문에, 랜덤 포레스트와 같은 배깅 계열 알고리즘이 더 좋은 결과를 생성할 수 있다.

이하, 추론 모델을 이용하여, 기어박스의 공정인자를 조정하는 과정을 설명한다.

분석 시스템(100)은 품질관리 기준 조정을 위한 공정인자를 선정한다(S1708).

분석 시스템(100)은, 필드클레임 발생 유무에 대한 공정인자의 영향을 분석하여(S1730 내지 S1734), 영향도가 큰 공정인자를 선정한다.

분석 시스템(100)은 공정인자에 대한 특성 중요도를 비교한다(S1730).

분석 시스템(100)은, 랜덤 포레스트 알고리즘을 구현한 추론 모델이 트레이닝 과정에서 생성한 특성 중요도를 비교하여, 공정인자를 일차적으로 선별한다.

도 18은 본 개시의 일 실시예에 따른 기어박스의 공정인자에 대한 특성 중요도를 나타내는 예시도이다.

도 18의 예시에서, 'worst'의 의미는, 공정인자의 특성 중요도가 기설정된 기준치보다 커서, 필드클레임의 발생에 미치는 영향이 크다는 것을 나타낸다. 한편, 전술한 바와 같이, 이러한 특성 중요도는, 분석리포트의 일부로서 UI부(110)를 이용하여 사용자에게 제공될 수 있다.

분석 시스템(100)은, 공정인자에 대한 T-테스트를 수행한다(S1732). 분석 시스템(100)은, 특성 중요도가 높은 공정인자에 대해, 기어박스의 양 또는 불량 분포와의 유의성을 검증하는 T-테스트를 실시하여, 공정인자를 이차적으로 선별한다.

도 19는 본 개시의 일 실시예에 따른 T-테스트를 나타내는 예시도이다.

여기서, T-테스트의 예로서 이용된 기어박스의 공정인자는 'lock ring 압입깊이'이고, 검정결과는 유의함을 나타내고 있다. 한편, 전술한 바와 같이, 이러한 T-테스트의 기반이 되는 공정인자별 데이터 분포는, 분석리포트의 일부로서 UI부(110)를 이용하여 사용자에게 제공될 수 있다.

분석 시스템(100)은, 공정인자에 대한 상관관계를 확인한다(S1734).

분석 시스템(100)은, T-테스트까지 통과한 공정인자 간의 상관관계를 확인한 후, 두 공정인자 간의 상관계수가 기설정된 기준치보다 큰 경우, 특성 중요도가 높은 공정인자를 선별한다.

결론적으로, 도 18에 예시된 공정인자들은, 전술한 바와 같은 영향 분석에 따라, 기어박스의 불량 발생에 미치는 영향이 크다고 판정된 공정인자들을 나타낸다. 또한, 이들은 모두 조정이 가능한 공정인자(즉, 입력인자)들이다.

분석 시스템(100)은, 선정된 공정인자에 대한 품질관리 기준을 변경한다(S1710)

공정인자의 분포를 기반으로, 조정이 가능한 관리범위 내에서 기어박스의 불량 분포를 최소화할 수 있도록 품질관리 기준이 변경될 수 있다. 이때, 공정인자의 분포는, 분포를 규정하는 모수가 사전에 추정된 후, 품질관리 기준의 변경에 이용될 수 있다.

표 1은 기어박스의 공정인자에 대해, 품질관리 기준의 변경 전후를 나타낸다.

예컨대, 도 19에 예시된 바와 같은, T-테스트 결과를 기반으로 기어박스의 불량 분포를 최소화할 수 있도록, lock ring 압입깊이에 대한 품질관리 기준이 변경될 수 있다.

분석 시스템(100)은, 추론 모델을 시뮬레이터로 이용하여, 변경된 품질관리 기준에 따른 기어박스의 양 또는 불량에 대한 확률값을 생성함으로써, 품질관리 기준이 적절하게 변경되었는지를 확인할 수 있다. 예컨대, 기어박스의 불량에 대한 확률이 기준 확률 이상인 경우, 품질관리 기준을 획득하고, 판정 결과를 다시 생성함으로써, 품질관리 기준이 적절하게 변경되었는지를 반복적으로 확인할 수 있다.

표 1에 나타낸 공정인자들에 대해, 변경후의 품질관리 기준을 기어박스의 생산과정에 적용할 경우, 해당 공정인자에 기인하는 불량 발생률을 최소 10 %에서 최대 90 %까지 감소시킬 수 있을 것으로 예상되었다. 실제로, lock ring 코킹량, 피니언 플러그 LVDT 높이, 4점 베어링 압입깊이 등과 같은 공정인자에 대해, 변경된 품질관리 기준을 기어박스의 생산과정에 적용한 결과, 해당 공정인자에 기인하는 불량 발생률의 감소를 확인하였다.

이상의 설명에서, 추론 모델이 품질관리 기준의 변경을 위해 사용되었으나, 추론 모델은 품질분석을 위해서도 활용될 수 있다. 예컨대, 기어박스에 대한 생산과정에 신규 품질관리 기준이 적용하고, 추후 생산과정에서 수집된 품질데이터의 특성을 확인하기 위해, 추론 모델이 활용될 수 있다.

본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는　기록매체"에 저장된다.

컴퓨터가 읽을 수 있는　기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는　기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있다. 또한 컴퓨터가 읽을 수 있는　기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 품질데이터 분석 시스템
102: 입력부 104: 데이터 전처리부
106: 판정부 108: 데이터 시각화부
110: UI부 112: 트레이닝부
202: 분석데이터 요약 204: 공정인자 중요도
206: 공정인자별 데이터 분포
208: 분석결과
302: 공정인자 조정부 304: 판정결과 출력부
306: 중요인자 출력부 308: 기준적용부
806: 공정인자 선정부 808: 데이터 균형화부
1504: 영향 분석부 1506: 관리범위 조정부
1508: 데이터 재수집부 1510: 데이터세분화 수집부

Claims

컴퓨팅 장치가 수행하는, 기어박스에 대해 품질관리 기준을 조정하는 방법에 있어서,
상기 기어박스에 대한 주요 공정인자에 대해, 상기 기어박스의 양 또는 불량 유무에 대한 영향을 분석하여 조정 공정인자를 선정하는 과정, 여기서, 상기 주요 공정인자는, 추론 모델에 대한 선정되는 트레이닝 과정에서 사전에 선정됨;
UI(User Interface)부를 이용하여, 상기 조정 공정인자에 대한 조정 인자값을 획득하는 과정:
상기 추론 모델를 이용하여 상기 조정 공정인자를 기반으로 판정 결과를 생성하는 과정, 여기서, 추론 모델은 상기 트레이닝 과정에서 선정된 랜덤 포레스트(random forest) 알고리즘 기반 모델이고, 상기 판정 결과는 상기 기어박스에 대한 필드클레임의 발생 유무로서, 상기 기어박스의 양 또는 불량 여부에 대한 확률을 나타냄; 및
상기 기어박스의 불량에 대한 확률을 기반으로, 상기 조정 인자값을 이용하여 상기 조정 공정인자에 대한 품질관리 기준을 변경하는 과정
을 포함하는, 품질관리 기준을 조정하는 방법.
제1항에 있어서,
상기 획득하는 과정은,
상기 조정 공정인자의 데이터 유형에 따라 상기 조정 인자값을 조정하되, 상기 조정 공정인자의 분포를 기반으로 상기 품질관리 기준을 변경하여, 상기 기어박스의 불량 분포를 최소화하도록 하는, 품질관리 기준을 조정하는 방법.
제2항에 있어서,
상기 조정 공정인자의 분포는, 상기 분포를 규정하는 모수가 사전에 추정되는, 품질관리 기준을 조정하는 방법.
제2항에 있어서,
상기 획득하는 과정은,
상기 조정 공정인자의 데이터 유형이 범주형(category type)인 경우, 체크박스를 이용하여, 상기 조정 인자값의 범주가 선택되고, 상기 데이터 유형이 숫자형(numerical type)인 경우, 슬라이더(slider)를 이용하여, 상기 조정 인자값이 조정되는, 품질관리 기준을 조정하는 방법.
제4항에 있어서,
상기 획득하는 과정은,
상기 주요 공정인자 중 상기 조정 공정인자에서 제외된 공정인자에 대해, 상기 범주형인 경우 최빈값(mode value)으로 상기 공정인자의 값을 설정하거나, 상기 숫자형인 경우 중앙값(median value)으로 상기 공정인자의 값을 설정하는, 품질관리 기준을 조정하는 방법.
제1항에 있어서,
상기 트레이닝 과정은,
상기 기어박스에 대한 학습용 품질데이터 및 해당되는 레이블을 이용하여, 트리를 기반으로 구현되는, 결정 트리(decision tree), 상기 랜덤 포레스트(random forest), XGBoost(Extreme Gradient Boosting), 및 LightGBM(Light Gradient Boosting Model) 알고리즘을 구현한 4 개의 머신 러닝 모델을 트레이닝하되, 상기 레이블을 기반으로 상기 트리를 구성하는 각 분기에서의 정보 이득(information gain)을 최대화하는 방향으로 상기 각 머신 러닝 모델에 대한 트레이닝을 수행하는, 품질관리 기준을 조정하는 방법.
제6항에 있어서,
상기 트레이닝 과정은,
상기 학습용 품질데이터를 구성하는 공정인자의 개수가 기설정된 개수를 초과하는 경우, 상기 공정인자에 T-테스트를 수행하거나 상기 공정인자의 정보 이득에 대한 비교를 수행하여, 상기 기설정된 개수 이하가 되도록 주요 공정인자를 선별하는, 품질관리 기준을 조정하는 방법.
제6항에 있어서,
상기 트레이닝 과정은,
상기 4 개의 머신 러닝 모델 중, 트레이닝 성능이 가장 좋은 모델을 상기 추론 모델로 선정하되, 상기 트레이닝 성능은, 상기 레이블, 및 상기 각 머신 러닝 모델이 생성하는 판정 결과에 기반하는 정확도, 정밀도, 리콜, 및 F1 스코어를 포함하는, 품질관리 기준을 조정하는 방법.
제7항에 있어서,
상기 트레이닝 과정은,
상기 트리 기반 머신 러닝 모델에 대한 트레이닝의 결과물로서 상기 주요 공정인자에 대한 특성 중요도(feature importance)를 생성하는, 품질관리 기준을 조정하는 방법.
제9항에 있어서,
상기 선정하는 과정은,
상기 주요 공정인자에 대해 상기 특성 중요도를 비교하는 과정;
상기 특성 중요도가 높은 주요 공정인자에 대해, 상기 기어박스의 양 또는 불량 분포와의 유의성을 검증하는 T-테스트를 수행하는 과정; 및
상기 T-테스트를 통과한 주요 공정인자 간의 상관관계를 확인하는 과정
을 포함하는, 품질관리 기준을 조정하는 방법.
제10항에 있어서,
사기 상관관계를 확인하는 과정은,
상기 T-테스트를 통과한, 두 주요 공정인자 간의 상관계수가 기설정된 기준치보다 큰 경우, 상기 특성 중요도가 높은 주요 공정인자를 상기 조정 공정인자로 선정하는, 품질관리 기준을 조정하는 방법.
제1항에 있어서,
상기 UI부를 이용하여, 상기 판정 결과를 사용자에게 제공하는 과정을 더 포함하는, 품질관리 기준을 조정하는 방법.
제8항에 있어서,
상기 UI부를 이용하여, 상기 주요 공정인자에 대한 특성 중요도를 사용자에게 제공하는 과정을 더 포함하는, 품질관리 기준을 조정하는 방법.
제1항 내지 제13항 중 어느 한 항에 따른 품질관리 기준을 조정하는 방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.