KR102456012B1

KR102456012B1 - 인공지능 기반의 분류 모델링 장치 및 방법

Info

Publication number: KR102456012B1
Application number: KR1020220070494A
Authority: KR
Inventors: 김은지; 김송일; 정민성; 임준규
Original assignee: 주식회사 애자일소다
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-10-18

Abstract

인공지능 기반의 분류 모델링 장치 및 방법을 개시한다. 본 발명은 분류 모델이 임의의 입력 데이터를 분류하여 1차 분류 결과를 예측하고, 상기 입력 데이터에서 특정 단어를 추출하여 예측된 1차 분류 결과와 추출된 단어를 결합하여 최종 분류 결과를 출력함으로써 분류 정확도를 향상시킬 수 있다.

Description

인공지능 기반의 분류 모델링 장치 및 방법{APPARATUS AND METHOD FOR CLASSIFICATION MODELING BASED ON ARTIFICIAL INTELLIGENCE}

본 발명은 인공지능 기반의 분류 모델링 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 분류 모델이 임의의 입력 데이터를 분류하여 1차 분류 결과를 예측하고, 상기 입력 데이터에서 특정 단어를 추출하여 예측된 1차 분류 결과와 추출된 단어를 결합하여 최종 분류 결과를 출력함으로써 분류 정확도를 향상시킬 수 있는 인공지능 기반의 분류 모델링 장치 및 방법에 관한 것이다.

머신러닝 기반의 분류 모델은 사용을 위해 먼저 학습과정이 필요하다.

분류 모델의 학습을 위한 데이터(즉, 학습 데이터)는 분류 모델이 사용되는 분야에 따라 다양하게 수집될 수 있다.

그러나 웹 마이닝(web mining)부터 텍스트 범주화, 금융공학, 생물의학에 이르기까지 다양한 분야에서 양성 샘플과 음성 샘플의 수집 비율이 맞지 않는 경우가 자주 발생한다.

여기서 양성 샘플이라고 함은 분류모델이 예측하고자 하는 그룹에 속하는 샘플을 의미하고, 음성 샘플은 예측하고자 하는 그룹에 속하지 않는 샘플을 의미한다.

예를 들어, 머신러닝 기반의 분류 모델이 의료영상으로부터 암을 분류하는 모델이라고 하면, 해당 모델의 학습을 위해서 암 상태를 나타내는 의료영상인 양성 샘플과 정상상태를 나타내는 의료영상인 음성 샘플의 비율이 유사한 학습데이터가 필요하다.

그러나 전체 의료영상에서 정상상태의 의료영상 대비 암 상태의 의료영상이 차지하는 비율이 매우 낮다.

또한, 음성 샘플이 양성 샘플에 비해 과도하게 수집되는 문제를 데이터 불균형 문제 또는 비대칭 데이터 문제라고 하며, 머신러닝 기반의 분류모델에서 이는 모델의 성능을 좌우하는 중요한 요소가 된다.

이러한 데이터 불균형 문제를 해결하는 방법으로 언더샘플링(under-sampling)과 오버샘플링(over-sampling)이 사용될 수 있다.

언더샘플링은 과도하게 수집된 음성 샘플의 일부를 추출하여 분류모델의 학습에 사용하는 방법으로, 샘플 추출을 통해 불균형 문제를 일부 해소할 수 있고, 오버샘플링은 적은 비율로 존재하는 양성 샘플을 시드(seed)로 하여 추가 데이터를 인위적으로 생성하는 방법이다.

그러나 언더샘플링은 수집한 전체 데이터를 사용하지 않으므로 정보의 손실이 발생하는 단점이 있고, 오버샘플링은 불균형 문제를 해소하기 위해 양성샘플을 원하는 비율만큼 생성할 수 있지만 생성된 데이터가 실제와 얼마나 일치하는지에 대한 기준이 없으며, 대부분 절대적인 거리(예를 들어, Euclidean distance)를 기준으로 실제와 일치하는지 파악하므로 범주형 데이터엔 적용하기 어려울 뿐만 아니라 계산 시간이 많이 소요되는 문제점이 있다.

또한, 머신러닝 기반의 분류 모델은 임의의 도메인에서 예를 들어, 동일한 부품에 대하여 사용자마다 사용하는 용어, 표현 또는 이미지 등이 서로 달라서 분류하기가 어려운 문제점이 있다.

또한, 머신러닝 기반의 분류 모델은 학습을 위해 최소한의 학습 데이터가 필요한데, 분류된 클래스가 많으면 학습할 데이터도 그 만큼 증가해야 하고, 클래스 1개당 학습 데이터의 개수가 부족하면 분류 모델의 학습 성능이 낮아지는 문제점이 있다.

한국 공개특허공보 공개번호 제10-2021-0143947호(발명의 명칭: 분류 및 의도 결정을 위한 멀티모델 구조)

이러한 문제점을 해결하기 위하여, 본 발명은 분류 모델이 임의의 입력 데이터를 분류하여 1차 분류 결과를 예측하고, 상기 입력 데이터에서 특정 단어를 추출하여 예측된 1차 분류 결과와 추출된 단어를 결합하여 최종 분류 결과를 출력함으로써 분류 정확도를 향상시킬 수 있는 인공지능 기반의 분류 모델링 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 인공지능 기반의 분류 모델링 장치로서, 분류 모델이 임의의 도메인에 대한 입력 데이터로부터 텍스트를 추출하여 작업 구분 정보 및 작업 항목 정보 관련 단어 또는 문자열을 분류하고, 각 분류별 확률 값에 따른 1차 분류 결과를 예측하여 상기 작업 항목 정보에 대한 단어 또는 문자열에서 특정 단어를 추출하되, 상기 추출된 특정 단어와 예측된 1차 분류 결과를 결합하여 최종 분류 결과를 출력하는 분류 모델링 장치인 것을 특징으로 한다.

또한, 상기 실시 예에 따른 분류 모델링 장치는 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시켜 1차 분류하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 도메인은 전자 부품 주문서, 기계 부품 주문서, 가구 주문서, 화장품 주문서, 용기 주문서, 청구서, 처방전, 보험금 내역서, 차량 수리 내역서 및 물품 수리 내역서 중 하나 이상을 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 특정 단어는 방향 정보 및 미리 설정된 세부 정보 중 하나 이상을 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 분류 모델링 장치는 임의의 도메인에서 텍스트 기반의 작업 구분 정보와 작업 항목 정보를 포함한 입력 데이터를 수집하는 데이터 수집부; 상기 수집된 입력 데이터에서 잘못 표기된 단어 또는 문자열을 미리 설정된 룰(Rule)에 기반하여 보정하는 전처리부; 및 분류 모델을 이용하여 상기 보정된 입력 데이터의 텍스트로부터 작업 구분 정보 및 작업 항목 정보와 관련된 단어 또는 문자열을 기반으로 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시켜 분류하여 각 분류별 확률 값에 따른 1차 분류 결과를 예측하고, 상기 작업 항목 정보에 대한 단어 또는 문자열에서 특정 단어를 추출하여 추출된 특정 단어와 상기 예측된 1차 분류 결과를 결합하여 최종 분류 결과를 출력하는 모델링부;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 전처리부는 작업 항목 정보 내에서 작업 구분 정보와 관련된 단어 또는 문자열에 대응하는 작업 구분 값을 추출하고, 미리 설정된 작업 구분 매핑 테이블에서 작업 항목과 작업 구분 값 사이의 우선 순위를 기반으로 작업 구분 값을 올바른 표기로 보정하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 모델링부는 텍스트를 입력 값으로 변환하는 입력부; 상기 입력 값의 텍스트 의미를 사전 학습된 버트(BERT) 모델을 이용하여 분석하고, 문맥 벡터(Context vector)로 변환하는 의미 분석부; 상기 의미 분석부에서 벡터화된 입력 값을 다중 분류(Multi label classification)를 통해 분류하되, 각 분류별 확률 값에 따른 1차 분류 결과를 예측하는 다중 분류부; 상기 예측된 값과 실제 레이블링 값을 이진 크로스 엔트로피(Binary cross entropy)에 기반한 손실 값을 추출하고, 추출된 손실 값을 기반으로 역전파(Back propagation)를 통해 학습 속도와 손실량을 고려한 하이퍼 파라미터를 교정하는 손실 추출부; 상기 의미 분석부에서 분석된 의미를 기반으로, 작업 항목 정보에 대한 단어 또는 문자열에서 방향 정보 및 미리 설정된 세부 정보 중 하나 이상의 특정 단어를 추출하는 후처리부; 및 상기 추출된 특정 단어와 예측된 1차 분류 결과를 결합하여 최종 분류 결과를 출력하는 데이터 결합부;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 후처리부는 작업 항목 정보 내의 단어 또는 문자열에서 방향 정보 및 미리 설정된 세부 정보 중 하나 이상에 대응하는 특정 값을 추출하고, 미리 설정된 분류 매핑 테이블에서 예측된 1차 분류 결과와 특정 값을 매핑하여 출력하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 데이터 결합부는 특정 단어가 추출되지 않으면, 1차 분류 후 유사한 특징을 갖는 다수의 하위 레이블링 클래스 전부를 최종 분류 결과로 생성하여 출력하는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예는 인공지능 기반의 분류 모델링 방법으로서, a) 분류 모델링 장치가 임의의 도메인에서 텍스트 기반의 작업 구분 정보와 작업 항목 정보를 포함한 입력 데이터를 수집하는 데이터 수집 단계; b) 상기 분류 모델링 장치가 수집된 입력 데이터에서 잘못 표기된 단어 또는 문자열을 미리 설정된 룰(Rule)에 기반하여 보정하는 데이터 전처리 단계; 및 c) 상기 분류 모델링 장치가 분류 모델을 이용하여 상기 보정된 입력 데이터의 텍스트로부터 작업 구분 정보 및 작업 항목 정보와 관련된 단어 또는 문자열을 기반으로 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시켜 분류하여 각 분류별 확률 값에 따른 1차 분류 결과를 예측하는 데이터 분류 단계; d) 상기 분류 모델링 장치가 작업 항목 정보에 대한 단어 또는 문자열에서 특정 단어를 추출하여 추출된 특정 단어와 상기 예측된 1차 분류 결과를 결합하는 단계; 및 e) 상기 분류 모델링 장치가 모델 분류에 따른 최종 분류 결과를 출력하는 단계;를 포함한다.

또한, 상기 실시 예에 따른 b) 단계는 b-1) 상기 분류 모델링 장치가 작업 항목 정보 내에서 작업 구분 정보와 관련된 단어 또는 문자열을 추출하고, 상기 추출된 단어 또는 문자열에 대응하는 작업 구분 값을 추출하는 단계; 및 b-2) 상기 분류 모델링 장치가 미리 설정된 작업 구분 매핑 테이블에서 작업 항목과 작업 구분 값 사이의 우선 순위를 기반으로 작업 구분 값을 확정하고, 확정된 작업 구분 값을 올바른 표기로 보정하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 c) 단계는 c-1) 상기 분류 모델링 장치가 전처리된 텍스트를 입력 값으로 변환하고, 상기 입력 값의 텍스트 의미를 사전 학습된 버트(BERT) 모델을 이용하여 분석하고, 문맥 벡터(Context vector)로 변환하는 단계; c-2) 상기 분류 모델링 장치(100)가 벡터화된 입력 값을 다중 분류(Multi label classification)를 통해 분류하되, 각 분류별 확률 값에 따른 1차 분류 결과를 예측하는 단계; 및 c-3) 상기 분류 모델링 장치가 예측된 값과 실제 레이블링 값을 이진 크로스 엔트로피(Binary cross entropy)에 기반한 손실 값을 추출하고, 추출된 손실 값을 기반으로 역전파(Back propagation)를 통해 학습 속도와 손실량을 고려한 하이퍼 파라미터를 교정하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 d) 단계는 d-1) 상기 분류 모델링 장치가 작업 항목 정보 내의 단어 또는 문자열에서 방향 정보 및 미리 설정된 세부 정보 중 하나 이상에 대응하는 특정 값을 추출하는 단계; 및 d-2) 상기 분류 모델링 장치가 미리 설정된 분류 매핑 테이블에서 예측된 1차 분류 결과와 특정 값을 매핑하고, 매핑된 결과를 기반으로 최종 예측 결과를 생성하여 출력하는 단계;를 포함하는 것을 특징으로 한다.

본 발명은 분류 모델이 임의의 입력 데이터를 분류하여 1차 분류 결과를 예측하고, 상기 입력 데이터에서 특정 단어를 추출하여 예측된 1차 분류 결과와 추출된 단어를 결합하여 최종 분류 결과를 출력함으로써 분류 정확도를 향상시킬 수 있는 장점이 있다.

또한, 본 발명은 학습을 위해 요구되는 클래스 1개당 최소한의 학습 데이터 개수가 부족해도 다수의 클래스를 상위 개념의 클래스로 간소화시켜 분류하고, 분류 결과와 특징 추출 단어를 기반으로 정확한 모델 분류 결과를 제공할 수 있는 장점이 있다.

또한, 본 발명은 불균형 데이터가 많은 도메인에서도 정확한 모델 분류 결과의 예측이 가능한 장점이 있다.

또한, 본 발명은 동일한 부품에 대하여 사용자마다 사용하는 용어, 표현 또는 이미지 등이 서로 달라서 분류가 어려운 도메인에서도 정확한 모델 분류 결과의 예측이 가능한 장점이 있다.

도1은 본 발명의 일 실시 예에 따른 인공지능 기반의 분류 모델링 장치의 구성을 개략적으로 나타낸 블록도.
도2는 도1의 실시 예에 따른 인공지능 기반의 분류 모델링 장치의 모델링부(130) 구성을 나타낸 블록도.
도3은 도1의 실시 예에 따른 인공지능 기반의 분류 모델링 장치의 데이터 전처리 과정을 설명하기 위해 나타낸 예시도.
도4는 도1의 실시 예에 따른 인공지능 기반의 분류 모델링 방법의 데이터 후처리 및 결합 과정을 설명하기 위해 나타낸 예시도.
도5는 본 발명의 일 실시 예에 따른 인공지능 기반의 분류 모델링 방법을 설명하기 위해 나타낸 흐름도.
도6은 도5의 실시 예에 따른 인공지능 기반의 분류 모델링 방법의 데이터 전처리 과정을 설명하기 위해 나타낸 흐름도.
도7은 도5의 실시 예에 따른 인공지능 기반의 분류 모델링 방법의 데이터 분류 과정을 설명하기 위해 나타낸 흐름도.
도8은 도5의 실시 예에 따른 인공지능 기반의 분류 모델링 방법의 데이터 후처리 및 결합 과정을 설명하기 위해 나타낸 흐름도.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.

또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경 가능하다 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 인공지능 기반의 분류 모델링 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.

도1은 본 발명의 일 실시 예에 따른 인공지능 기반의 분류 모델링 장치의 구성을 개략적으로 나타낸 블록도이고, 도2는 도1의 실시 예에 따른 인공지능 기반의 분류 모델링 장치의 모델링부(130) 구성을 나타낸 블록도이다.

도1 및 도2를 참조하면, 본 발명의 일 실시 예에 따른 인공지능 기반의 분류 모델링 장치(100)는 분류 모델이 임의의 도메인에 대한 입력 데이터로부터 텍스트를 추출하여 작업 구분 정보 및 작업 항목 정보 관련 단어 또는 문자열을 분류하고, 각 분류별 확률 값에 따른 1차 분류 결과를 예측할 수 있다.

또한, 분류 모델링 장치(100)는 작업 항목 정보에 대한 단어 또는 문자열에서 특정 단어를 추출하되, 추출된 특정 단어와 예측된 1차 분류 결과를 결합하여 최종 분류 결과를 출력할 수 있다.

또한, 분류 모델링 장치(100)는 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시켜 1차 분류를 수행할 수 있다.

이를 위해 분류 모델링 장치(100)는 데이터 수집부(110)와, 전처리부(120)와, 모델링부(130)를 포함하여 구성될 수 있다.

데이터 수집부(110)는 임의의 도메인에서 텍스트 기반의 입력 데이터를 수신하고, 수신된 입력 데이터에서 작업 구분 정보와 작업 항목 정보를 포함한 텍스트 데이터를 추출할 수 있다.

여기서, 데이터 수집부(110)가 수집하는 도메인의 입력 데이터는 전자 부품 주문서, 기계 부품 주문서, 가구 주문서, 화장품 주문서, 용기 주문서, 청구서, 처방전, 보험금 내역서, 차량 수리 내역서 및 물품 수리 내역서 중 하나 이상에 포함된 텍스트 데이터일 수 있다.

또한, 작업 구분 정보는 임의의 대상에 대한 성질, 기능 등에 따라 나눈 단어 또는 문자열, 예를 들어 '수리', '설치', 교환', '분해', '시공', '도색', '처방', '청구' 등과 같은 정보이고, 작업 항목 정보는 각각의 대상, 사건, 취급 자료 또는 동작에 관한 연관된 단어 또는 문자열일 수 있다.

전처리부(120)는 데이터 수집부(110)에 수집된 입력 데이터에서 잘못 표기된 단어 또는 문자열을 미리 설정된 룰(Rule)에 기반하여 보정하는 구성으로서, 바람직하게는 입력 데이터의 작업 구분 정보에 대한 잘못된 표기를 적절한 작업 구분 값으로 치환하여 올바른 표기로 보정할 수 있다.

예를 들어, 전처리부(120)는 도 3(a)에 나타낸 바와 같이, 데이터 수집부(100)를 통해 수집된 원본 데이터(200)에서, 작업 항목 정보(220) 내의 작업 구분 정보(210)와 관련된 단어 또는 문자열(230, 231, 232)에 대응하는 작업 구분 값을 추출할 수 있다.

또한, 전처리부(120)는 추출된 작업 구분 값을 도 3(b)의 미리 설정된 작업 구분 매핑 테이블(300)에서 작업 항목(320)과 작업 구분 값(310) 중 어느 하나에 설정된 우선 순위, 예를 들어 작업 항목(320)이 우선 순위로 설정된 값을 기반으로 작업 구분 값(330, 331, 332)을 추출하여 올바른 표기로 보정할 수 있다.

따라서, 도 3(c)와 같이 보정 데이터(200a)에서 최초에 구분된 작업 구분(210)에서 잘못 표기된 구분 정보를, 구분 보정 데이터(240)에서 '설치'에서 '수리'로 보정하고, '교환'에서 '수리'로 보정한 정보가 반영될 수 있도록 한다.

모델링부(130)는 분류 모델을 이용하여 상기 보정된 입력 데이터의 텍스트로부터 작업 구분 정보 및 작업 항목 정보와 관련된 단어 또는 문자열을 기반으로 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시켜 분류하여 각 분류별 확률 값에 따른 1차 분류 결과를 예측할 수 있다.

또한, 모델링부(130)는 작업 항목 정보에 대한 단어 또는 문자열에서 특정 단어를 추출하여 추출된 특정 단어와 예측된 1차 분류 결과를 결합하여 최종 분류 결과를 출력할 수 있다.

여기서, 특정 단어는 전/후/좌/우/상/하와 같은 방향 정보이거나, 또는 임의의 특징을 나타내는 단어인 세부 정보를 포함할 수 있다.

또한, 모델링부(130)는 입력부(131)와, 의미 분석부(132)와, 다중 분류부(133)와, 손실 추출부(134)와, 후처리부(135)와, 데이터 결합부(136)를 포함하여 구성될 수 있다.

입력부(131)는 전처리된 텍스트를 입력 값으로 변환하는 구성으로서, 다중 입력시 내용의 순서를 반영할 수 있도록 입력 토큰을 변환하는 토큰 입력부와, 순서를 입력하는 순서 입력부로 구성될 수 있다.

의미 분석부(132)는 입력부(131)에 입력된 입력 값의 텍스트 의미를 사전 학습된 버트(BERT) 모델을 이용하여 분석함으로써, 텍스트적 의미를 이해할 수 있다.

또한, 사전 학습된 버트 모델은 12개의 인코더(Encoder)로 구성될 수 있고, KoBERT를 이용한 한국어의 이해를 학습한 모델을 사용할 수도 있다.

또한, 의미 분석부(132)는 원문의 단어를 순차적으로 입력하고 문맥 벡터(Context vector)로 변환하여 오탈자 및 동의어, 동음이의어 등에 대한 처리를 수행할 수도 있다.

예를 들어, 동일한 부품에 대하여 사용자별로 발음 등의 차이로 인해 발생되는 용어 또는 표현(프론트, 후론트, 푸론트 등)에 대한 변환 처리를 수행할 수도 있다.

다중 분류부(133)는 의미 분석부(132)를 통해 벡터화된 입력 값을 다중 분류(Multi label classification)를 통해 분류하고, 각 분류별 확률 값에 따른 1차 분류 결과를 예측할 수 있다.

이때, 다중 분류부(133)는 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시킨 분류 클래스에 대하여 각각의 확률 값을 산출하여 1차 분류를 수행할 수 있다.

여기서, 하위 레이블링 클래스는 예를 들어 '수납장 경첩 좌', '수납장 경첩 우', '수납장 댐핑 경첩', '수납장 스프링 경첩', '수납장 경첩 아웃도어 좌', '수납장 경첩 아웃도어 우' 등 같이 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스인 '수납장 경첩'으로 간소화시킨 분류 클래스에 대한 확률 값을 산출함으로써, 1차 분류에 따른 분류 정확도가 증가될 수 있도록 한다.

손실 추출부(134)는 다중 분류부(133)에서 예측된 값과 실제 레이블링 값을 이진 크로스 엔트로피(Binary cross entropy)에 기반하여 손실 값을 추출하고, 추출된 손실 값을 기반으로 역전파(Back propagation)를 통해 학습 속도와 손실량을 고려한 하이퍼 파라미터(Hyper-parameter)의 교정을 수행할 수 있다.

여기서, 하이퍼 파라미터는 학습 시 입력되는 문자의 최대 길이, 학습률, 모델의 최적 기울기 산출, 한번의 배치(batch) 당 사용하는 데이터 샘플의 개수, 학습 횟수, 적정 횟수, 학습 초기 낮은 학습률에서 지정한 학습률까지 증가시키는 속도 등을 조절할 수 있다.

후처리부(135)는, 의미 분석부(132)에서 분석된 의미를 기반으로 작업 항목 정보에 대한 단어 또는 문자열에서, 방향 정보 및 미리 설정된 세부 정보 중 하나 이상의 특정 단어를 추출할 수 있다.

즉, 후처리부(135)는 도4(a)에 나타낸 바와 같이, 작업 항목 원본 데이터(400)에서, 작업 항목(420) 정보 내의 단어 또는 문자열에서 방향 정보 및 미리 설정된 세부 정보(430, 431, 432)에 대응하는 단어에 대한 특정 값, 예를 들어 '좌', '우' 등의 단어를 추출할 수 있다.

또한, 후처리부(135)는 도4(b)와 같이, 미리 설정된 분류 매핑 테이블(500)에서 예측된 1차 분류 결과인 분류 레이블링 클래스 정보와 특정 값인 세부 클래스 정보(520)를 매핑하여 출력할 수 있다.

이때, 분류 매핑 테이블(500)에 설정된 작업 코드(530)와 함께 출력될 수도 있다.

데이터 결합부(136)는 후처리부(135)에서 추출된 특정 단어와 예측된 1차 분류 결과를 결합하여 최종 분류 결과로서, 도4(c)와 같이 분류 클래스(610)와, 세부 정보 파싱 값(620)과 최종 클래스 결과(630)를 포함한 분류 정확도가 향상된 최종 예측 데이터(600)를 출력할 수 있다.

즉, 분류 클래스(610)와 세부 정보 파싱 값(620)의 텍스트를 더해 최종 클래스 결과(630)는 텍스트를 연결한 '싱크대 수납장(좌)', '싱크대 수납장 (우)', '안방장농(좌)', '주방침니필터(좌)', '주방침니필터(우)'와 같이 분류 결과를 출력할 수 있다.

또한, 데이터 결합부(136)는 특정 단어가 추출되지 않으면, 1차 분류 후 유사한 특징을 갖는 다수의 하위 레이블링 클래스 전부를 최종 분류 결과로 생성하여 사용자에게 출력할 수도 있다.

다음은 본 발명의 일 실시 예에 따른 인공지능 기반의 분류 모델링 방법을 설명한다.

도5는 본 발명의 일 실시 예에 따른 인공지능 기반의 분류 모델링 방법을 설명하기 위해 나타낸 흐름도이고, 도6은 도5의 실시 예에 따른 인공지능 기반의 분류 모델링 방법의 데이터 전처리 과정을 설명하기 위해 나타낸 흐름도이며, 도7은 도5의 실시 예에 따른 인공지능 기반의 분류 모델링 방법의 데이터 분류 과정을 설명하기 위해 나타낸 흐름도이고, 도8은 도5의 실시 예에 따른 인공지능 기반의 분류 모델링 방법의 데이터 후처리 및 결합 과정을 설명하기 위해 나타낸 흐름도이다.

도1, 도5 내지 도8을 참조하면, 본 발명의 일 실시 예에 따른 인공지능 기반의 분류 모델링 방법은 분류 모델링 장치(100)가 임의의 도메인에서 텍스트 기반의 작업 구분 정보와 작업 항목 정보를 포함한 입력 데이터를 수집(S100)할 수 있다.

분류 모델링 장치(100)는 수집된 입력 데이터에서 잘못 표기된 단어 또는 문자열을 미리 설정된 룰(Rule)에 기반하여 입력 데이터의 작업 구분 정보에 대한 잘못된 표기를 적절한 작업 구분 값으로 치환 후 올바른 표기로 보정하는 데이터 전처리(S200)를 수행할 수 있다.

S200 단계의 데이터 전처리는 분류 모델링 장치(100)가 작업 항목 정보 내에서 작업 구분 정보와 관련된 단어 또는 문자열을 추출(S210)하고, 추출된 단어 또는 문자열에 대응하는 작업 구분 값을 추출(S220)할 수 있다.

즉, 수집된 원본 데이터에서, 작업 항목 정보 내의 작업 구분 정보와 관련된 단어 또는 문자열에 대응하는 작업 구분 값을 추출할 수 있다.

또한, 분류 모델링 장치(100)는 미리 설정된 작업 구분 매핑 테이블에서 작업 항목과 작업 구분 값 사이의 우선 순위를 기반으로 작업 구분 값을 확정(S230)하고, 확정된 작업 구분 값을 적용하여 잘못 표기된 구분 정보를 올바른 표기로 보정(S240)할 수 있다.

계속해서, 분류 모델링 장치(100)는 분류 모델을 이용하여 상기 보정된 입력 데이터의 텍스트로부터 작업 구분 정보 및 작업 항목 정보와 관련된 단어 또는 문자열을 기반으로 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시켜 분류하여 각 분류별 확률 값에 따른 1차 분류 결과를 예측하는 데이터 분류(S300)를 수행할 수 있다.

S300 단계에서 분류 모델링 장치(100)는 전처리된 텍스트를 입력 값으로 변환(S310)하고, 입력 값의 텍스트 의미를 사전 학습된 버트(BERT) 모델을 이용하여 분석하고, 문맥 벡터(Context vector)로 변환(S320)할 수 있다.

또한, 분류 모델링 장치(100)는 벡터화된 입력 값을 다중 분류(Multi label classification)를 통해 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시킨 분류 클래스에 대하여 분류하고, 각 분류별 확률 값을 산출하여 1차 분류 결과를 예측(S330)할 수 있다.

또한, 분류 모델링 장치(100)는 예측된 값과 실제 레이블링 값을 이진 크로스 엔트로피(Binary cross entropy)에 기반한 손실 값을 추출하고, 추출된 손실 값을 기반으로 역전파(Back propagation)를 통해 학습 속도와 손실량을 고려한 하이퍼 파라미터를 교정(S340)할 수 있다.

계속해서, 분류 모델링 장치(100)는 작업 항목 정보에 대한 단어 또는 문자열에서 특정 단어를 추출하여 추출된 특정 단어와 상기 예측된 1차 분류 결과를 결합(S400)할 수 있다.

S400 단계에서, 분류 모델링 장치(100)는 작업 항목 정보 내의 단어 또는 문자열에서 방향 정보 및 미리 설정된 세부 정보 중 하나 이상에 대응하는 특정 값을 추출(S410)할 수 있다.

또한, 분류 모델링 장치(100)는 미리 설정된 분류 매핑 테이블(500)에서 예측된 1차 분류 결과와 특정 값을 매핑(S420)하고, 매핑된 결과를 기반으로 최종 예측 결과를 생성하여 출력(S430)할 수 있다.

또한, 분류 모델링 장치(100)는 추출된 특정 단어와 예측된 1차 분류 결과를 결합하여 최종 분류 결과로서, 분류 클래스와, 세부 정보 파싱 값과 최종 클래스 결과를 포함한 분류 정확도가 향상된 최종 예측 데이터를 생성하여 모델 분류 결과를 출력(S500)할 수 있다.

또한, 분류 모델링 장치(100)는 S400 단계에서 특정 단어가 추출되지 않으면, 1차 분류 후 유사한 특징을 갖는 다수의 하위 레이블링 클래스 전부를 최종 분류 결과로 생성하여 사용자에게 출력할 수도 있다.

따라서, 분류 모델이 임의의 입력 데이터를 분류하여 1차 분류 결과를 예측하고, 상기 입력 데이터에서 특정 단어를 추출하여 예측된 1차 분류 결과와 추출된 단어를 결합하여 최종 분류 결과를 출력함으로써 분류 정확도를 향상시킬 수 있다.

또한, 학습을 위해 요구되는 클래스 1개당 최소한의 학습 데이터 개수가 부족해도 다수의 클래스를 상위 개념의 클래스로 간소화시켜 분류하고, 분류 결과와 특징 추출 단어를 기반으로 정확한 모델 분류 결과를 제공할 수 있다.

또한, 불균형 데이터가 많은 도메인에서도 정확한 모델 분류 결과의 예측이 가능할 수 있다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.

100 : 분류 모델링 장치 110 : 데이터 수집부
120 : 전처리부 130 : 모델링부
131 : 입력부 132 : 의미 분석부
133 : 다중 분류부 134 : 손실 추출부
135 : 후처리부 136 : 데이터 결합부
200 : 원본 데이터 200a : 보정 데이터
210 : 작업 구분 220 : 작업 항목
230, 231, 232 : 문자열 240 : 작업 구분 보정 데이터
300 : 작업 구분 매핑 테이블 310 : 작업 구분
320 : 작업 항목 330, 331, 332 : 작업 구분값
400 : 작업 항목 원본 데이터 410 : 작업 구분
420 : 작업 항목 430, 431, 432 : 방향 또는 세부 정보
500 : 분류 매핑 테이블 510 : 분류 레이블링 클래스 정보
520 : 세부 클래스 정보 530 : 작업 코드
600 : 최종 예측 데이터 610 : 분류 클래스
620 : 세부 정보 파싱값 630 : 최종 클래스 결과

Claims

분류 모델이 임의의 도메인에서 수집한 입력 데이터로부터 텍스트를 추출하여 작업 구분 정보 및 작업 항목 정보 관련 단어 또는 문자열을 분류하고,
각 분류별 확률 값에 따른 1차 분류 결과를 예측하여 상기 작업 항목 정보에 대한 단어 또는 문자열에서 특정 단어를 추출하되,
상기 추출된 특정 단어와 예측된 1차 분류 결과를 결합하여 최종 분류 결과를 출력하는 분류 모델링 장치(100)를 포함하고,
상기 분류 모델링 장치(100)는 수집된 입력 데이터에서 잘못 표기된 단어 또는 문자열을 미리 설정된 룰(Rule)에 기반하여 보정하되,
작업 항목 정보 내에서 작업 구분 정보와 관련된 단어 또는 문자열에 대응하는 작업 구분 값을 추출하고, 미리 설정된 작업 구분 매핑 테이블(300)에서 작업 항목과 작업 구분 값 사이의 우선 순위를 기반으로 작업 구분 값을 올바른 표기로 보정하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 장치.
제 1 항에 있어서,
상기 분류 모델링 장치(100)는 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시켜 1차 분류하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 장치.
제 1 항에 있어서,
상기 도메인은 전자 부품 주문서, 기계 부품 주문서, 가구 주문서, 화장품 주문서, 용기 주문서, 청구서, 처방전, 보험금 내역서, 차량 수리 내역서 및 물품 수리 내역서 중 하나 이상을 포함하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 장치.
제 1 항에 있어서,
상기 특정 단어는 방향 정보 및 미리 설정된 세부 정보 중 하나 이상을 포함하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 장치.
제 1 항에 있어서,
상기 분류 모델링 장치(100)는 임의의 도메인에서 텍스트 기반의 작업 구분 정보와 작업 항목 정보를 포함한 입력 데이터를 수집하는 데이터 수집부(110);
상기 수집된 입력 데이터에서 잘못 표기된 단어 또는 문자열을 미리 설정된 룰(Rule)에 기반하여 보정하되, 작업 항목 정보 내에서 작업 구분 정보와 관련된 단어 또는 문자열에 대응하는 작업 구분 값을 추출하고, 미리 설정된 작업 구분 매핑 테이블(300)에서 작업 항목과 작업 구분 값 사이의 우선 순위를 기반으로 작업 구분 값을 올바른 표기로 보정하는 전처리부(120); 및
분류 모델을 이용하여 상기 보정된 입력 데이터의 텍스트로부터 작업 구분 정보 및 작업 항목 정보와 관련된 단어 또는 문자열을 기반으로 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시켜 분류하여 각 분류별 확률 값에 따른 1차 분류 결과를 예측하고, 상기 작업 항목 정보에 대한 단어 또는 문자열에서 특정 단어를 추출하여 추출된 특정 단어와 상기 예측된 1차 분류 결과를 결합하여 최종 분류 결과를 출력하는 모델링부(130);를 포함하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 장치.
삭제
제 5 항에 있어서,
상기 모델링부(130)는 텍스트를 입력 값으로 변환하는 입력부(131);
상기 입력 값의 텍스트 의미를 사전 학습된 버트(BERT) 모델을 이용하여 분석하고, 문맥 벡터(Context vector)로 변환하는 의미 분석부(132);
상기 의미 분석부(132)에서 벡터화된 입력 값을 다중 분류(Multi label classification)를 통해 분류하되, 각 분류별 확률 값에 따른 1차 분류 결과를 예측하는 다중 분류부(133);
상기 예측에 사용되는 각 분류별 확률 값과 실제 레이블링 값을 이진 크로스 엔트로피(Binary cross entropy)에 기반한 손실 값을 추출하고, 추출된 손실 값을 기반으로 역전파(Back propagation)를 통해 학습 속도와 손실량을 고려한 하이퍼 파라미터를 교정하는 손실 추출부(134);
상기 의미 분석부(132)에서 분석된 의미를 기반으로, 작업 항목 정보에 대한 단어 또는 문자열에서 방향 정보 및 미리 설정된 세부 정보 중 하나 이상의 특정 단어를 추출하는 후처리부(135); 및
상기 추출된 특정 단어와 예측된 1차 분류 결과를 결합하여 최종 분류 결과를 출력하는 데이터 결합부(136);를 포함하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 장치.
제 7 항에 있어서,
상기 후처리부(135)는 작업 항목 정보 내의 단어 또는 문자열에서 방향 정보 및 미리 설정된 세부 정보 중 하나 이상에 대응하는 특정 값을 추출하고, 미리 설정된 분류 매핑 테이블(500)에서 예측된 1차 분류 결과와 특정 값을 매핑하여 출력하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 장치.
제 7 항에 있어서,
상기 데이터 결합부(136)는 특정 단어가 추출되지 않으면, 1차 분류 후 유사한 특징을 갖는 다수의 하위 레이블링 클래스 전부를 최종 분류 결과로 생성하여 출력하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 장치.
a) 분류 모델링 장치(100)가 임의의 도메인에서 텍스트 기반의 작업 구분 정보와 작업 항목 정보를 포함한 입력 데이터를 수집하는 데이터 수집 단계;
b) 상기 분류 모델링 장치(100)가 수집된 입력 데이터에서 잘못 표기된 단어 또는 문자열을 미리 설정된 룰(Rule)에 기반하여 보정하는 데이터 전처리 단계; 및
c) 상기 분류 모델링 장치(100)가 분류 모델을 이용하여 상기 보정된 입력 데이터의 텍스트로부터 작업 구분 정보 및 작업 항목 정보와 관련된 단어 또는 문자열을 기반으로 유사한 특징을 갖는 다수의 하위 레이블링 클래스를 상위 레이블링 클래스로 간소화시켜 분류하여 각 분류별 확률 값에 따른 1차 분류 결과를 예측하는 데이터 분류 단계;
d) 상기 분류 모델링 장치(100)가 작업 항목 정보에 대한 단어 또는 문자열에서 특정 단어를 추출하여 추출된 특정 단어와 상기 예측된 1차 분류 결과를 결합하는 단계; 및
e) 상기 분류 모델링 장치(100)가 모델 분류에 따른 최종 분류 결과를 출력하는 단계;를 포함하고,
상기 b) 단계는 b-1) 상기 분류 모델링 장치(100)가 작업 항목 정보 내에서 작업 구분 정보와 관련된 단어 또는 문자열을 추출하고, 상기 추출된 단어 또는 문자열에 대응하는 작업 구분 값을 추출하는 단계; 및
b-2) 상기 분류 모델링 장치(100)가 미리 설정된 작업 구분 매핑 테이블(300)에서 작업 항목과 작업 구분 값 사이의 우선 순위를 기반으로 작업 구분 값을 확정하고, 확정된 작업 구분 값을 올바른 표기로 보정하는 단계;를 포함하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 방법.
삭제
제 10 항에 있어서,
상기 c) 단계는 c-1) 상기 분류 모델링 장치(100)가 전처리된 텍스트를 입력 값으로 변환하고, 상기 입력 값의 텍스트 의미를 사전 학습된 버트(BERT) 모델을 이용하여 분석하고, 문맥 벡터(Context vector)로 변환하는 단계;
c-2) 상기 분류 모델링 장치(100)가 벡터화된 입력 값을 다중 분류(Multi label classification)를 통해 분류하되, 각 분류별 확률 값에 따른 1차 분류 결과를 예측하는 단계; 및
c-3) 상기 분류 모델링 장치(100)가 예측에 사용된 각 분류별 확률 값과 실제 레이블링 값을 이진 크로스 엔트로피(Binary cross entropy)에 기반한 손실 값을 추출하고, 추출된 손실 값을 기반으로 역전파(Back propagation)를 통해 학습 속도와 손실량을 고려한 하이퍼 파라미터를 교정하는 단계;를 포함하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 방법.
제 10 항에 있어서,
상기 d) 단계는 d-1) 상기 분류 모델링 장치(100)가 작업 항목 정보 내의 단어 또는 문자열에서 방향 정보 및 미리 설정된 세부 정보 중 하나 이상에 대응하는 특정 값을 추출하는 단계; 및
d-2) 상기 분류 모델링 장치(100)가 미리 설정된 분류 매핑 테이블(500)에서 예측된 1차 분류 결과와 특정 값을 매핑하고, 매핑된 결과를 기반으로 최종 예측 결과를 생성하여 출력하는 단계;를 포함하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 방법.
제 10 항에 있어서,
상기 도메인은 전자 부품 주문서, 기계 부품 주문서, 가구 주문서, 화장품 주문서, 용기 주문서, 청구서, 처방전, 보험금 내역서, 차량 수리 내역서 및 물품 수리 내역서 중 하나 이상을 포함하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 방법.
제 10 항에 있어서,
상기 특정 단어는 방향 정보 및 미리 설정된 세부 정보 중 하나 이상을 포함하는 것을 특징으로 하는 인공지능 기반의 분류 모델링 방법.