KR102570536B1 - 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템 - Google Patents

딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템 Download PDF

Info

Publication number
KR102570536B1
KR102570536B1 KR1020200189474A KR20200189474A KR102570536B1 KR 102570536 B1 KR102570536 B1 KR 102570536B1 KR 1020200189474 A KR1020200189474 A KR 1020200189474A KR 20200189474 A KR20200189474 A KR 20200189474A KR 102570536 B1 KR102570536 B1 KR 102570536B1
Authority
KR
South Korea
Prior art keywords
text
unfair
syllable
unstructured content
classification
Prior art date
Application number
KR1020200189474A
Other languages
English (en)
Other versions
KR20220096748A (ko
Inventor
황의영
정진하
김종철
Original Assignee
주식회사 포스코디엑스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포스코디엑스 filed Critical 주식회사 포스코디엑스
Priority to KR1020200189474A priority Critical patent/KR102570536B1/ko
Publication of KR20220096748A publication Critical patent/KR20220096748A/ko
Application granted granted Critical
Publication of KR102570536B1 publication Critical patent/KR102570536B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

딥러닝 기반의 인공지능 모델을 이용하여 비정형 컨텐츠를 자동으로 분류할 수 있는 본 발명의 일 측면에 따른 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템은, 제1 불공정 텍스트로 구성된 제1 학습 데이터 및 상기 제1 학습 데이터를 기초로 생성된 제2 학습 데이터가 저장되는 학습 데이터 저장부; 상기 제1 불공정 텍스트로부터 생성된 키워드를 이용하여 비정형 컨텐츠를 검색하고, 상기 비정형 컨텐츠로부터 상기 제1 불공정 텍스트와의 유사도를 기준으로 추출된 제2 불공정 텍스트로 상기 제2 학습 데이터를 생성하는 학습 데이터 생성부; 타겟 비정형 컨텐츠에 포함된 타겟 텍스트가 입력되면, 상기 제1 및 제2 학습 데이터를 이용하여 문장 단위로 학습된 제1 분류모델을 이용하여 불공정 텍스트 분류를 위한 제1 결과값을 산출하는 제1 분류정보 생성부; 상기 타겟 텍스트가 입력되면, 상기 제1 및 제2 학습 데이터에 포함된 단어 기반으로 학습된 제2 분류모델을 이용하여 불공정 텍스트 분류를 위한 제2 결과값을 생성하는 제2 분류정보 생성부; 및 상기 제1 및 제2 결과값을 이용하여 상기 타겟 비정형 컨텐츠 중 불공정 텍스트를 분류하는 불공정 텍스트 분류부를 포함하는 것을 특징으로 한다.

Description

딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템{System for Classifying Unstructured Contents Automatically}
본 발명은 컨텐츠 분류에 관한 것으로서, 보다 구체적으로 비정형 컨텐츠를 분류하는 기술에 관한 것이다.
법률행위를 수행하는 주체들 사이에서는 해당 법률행위에 대해 약관이나 계약서 등의 법률문서(이하, '법률문서'라 함)를 작성하는 것이 일반적이다. 최근, 이러한 법률문서에서 법률행위 주체들 간에 불공정한 조항으로 인한 문제, 소위 법률문서 내에서의 갑을 관계 문제가 사회적 문제로 대두되고 있다.
이러한 법률문서 내에서의 갑을 관계 문제 발생을 방지하기 위해, 법률문서 내에서 상대적으로 을의 위치에 있는 당사자들에게 불공정한 조항이 없도록 해당 법률문서가 작성되는 것이 필요하다.
이를 위해, 현재 각 기업들은 기업 내에서 작성되는 법률문서에 대해 법무 담당자가 일일이 모든 법률문서를 검토하여 불공정 조항이 존재하는지 여부를 검토하고 있다.
하지만, 기업 내에서 작성되는 법률문서의 양이 방대하다는 점을 감안할 때, 법률문서의 불공정 조항 포함여부 검토가 상술한 바와 같이 사람에 의해 수동으로 이루어지는 경우 법률문서 검토를 위해 많은 시간이 소요된다는 문제점이 있다.
이러한 문제점을 해결하기 위해, 법률문서 내에 불공정 조항이 포함되어 있는지 여부를 자동으로 해결할 수 있는 시스템 도입을 검토해 볼 수 있지만, 법률문서는 그 형태가 정형화 되어 있지 않고 내용이나 종류에 따라 다양한 형태가 존재하는 비정형성성 컨텐츠에 해당하므로, 법률문서의 심사를 자동화하기가 쉽지 않다는 문제점이 있다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 딥러닝 기반의 인공지능 모델을 이용하여 비정형 컨텐츠를 자동으로 분류할 수 있는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템을 제공하는 것을 그 기술적 과제로 한다.
또한, 본 발명은 인공지능 모델의 학습을 위한 학습 데이터를 자동으로 생성할 수 있는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템을 제공하는 것을 다른 기술적 과제로 한다.
또한, 본 발명은 2개의 분류모델을 이용하여 특정 컨텐츠 내에서 추출된 텍스트를 분류할 수 있는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템을 제공하는 것을 또 다른 기술적 과제로 한다.
또한, 본 발명은 특정 형태의 비정형 컨텐츠 내에서 분류 대상이 되는 텍스트를 자동으로 추출할 수 있는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템을 제공하는 것을 다른 기술적 과제로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템은, 제1 불공정 텍스트로 구성된 제1 학습 데이터 및 상기 제1 학습 데이터를 기초로 생성된 제2 학습 데이터가 저장되는 학습 데이터 저장부; 상기 제1 불공정 텍스트로부터 생성된 키워드를 이용하여 비정형 컨텐츠를 검색하고, 상기 비정형 컨텐츠로부터 상기 제1 불공정 텍스트와의 유사도를 기준으로 추출된 제2 불공정 텍스트로 상기 제2 학습 데이터를 생성하는 학습 데이터 생성부; 타겟 비정형 컨텐츠에 포함된 타겟 텍스트가 입력되면, 상기 제1 및 제2 학습 데이터를 이용하여 문장 단위로 학습된 제1 분류모델을 이용하여 불공정 텍스트 분류를 위한 제1 결과값을 산출하는 제1 분류정보 생성부; 상기 타겟 텍스트가 입력되면, 상기 제1 및 제2 학습 데이터에 포함된 단어 기반으로 학습된 제2 분류모델을 이용하여 불공정 텍스트 분류를 위한 제2 결과값을 생성하는 제2 분류정보 생성부; 및 상기 제1 및 제2 결과값을 이용하여 상기 타겟 비정형 컨텐츠 중 불공정 텍스트를 분류하는 불공정 텍스트 분류부를 포함하는 것을 특징으로 한다.
상술한 바와 같이 본 발명에 따르면, 딥러닝 기반의 인공지능 모델을 이용하여 법률문서 또는 계약문서와 같은 비정형 컨텐츠에 포함된 텍스트가 속하는 분류를 자동으로 결정할 수 있어 해당 컨텐츠의 분류에 소요되는 시간을 단축시킬 수 있어 업무 효율이 향상된다는 효과가 있다.
또한, 본 발명에 따르면 인공지능 모델의 학습을 위한 학습 데이터를 자동으로 생성할 수 있기 때문에, 학습 데이터 생성을 위해 소요되는 시간을 감축시킬 수 있을 뿐만 아니라, 많은 학습 데이터를 이용하여 인공지능 모델을 학습시킬 수 있어 인공지능 모델의 분류 정확도를 향상시킬 수 있다는 효과가 있다.
또한, 본 발명은 문장 기반으로 분류결과를 예측하는 제1 분류모델과 문장 내에서 추출되는 단어들에 대한 워드 임베딩 기반으로 분류결과를 예측하는 제2 분류모델을 이용하여 특정 컨텐츠 내에서 추출된 텍스트가 속하는 분류를 최종적으로 결정할 수 있어 분류결과의 정확도를 향상시킬 수 있다는 효과가 있다.
또한, 본 발명에 따르면 특정형태의 비정형 컨텐츠에서 사용되는 구분자를 이용하여 특정 컨텐츠 내에서 분류 대상이 되는 텍스트를 자동으로 추출할 수 있어 텍스트 추출의 정확성을 향상시킬 수 있고, 분류 대상이 되는 비정형 컨텐츠 별로 구분자를 정의할 수 있어 다양한 종류의 비정형 컨텐츠로의 확장이 용이하다는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 따른 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템의 구성을 개략적으로 보여주는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 학습 데이터 생성부의 구성을 보여주는 블록도이다.
도 3은 후보 텍스트 추출부에 의해 추출된 후보 텍스트의 일 예를 보여주는 도면이다.
도 4a 내지 도 4c는 제1 분류정보 생성부에 의해 생성된 제1 결과값 및 제2 분류 정보 생성부에 의해 생성된 제2 결과값의 예를 보여주는 도면이다.
명세서 전체에 걸쳐서 동일한 참조번호들은 실질적으로 동일한 구성요소들을 의미한다. 이하의 설명에서, 본 발명의 핵심 구성과 관련이 없는 경우 및 본 발명의 기술분야에 공지된 구성과 기능에 대한 상세한 설명은 생략될 수 있다. 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예를 설명하기 위한 도면에 개시된 형상, 크기, 비율, 각도, 개수 등은 예시적인 것이므로 본 발명이 도시된 사항에 한정되는 것은 아니다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
본 명세서에서 언급된 '포함한다', '갖는다', '이루어진다' 등이 사용되는 경우 '~만'이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별히 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함한다.
구성 요소를 해석함에 있어서, 별도의 명시적 기재가 없더라도 오차 범위를 포함하는 것으로 해석한다.
위치 관계에 대한 설명일 경우, 예를 들어, '~상에', '~상부에', '~하부에', '~옆에' 등으로 두 부분의 위치 관계가 설명되는 경우, '바로' 또는 '직접'이 사용되지 않는 이상 두 부분 사이에 하나 이상의 다른 부분이 위치할 수도 있다.
시간 관계에 대한 설명일 경우, 예를 들어, '~후에', '~에 이어서', '~다음에', '~전에' 등으로 시간적 선후 관계가 설명되는 경우, '바로' 또는 '직접'이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다.
제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않는다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
"적어도 하나"의 용어는 하나 이상의 관련 항목으로부터 제시 가능한 모든 조합을 포함하는 것으로 이해되어야 한다. 예를 들어, "제1 항목, 제2 항목 및 제 3 항목 중에서 적어도 하나"의 의미는 제1 항목, 제2 항목 또는 제3 항목 각각 뿐만 아니라 제1 항목, 제2 항목 및 제3 항목 중에서 2개 이상으로부터 제시될 수 있는 모든 항목의 조합을 의미할 수 있다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하고, 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시할 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 구체적으로 설명한다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템의 구성을 개략적으로 보여주는 블록도이다. 도 1에 도시된 바와 같이 본 발명일 실시예에 따른 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템(10)은 딥러닝 기반의 인공지능(Artificial Intelligence) 모델을 이용하여 분류 대상이 되는 비정형 컨텐츠가 속하는 분류를 자동으로 결정한다.
일 실시예에 있어서, 분류 대상이 되는 비정형 컨텐츠는 법률조항 또는 계약조항이 포함된 문서일 수 있고, 비정형 컨텐츠의 분류는 해당 문서에 불공정 조항을 포함하고 있는 텍스트가 존재하는지 또는 불공정 조항을 포함하고 있지 않은 텍스트가 존재하지 않는지에 대한 분류이거나, 해당 문서에 포함된 텍스트들이 불공정 조항을 포함하는 불공정 텍스트인지 또는 공정조항을 포함하는 공정 텍스트인지에 대한 분류일 수 있다.
이때, 본 발명에서 사용되는 용어인 텍스트는 하나 이상의 문장을 포함할 수 있다. 즉, 텍스트는 단수문장으로 구성되거나 2개 이상의 복수문장으로 구성될 수 있다.
이하에서는 설명의 편의를 위해 비정형 컨텐츠가 약관문서이고, 비정형 컨텐츠의 분류는 약관문서에 포함된 텍스트가 불공정 조항을 포함하는지 여부에 대한 분류인 것으로 가정하여 설명하기로 한다.
본 발명에 따른 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템(10)은 도 1에 도시된 바와 같이 학습유닛(100) 및 구동유닛(200)을 포함한다.
학습유닛(100)은 비정형 컨텐츠의 자동 분류를 위해 구동유닛(200)에 포함된 딥러닝 기반의 인공지능 모델을 학습시킨다. 본 발명에 따른 학습유닛(100)은 도 1에 도시된 바와 같이, 학습 데이터 생성부(110), 학습 데이터 저장부(130), 및 학습부(140)를 포함한다.
학습 데이터 생성부(110)는 학습 데이터 저장부(130)에 미리 저장되어 있는 제1 학습 데이터를 이용하여 제2 학습 데이터를 생성한다. 이때, 제1 학습 데이터는 미리 정해진 약관문서 내에서 사용자에 의해 불공정 조항이 포함된 것으로 판단된 불공정 텍스트들을 포함한다. 제1 학습 데이터에는 제1 학습 데이터가 불공정 텍스트를 포함하고 있다는 불공정 분류정보가 라벨링(Labeling)되어 있을 수 있다.
본 발명에서 학습 데이터 생성부(110)가 제1 학습 데이터를 이용하여 제2 학습 데이터를 생성하는 이유는 아래와 같다. 본 발명에 따른 구동유닛(200)이 비정형 컨텐츠를 보다 정확하게 분류하기 위해서는 많은 학습 데이터를 이용한 학습이 선행되어야 한다. 하지만, 학습 데이터는 사용자가 학습용 약관문서에 포함된 각 텍스트들이 불공정 조항을 포함하고 있는지 여부를 판단하여 판단결과에 따라 분류정보를 라벨링함에 의해 생성되므로 하나의 학습 데이터를 생성하기 위해 많은 시간이 소요되기 때문에 현실적으로 많은 학습 데이터를 생성하는 것 자체가 불가능하다.
따라서, 본 발명에서는 학습 데이터 생성부(110)가 사용자에 의해 생성된 제1 학습 데이터를 기초로 다수의 제2 학습 데이터를 자동으로 생성함으로써 구동유닛(200)의 학습을 위한 다수의 학습 데이터를 획득할 수 있게 된다.
이하, 본 발명에 따른 학습 데이터 생성부(110)의 구성을 도 2를 참조하여 보다 구체적으로 설명한다.
도 2는 본 발명의 일 실시예에 따른 학습 데이터 생성부의 구성을 보여주는 블록도이다. 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 학습 데이터 생성부(110)는 키워드 생성부(112), 검색엔진(114), 후보 텍스트 추출부(116), 유사도 산출부(118), 및 라벨링부(119)를 포함한다.
키워드 생성부(112)는 학습 데이터 생성에 이용될 비정형 컨텐츠를 검색하기 위한 키워드를 생성한다. 일 실시예에 있어서, 키워드 생성부(112)는 학습 데이터 저장부(130)에 저장되어 있는 제1 학습 데이터에 포함된 제1 불공정 텍스트를 기초로 키워드를 생성할 수 있다. 이때, 키워드 생성부(112)는 제1 불공정 텍스트에 포함된 불공정 단어들 및 해당 불공정 단어들의 동의어 또는 유의어 등을 키워드로 생성할 수 있다.
다른 실시예에 있어서, 키워드 생성부(112)는 검색대상이 되는 비정형 컨텐츠의 카테고리 별로 사용자로부터 키워드를 추천 받을 수도 있다. 예컨대, 약관문서에 대해 사용자로부터 해당 약관에서 빈번하게 사용되는 키워드를 추천받을 수 있다.
검색엔진(114)은 키워드 생성부(112)에 의해 생성된 키워드를 이용하여 정형 컨텐츠들이나 비정형 컨테츠들이 문서단위로 저장된 데이터베이스(미도시)를 대상으로 검색을 수행하고, 데이터베이스로부터 해당 키워드가 포함된 비정형 컨텐츠를 획득한다. 일 실시예에 있어서, 검색엔진(114)은 모든 카테고리에 속하는 비정형 컨텐츠를 대상으로 검색을 수행할 수 있지만, 다른 실시예에 있어서 제1 학습 데이터와 동일한 카테고리에 속하는 비정형 컨텐츠를 대상으로 검색을 수행할 수도 있다.
후보 텍스트 추출부(116)는 검색엔진(114)에 의해 획득된 비정형 컨텐츠로부터 후보 텍스트들을 추출한다. 구체적으로, 후보 텍스트 추출부(116)는 검색엔진(114)에 의해 획득된 비정형 컨텐츠 내에서 미리 정해진 음절 또는 기호로 구성된 고유 구분자들 사이에 포함된 적어도 하나의 문장을 후보 텍스트들로 추출한다. 이때, 고유 구분자들은 법률조항 또는 계약조항을 나타내는 음절 또는 기호일 수 있다.
일 실시예에 있어서, 고유 구분자는 음절 "조" 또는 음절 "조"에 해당하는 기호를 포함하는 제1 구분자, 음절 "항"또는 음절 "항"에 해당하는 기호를 포함하는 제2 구분자, 음절 "호' 또는 음절 "호"에 해당하는 기호를 포함하는 제3 구분자, 및 음절 "목" 또는 음절 "목에 해당하는 기호를 포함하는 제4 구분자 중 적어도 하나를 포함할 수 있다. 예컨대, 음절 "조"에 해당하는 기호는 아라비아 숫자, 로마숫자, 또는 "§"등을 포함할 수 있고, 음절 "항"에 해당하는 기호는 원문자, 또는 하이픈으로 연결된 아라비아 숫자 등을 포함할 수 있다.
이러한 실시예에 따르는 경우 후보 텍스트 추출부(116)는 제1 구분자들 사이에 위치하는 적어도 하나의 문장, 제1 구분자와 제2 구분자 사이에 위치한 적어도 하나의 문장, 제1 구분자와 제3 구분자 사이에 위치한 적어도 하나의 문장, 또는 제1 구분자와 제4 구분자 사이에 위치한 적어도 하나의 문장을 후보 텍스트로 추출할 수 있다.
또한, 후보 텍스트 추출부(116)는 제2 구분자들 사이에 위치한 적어도 하나의 문장, 제2 구분자와 제3 구분자 사이에 위치한 적어도 하나의 문장, 또는 제2 구분자와 제4 구분자 사이에 위치한 적어도 하나의 문장을 후보 텍스트로 추출할 수 있다.
또한, 후보 텍스트 추출부(116)는 제3 구분자들 사이에 위치한 적어도 하나의 문장 또는 제3 구분자와 제4 구분자 사이에 위치한 적어도 하나의 문장을 후보 텍스트로 추출할 수 있다.
또한, 후보 텍스트 추출부(116)는 제4 구분자들 사이에 위치한 적어도 하나의 문장을 후보 텍스트로 추출할 수 있다.
후보 텍스트 추출부(116)에 의해 추출된 후보 텍스트의 일 예가 도 3에 도시되어 있다. 도 3에 도시된 바와 같이, 후보 텍스트 추출부(116)는 비정형 컨텐츠(300) 내에서 음절"항"에 해당하는 기호인 "①"과 "②" 사이에 배치된 텍스트를 제1 후보 텍스트(310)로 추출할 수 있다.
또한, 후보 추출부(116)는 비정형 컨텐츠(300) 내에서 음절"항"에 해당하는 기호인 "②"와 도 3에 도시하지는 않았지만, 음절 "조"를 포함하는 "제17조"사이에 배치된 텍스트를 제2 후보 텍스트(320)로 추출할 수 있다.
한편, 후보 텍스트 추출부(116)가 상술한 바와 같은 기준에 따라 후보 텍스트를 추출하는 경우, 텍스트 내에 제1 구분자 내지 제4 구분자가 포함되는 경우 하나의 텍스트로 추출되어야 하는 후보 텍스트가 원치 않게 별개의 후보 텍스트로 분리되어 추출될 수 있다. 따라서, 본 발명에 따른 후보 텍스트 추출부(116)는 제1 구분자 내지 제2 구분자가 조사와 함께 기재되어 있는 경우 해당 제1 구분자 내지 제4 구분자는 고유 구분자에서 제외시킬 수 있다.
예컨대, 비정형 컨텐츠 내에 "① 특허청장은 청구에 따라 또는 직권으로 제132조의17에 따른 심판의 청구기간을 30일 이내에서 한 차례만 연장할 수 있다. 다만, 도서ㆍ벽지 등 교통이 불편한 지역에 있는 자의 경우에는 산업통상자원부령으로 정하는 바에 따라 그 횟수 및 기간을 추가로 연장할 수 있다.  ② 특허청장ㆍ특허심판원장ㆍ심판장 또는 제57조제1항에 따른 심사관(이하 "심사관"이라 한다)은 이 법에 따라 특허에 관한 절차를 밟을 기간을 정한 경우에는 청구에 따라 그 기간을 단축 또는 연장하거나 직권으로 그 기간을 연장할 수 있다. 이 경우 특허청장 등은 그 절차의 이해관계인의 이익이 부당하게 침해되지 아니하도록 단축 또는 연장 여부를 결정하여야 한다."라는 내용이 포함되어 있는 경우, 후보 텍스트 추출부(116)는 비정형 컨텐츠 내에서 음절"항"에 해당하는 기호인 "①"과 "②" 사이에 배치된 텍스트 "특허청장은 청구에 따라 또는 직권으로 제132조의17에 따른 심판의 청구기간을 30일 이내에서 한 차례만 연장할 수 있다. 다만, 도서ㆍ벽지 등 교통이 불편한 지역에 있는 자의 경우에는 산업통상자원부령으로 정하는 바에 따라 그 횟수 및 기간을 추가로 연장할 수 있다."를 후보 텍스트로 추출해야 함에도 불구하고, 해당 텍스트 내의 "제132조의17"에 포함된 음절 "조"로 인해 "①"과 음절 "조" 사이에 배치된 텍스트 "특허청장은 청구에 따라 또는 직권으로 제132"를 후보 텍스트로 잘못 추출하게 된다. 따라서, 이러한 경우 본 발명에 따른 텍스트 추출부는 음절 "조"에 조사 "의"가 연속하여 배치되는 "132조의"라는 용어는 고유 구분자에서 제외함으로써, "132조의"이라는 용어가 제1 구분자로 인식되지 않도록 한다.
이와 같이, 본 발명에 따른 후보 텍스트 추출부(116)는 텍스트 추출시 말미에 조사가 기재되어 있는 제1 내지 제4 구분자들은 고유 구분자로써 인식되지 않도록 하여 텍스트가 분리되는 것을 방지함으로써 텍스트 추출 정확도를 향상시킬 수 있게 된다.
다시 도 1을 참조하면, 유사도 산출부(118)는 후보 텍스트 추출부(116)에 의해 추출된 후보 텍스트들과 제1 학습 텍스트에 포함된 제1 불공정 텍스트 간의 유사도를 산출하고, 산출된 유사도가 제1 기준치 이상인 하나 이상의 후보 텍스트들을 제2 불공정 텍스트로 추출하고, 추출된 제2 불공적 텍스트를 제2 학습 데이터로 생성한다.
유사도 산출부(118)는 각 후보 텍스트 별로 해당 후보 텍스트 포함된 단어들의 의미 및 단어들위 위치를 나타내는 제1 벡터값과 제1 불공정 텍스트에 포함된 단어들의 의미 및 단어들의 위치를 나타내는 제2 벡터값 간의 유사도를 후보 텍스트들과 제1 불공정 텍스트 간의 유사도로 산출할 수 있다. 이때, 제1 벡터값과 제2 벡터값 간의 유사도는 평균 제곱 오차(mean square error), 유클리디안 거리(Euclidean distance), 및 Kullback-Leibler divergence 중 적어도 하나를 이용하여 산출될 수 있다.
일 실시예에 있어서, 유사도 산출부(118)는 학습 데이터 저장부(130)에 저장된 제1 학습 데이터로 학습된 워드 임베딩 모델(미도시)을 이용하여 제1 벡터값과 제2 벡터값을 산출할 수 있다.
여기서, 워드 임베딩(Word Embedding)이란, 단어들을 다차원 벡터 공간 상에 각각의 차원이 실수 값을 갖는 다차원 벡터형태로 나타내는 것을 의미한다. 벡터의 특정 차원은 하나 이상의 다양한 속성이 대응될 수 있으며, 특정 속성은 하나 이상의 차원으로 나뉘어 표현될 수 있다. 워드 임베딩 결과 생성되는 벡터는 단어들 간의 거리 행렬에 다중 차원 스케일링 기법(Multi-Dimensional Scaling, MDS)을 적용하여 다차원 임베딩 벡터 공간상에 하나의 점으로 배치될 수 있다. 제1 벡터값 및 제2 벡터값은 각 문장을 구성하는 단어들의 정보를 나타내기 위해, 문자, 숫자, 기호 중 적어도 하나로 표현될 수 있다.
이때, 임베딩 모델은 TF-IDF(Term Frequency-Inverse Document Frequency) 알고리즘을 이용하여 제1 불공정 텍스트 및 후보 텍스트로부터 단어들을 각각 추출할 수 있다.
라벨링부(119)는 유사도 산출부(118)에 의해 제2 학습 데이터가 생성되면, 제2 학습 데이터에 대한 분류정보를 라벨링한다. 일 실시예에 있어서, 라벨링부(119)는 제2 학습 데이터와 비교대상이 된 제1 학습 데이터에 라벨링되어 있는 불공정 분류정보를 제2 학습 데이터에 대한 분류정보로 라벨링할 수 있다.
상술한 실시예에 있어서, 라벨링부(119)는 유사도 산출부(118)에 의해 생성된 모든 제2 학습 데이터에 대해, 제1 학습 데이터에 라벨링되어 있는 불공정 분류정보를 제2 학습 데이터의 분류정보로 라벨링하는 것으로 설명하였다. 하지만, 다른 실시예에 있어서, 라벨링부(119)는 유사도 산출부(118)에 의해 결정된 모든 제2 학습 데이터들 중 유사도가 제1 기준치 보다 높은 제2 기준치 이상인 제2 학습 데이터들에 대해서는 제1 학습 데이터에 라벨링되어 있는 불공정 분류정보를 제2 학습 데이터의 분류정보로 라벨링하고, 유사도가 제1 기준치 이상이고 제2 기준치 보다 낮은 제2 학습 데이터들에 대해서는 사용자로부터 분류정보를 입력 받고, 입력된 분류정보를 제2 학습 데이터에 라벨링할 수도 있을 것이다.
이는 유사도가 제1 기준치와 제2 기준치 사이인 제2 학습 데이터는 불공정 조항을 포함하고 있는지 여부가 확실하지 않기 때문에 사용자로부터 확인을 거치도록 하기 위한 것이다.
한편, 본 발명에 따른 학습 데이터 생성부(110)는 용어사전 구축부(120)를 더 포함할 수 있다. 구체적으로 용어사전 구축부(120)는 제1 및 제2 학습 데이터로부터 불공정 조항에 관련된 불공정 단어들을 추출하고, 추출된 불공정 단어 별로 가중치를 부여하여 불공정 용어사전을 구축한다. 이때, 용어사전 구축부(120)는 제1 학습 데이터로부터 불공정 용어를 추출하여 불공정 용어사전의 초기 버전을 구축함으로써 키워드 생성부(112)가 키워드 생성시 초기 버전의 불공정 용어사전에 포함된 불공정 단어들을 이용하여 키워드를 생성할 수 있도록 할 수 있다.
또한, 용어사전 구축부(120)에 의해 구축된 불공정 용어사전에 기록된 불공정 용어들을 이용하여 학습부(140)가 구동유닛(200)에 포함된 인공지능 모델을 학습시킬 수 있어 구동유닛(200)이 비정형 컨텐츠를 보다 정확하게 분류하도록 할 수 있다.
구체적으로 용어사전 구축부(120)는 형태소 분석기를 이용하여 제1 또는 제2 학습 데이터로부터 형태소를 분석함으로써 제1 또는 제2 학습 데이터로부터 명사, 형용사, 동사, 또는 복합명사를 포함하는 단어를 추출한다. 용어사전 구축부(120)는 추출된 단어에 각 단어의 품사정보를 태그정보로 매핑하여 기록한다.
또한, 용어사전 구축부(120)는 추출된 단어들 중 사용자로부터 선택되는 단어들을 불공정 단어로 선전함으로써 불공정 용어사전을 구축한다. 이때, 용어사전 구축부(120)는 사용자로부터 해당 단어들의 동의어 또는 유의어를 추가로 입력받아 사용자에 의해 선택된 단어, 동의어, 또는 유의어를 하나의 그룹단위로 저장할 수도 있다.
한편, 용어사전 구축부(120)는 불공정 용어사전에 기록된 각 불공정 단어들의 출현 빈도수, 해당 불공정 단어와 특정 단어가 동시 출현되는 빈도수 등을 기초로 각 불공정 단어 별로 산출되는 가중치를 해당 불공정 단어와 매핑시켜 저장하거나, 각 불공정 단어들을 워드 임베딩 모델에 입력함으로써 각 불공정 단어들에 대한 벡터값을 해당 불공정 단어와 매핑시켜 저장할 수 있다.
다시 도 1을 참조하면, 학습 데이터 저장부(130)에는 사용자에 의해 생성된 제1 학습 데이터 및 학습 데이터 생성부(110)에 의해 자동 생성된 제2 학습 데이터가 저장된다. 이때, 제1 학습 데이터에는 제1 학습 데이터가 불공정 조항을 포함하는지 여부를 나타내는 불공정 분류정보가 라벨링되어 있고, 제2 학습 데이터에는 제2 학습 데이터가 불공정 조항을 포함하는지 여부를 나타내는 불공정 분류정보가 라벨링되어 있을 수 있다.
또한, 학습 데이터 저장부(130)에는 용어사전 구축부(120)에 의해 구축된 불공정 용어사전이 기록될 수 있다.
학습부(140)는 학습 데이터 저장부(130)에 저장된 제1 및 제2 학습 데이터를 이용하여 구동유닛(200)에 포함된 딥러닝 기반의 인공지능 모델을 학습시킨다.
구동유닛(200)은 분류 대상이 되는 타겟 비정형 컨텐츠가 입력되면 해당 타겟 비정형 컨텐츠로부터 타겟 텍스트를 추출하고, 추출된 타겟 텍스트가 불공정 조항을 포함하는지 여부를 판단한다.
이를 위해, 구동유닛(200)은 도 1에 도시된 바와 같이, 타겟 비정형 컨텐츠 입력부(210), 타겟 텍스트 추출부(212), 제1 분류정보 생성부(220), 제2 분류모델(222), 제2 분류정보 생성부(230), 제2 분류모델(232), 및 불공정 텍스트 분류부(240)를 포함한다.
타겟 비정형 컨텐츠 입력부(210)는 외부로부터 분류 대상이 되는 타겟 비정형 컨텐츠를 획득한다. 상술한 바와 같이, 타겟 비정형 컨텐츠는 법률조항 또는 계약조항이 포함된 법률문서, 예컨대 약관문서일 수 있다. 타겟 비정형 컨텐츠 입력부(210)는 통신 네트워크 또는 저장매체 등으로부터 타겟 비정형 컨텐츠를 획득할 수 있다.
타겟 텍스트 추출부(212)는 타겟 비정형 컨텐츠 입력부(210)를 통해 획득된 타겟 비정형 컨텐츠로부터 타겟 텍스트들을 추출한다. 구체적으로, 타겟 텍스트 추출부(212)는 타겟 비정형 컨텐츠 입력부(210)에 의해 획득된 타겟 비정형 컨텐츠 내에서 법률조항 또는 계약조항을 나타내는 음절 또는 기호로 구성된 고유 구분자들 사이에 포함된 하나 이상의 문장들을 타겟 텍스트로 추출한다.
타겟 텍스트 추출부(212)가 타겟 비정형 컨텐츠로부터 타겟 텍스트를 추출하는 방법은 후보 텍스트 추출부(116)가 비정형 컨텐츠로부터 후보 텍스트들을 추출하는 방법과 동일하므로 구체적인 설명은 생략한다. 타겟 텍스트 추출부(212)는 타겟 비정형 컨텐츠로부터 추출되는 타겟 텍스트들을 제1 분류정보 생성부(220) 또는 제2 분류정보 생성부(220)로 입력한다.
제1 분류정보 생성부(220)는 제1 분류모델(222)을 이용하여 불공정 텍스트 분류를 위한 제1 결과값을 생성한다. 이때, 제1 분류모델(222)은 제1 및 제2 학습 데이터를 이용하여 학습된 딥러닝 기반의 인공지능(Artificial Intelligence) 모델일 수 있다.
구체적으로, 제1 분류정보 생성부(220)는 타겟 텍스트 추출부(212)로부터 타겟 텍스트가 입력되면 제1 및 제2 학습 데이터를 기초로 문장 단위로 학습되어 있는 제1 분류모델(222)에 타겟 텍스트를 입력한다. 제1 분류모델(222)은 제1 및 제2 학습 데이터를 이용한 문장 단위의 학습을 통해 가중치가 조절된 인공 신경망을 이용하여 타겟 텍스트가 불공정 조항을 포함하고 있을 가능성을 확률값으로 산출한다. 이에 따라, 제1 분류정보 생성부(220)는 제1 분류모델(222)로부터 출력되는 확률값을 불공정 텍스트 분류를 위한 제1 결과값으로 생성하게 된다.
일 예로, 도 4a에 도시된 바와 같이, 타겟 비정형 컨텐츠(400)로부터 추출된 타겟 텍스트(410)가 입력되면, 제1 분류정보 생성부(220)는 도 4b에 도시된 바와 같이 제1 분류모델(222)을 이용하여 타겟 텍스트(410)가 불공정 조항을 포함하고 있을 확률값인 "0.894"를 제1 결과값으로 생성하게 된다.
다시 도 1을 참조하면, 제2 분류정보 생성부(230)는 제2 분류모델(232)을 이용하여 불공정 텍스트 분류를 위한 제2 결과값을 생성한다.
구체적으로, 제2 분류정보 생성부(230)는 타겟 텍스트 추출부(212)로부터 타겟 텍스트가 입력되면, 제1 및 제2 학습 데이터에 포함되어 있는 단어 단위로 학습되어 있는 제2 분류모델(232)에 타겟 텍스트를 입력한다. 이때, 제2 분류모델(232)은 제1 및 제2 학습 데이터를 이용하여 학습된 딥러닝 기반의 인공지능 모델일 수 있다. 제2 분류모델(232)은 제1 및 제2 학습 데이터에 포함된 단어 단위의 학습을 통해 가중치가 조절된 인공 신경망을 이용하여 타겟 텍스트가 불공정 조항을 포함하고 있을 가능성을 확률값으로 산출한다. 이에 따라, 제2 분류정보 생성부(230)는 제2 분류모델(232)로부터 출력되는 확률값을 불공정 텍스트 분류를 위한 제2 결과값으로 생성하게 된다.
일 실시예에 있어서, 제2 분류모델(232)은 워드 임베딩 기반의 인공지능 모델로 구현될 수 있다. 이러한 실시예에 따르는 경우, 제2 분류모델(232)은 타겟 텍스트가 입력되면 타겟 텍스트에 포함된 단어들 및 해당 단어들의 벡터값을 추출하고, 추출된 벡터값을 기초로 불공정 용어사전에 기록된 불공정 단어들 중 제2 분류모델(232)에 의해 추출된 단어들과 유사한 단어들을 검색한다. 제2 분류모델(232)은 검색된 불공정 단어들에 매핑되어 있는 가중치들을 스코어링(Scoring)하여 불공정 텍스트 분류를 위한 제2 결과값을 산출한다. 일 예로, 제2 분류모델(232)은 FastText기반 CBOW 또는 SKIP-GRAM 모델로 구현될 수 있다.
제2 분류정보 생성부(230)가 타겟 텍스트로부터 제2 결과값을 산출한 예가 상술한 도 4(c)시되어 있다. 도 4(c)에 도시된 예에서와 같이, 타겟 비정형 컨텐츠(400)로부터 추출된 타겟 텍스트(410)가 입력되면, 제2 분류정보 생성부(230)는 제2 분류모델(232)을 이용하여 타겟 텍스트(410)가 불공정 용어를 포함하고 있을 확률값인 "0.758"를 제2 결과값으로 생성하게 된다. 도 4(c)에서 빨간색으로 표시된 단어는 불공정 용어사전에 기록된 불공정 용어를 나타낸다.
상술한 실시예에 있어서는, 제2 분류정보 생성부(220)는 타겟 텍스트 추출부(212)로부터 제공되는 모든 타겟 텍스트들에 대해 제2 결과값을 생성하는 것으로 기재하였다. 하지만, 다른 실시예에 있어서, 제2 분류정보 생성부(220)는 타겟 텍스트들 중 제1 결과값이 미리 정해진 임계치 이상인 타겟 텍스트에 대해서만 제2 결과값을 생성할 수도 있다. 이러한 실시예에 따르는 경우 제2 분류정보 생성부(220)는 제1 분류정보 생성부(220)로부터 제1 결과값이 임계치 이상인 타겟 텍스트를 제공받을 수도 있다.
불공정 텍스트 분류부(240)는 제1 분류정보 생성부(220)에 의해 생성된 제1 결과값과 제2 분류정보 생성부(230)에 의해 생성된 제2 결과값을 이용하여 불공정 텍스트를 분류한다. 일 실시예에 있어서, 불공정 텍스트 분류부(240)는 제1 결과값에 제1 가중치를 반영한 결과값과 제2 결과값에 제1 가중치보다 낮은 제2 가중치를 반영한 결과값을 합산하고, 합산결과가 임계치 이상이면 타겟 텍스트를 불공정 조항이 포함된 불공정 텍스트로 분류한다. 반면, 불공정 텍스트 분류부(240)는 합산결과가 임계치보다 작으면 타겟 텍스트를 공정조항이 포함된 공정 텍스트로 분류한다.
예컨대, 불공정 텍스트 분류부(240)는 제1 가중치는 70%로 설정하고, 제2 가중치는 30%로 설정할 수 있다.
이와 같이, 구동유닛(200)은 문장 기반으로 분류결과를 예측하는 제1 분류모델(222)과 문장 내에서 추출되는 단어들에 대한 워드 임베딩 기반으로 분류결과를 예측하는 제2 분류모델(232)을 이용하여 타겟 비정형 컨텐츠에서 추출된 타겟 텍스트가 불공정 텍스트인지를 최종적으로 결정할 수 있어 분류결과의 정확도를 향상시킬 수 있게 된다.
한편, 불공정 텍스트 분류부(240)는 타겟 텍스트가 불공정 조항을 포함하는 것으로 판단되면, 타겟 텍스트를 학습 데이터 생성부(110)로 피드백하고, 학습 데이터 생성부(110)는 불공정 텍스트로 분류된 타겟 텍스트를 제3 학습 데이터로 생성하여 학습 데이터 저장부(130)제 저장할 수 있다.
이와 같이 본 발명에 따르면, 불공정 텍스트로 분류된 타겟 텍스트를 제3 학습 데이터로 새롭게 생성할 수 있어 학습 데이터의 개수를 증가시킬 수 있게 되고, 이를 통해 구동유닛(200)을 보다 많은 학습 데이터로 학습시킬 수 있어 비정형 컨텐츠를 보다 정확하게 분류할 수 있게 된다.
본 발명이 속하는 기술분야의 당업자는 상술한 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 비정형 컨텐츠 자동 분류 시스템 100: 학습유닛
110: 학습 데이터 생성부 112: 키워드 생성부
114: 검색엔진 116: 후보 텍스트 추출부
118: 유사도 산출부 119: 라벨링부
120: 용어사전 구축부 130: 학습 데이터 저장부
140: 학습부 200: 구동유닛
210: 타겟 비정형 컨텐츠 입력부 210: 타겟 텍스트 추출부
220: 제1 분류정보 생성부 222: 제1 분류모델
230: 제2 분류정보 생성부 232: 제2 분류모델
240: 불공정 텍스트 분류부

Claims (17)

  1. 제1 불공정 텍스트로 구성된 제1 학습 데이터 및 상기 제1 학습 데이터를 기초로 생성된 제2 학습 데이터가 저장되는 학습 데이터 저장부;
    상기 제1 불공정 텍스트로부터 생성된 키워드를 이용하여 비정형 컨텐츠를 검색하고, 상기 비정형 컨텐츠로부터 상기 제1 불공정 텍스트와의 유사도를 기준으로 추출된 제2 불공정 텍스트로 상기 제2 학습 데이터를 생성하는 학습 데이터 생성부;
    타겟 비정형 컨텐츠에 포함된 타겟 텍스트가 입력되면, 상기 제1 및 제2 학습 데이터를 이용하여 문장 단위로 학습된 제1 분류모델을 이용하여 불공정 텍스트 분류를 위한 제1 결과값을 산출하는 제1 분류정보 생성부;
    상기 타겟 텍스트가 입력되면, 상기 제1 및 제2 학습 데이터에 포함된 단어 기반으로 학습된 제2 분류모델을 이용하여 불공정 텍스트 분류를 위한 제2 결과값을 생성하는 제2 분류정보 생성부; 및
    상기 제1 및 제2 결과값을 이용하여 상기 타겟 비정형 컨텐츠 중 불공정 텍스트를 분류하는 불공정 텍스트 분류부를 포함하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  2. 제1항에 있어서,
    상기 학습 데이터 생성부는,
    상기 제1 불공정 텍스트에 포함된 불공정 단어, 상기 불공정 단어의 동의어, 및 상기 불공정 단어의 유의어 중 적어도 하나를 이용하여 상기 키워드를 생성하는 키워드 생성부를 포함하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  3. 제1항에 있어서,
    상기 학습 데이터 생성부는,
    비정형 컨텐츠들이 문서단위로 저장된 데이터베이스로부터 상기 키워드가 포함된 상기 비정형 컨텐츠를 검색하는 검색엔진을 포함하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  4. 제1항에 있어서,
    상기 비정형 컨텐츠로부터 후보 텍스트들을 추출하고, 상기 후보 텍스트들과 상기 제1 불공정 텍스트와의 유사도를 산출하여 유사도가 기준치 이상인 후보 텍스트를 상기 제2 불공정 텍스트로 추출하는 유사도 산출부를 포함하는 것을 특징으로하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  5. 제1항에 있어서,
    상기 학습 데이터 생성부는,
    상기 비정형 컨텐츠로부터 추출된 후보 텍스트 별로 해당 후보 텍스트에 포함된 단어들의 의미 및 단어들의 위치를 기초로 산출된 제1 벡터값과 상기 제1 불공정 텍스트에 포함된 단어들의 의미 및 단어들의 위치를 나타내는 제2 벡터값 간의 유사도를 상기 후보 텍스트와 상기 제1 불공정 텍스트 간의 유사도로 산출하는 유사도 산출부를 포함하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  6. 제5항에 있어서,
    상기 유사도 산출부는,
    평균 제곱 오차(mean square error), 유클리디안 거리(Euclidean distance), 및 Kullback-Leibler divergence 중 적어도 하나를 이용하여 상기 후보 텍스트에 대한 제1 벡터값과 상기 제1 불공정 텍스트에 대한 제2 벡터값 간의 유사도를 산출하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  7. 제1항에 있어서,
    상기 비정형 컨텐츠로부터 상기 제2 불공정 텍스트 추출을 위한 후보 텍스트를 추출하는 후보 텍스트 추출부를 더 포함하고,
    상기 후보 텍스트 추출부는 상기 비정형 컨텐츠 내에서 법률조항 또는 계약조항을 나타내는 고유 구분자들 사이에 포함된 적어도 하나의 문장들을 상기 후보 텍스트로 추출하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  8. 제7항에 있어서,
    상기 고유 구분자는 음절 "조" 또는 상기 음절 "조"에 해당하는 기호를 포함하는 제1 구분자, 음절 "항"또는 상기 음절 "항"에 해당하는 기호를 포함하는 제2 구분자, 음절 "호" 또는 상기 음절 "호"에 해당하는 기호를 포함하는 제3 구분자, 및 음절 "목" 또는 상기 음절 "목에 해당하는 기호를 포함하는 제4 구분자 중 적어도 하나를 포함하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  9. 제7항에 있어서,
    상기 후보 텍스트 추출부는,
    음절 "조" 또는 상기 음절 "조"에 해당하는 기호를 포함하는 제1 구분자들 사이에 위치하는 적어도 하나의 문장, 상기 제1 구분자와 음절 "항"또는 상기 음절 "항"에 해당하는 기호를 포함하는 제2 구분자 사이에 위치한 적어도 하나의 문장, 상기 제1 구분자와 음절 "호"또는 상기 음절 "호"에 해당하는 기호를 포함하는 제3 구분자 사이에 위치한 적어도 하나의 문장, 또는 상기 제1 구분자와 음절 "목" 또는 상기 음절 "목에 해당하는 기호를 포함하는 제4 구분자 사이에 위치한 적어도 하나의 문장을 상기 후보 텍스트로 추출하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  10. 제7항에 있어서,
    상기 후보 텍스트 추출부는,
    음절 "항"또는 상기 음절 "항"에 해당하는 기호를 포함하는 제2 구분자들 사이에 위치한 적어도 하나의 문장, 상기 제2 구분자와 음절 "호"또는 상기 음절 "호"에 해당하는 기호를 포함하는 제3 구분자 사이에 위치한 적어도 하나의 문장, 또는 상기 제2 구분자와 음절 "목" 또는 상기 음절 "목에 해당하는 기호를 포함하는 제4 구분자 사이에 위치한 적어도 하나의 문장을 상기 후보 텍스트로 추출하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  11. 제7항에 있어서,
    상기 후보 텍스트 추출부는,
    음절 "호"또는 상기 음절 "호"에 해당하는 기호를 포함하는 제3 구분자들 사이에 위치한 적어도 하나의 문장 또는 상기 제3 구분자와 음절 "목" 또는 상기 음절 "목에 해당하는 기호를 포함하는 제4 구분자 사이에 위치한 적어도 하나의 문장을 상기 후보 텍스트로 추출하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  12. 제7항에 있어서,
    상기 후보 텍스트 추출부는,
    음절 "목에 해당하는 기호를 포함하는 제4 구분자들 사이에 위치한 적어도 하나의 문장을 상기 후보 텍스트로 추출하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  13. 제7항에 있어서,
    상기 후보 텍스트 추출부는 상기 고유 구분자들 중 말미에 조사가 배치된 고유 구분자는 제외시키는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  14. 제1항에 있어서,
    상기 타겟 텍스트는 법률조항 또는 계약조항이 기재된 상기 타겟 비정형 컨텐츠로부터 추출된 텍스트이고, 상기 분류는 상기 타겟 텍스트가 불공정 조항을 포함하는 불공정 텍스트인지 공정조항을 포함하는 공정 텍스트인지에 대한 분류인 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  15. 제1항에 있어서,
    상기 학습 데이터 생성부는 상기 제1 및 제2 학습 텍스트에 포함된 불공정 단어들 및 각 불공정 단어 별 가중치를 이용하여 불공정 용어사전을 구축하고,
    상기 제2 분류정보 생성부는 상기 제2 분류모델을 이용하여 상기 불공정 용어사전에 기록된 불공정 단어들 중 상기 타겟 텍스트에 포함된 단어들과 유사한 불공정 단어를 검색하고, 검색된 불공정 단어에 매핑되어 있는 가중치들을 스코어링(Scoring)하여 상기 제2 결과값을 산출하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  16. 제1항에 있어서,
    상기 불공정 텍스트 분류부는, 상기 제1 결과값에 제1 가중치를 반영한 결과값과 상기 제2 결과값에 상기 제1 가중치보다 낮은 제2 가중치를 반영한 결과값을 합산하고, 합산결과가 임계치 이상이면 상기 타겟 텍스트를 불공정 조항이 포함된 불공정 텍스트로 분류하고, 상기 합산결과가 상기 임계치보다 작으면 상기 타겟 텍스트를 공정조항이 포함된 공정 텍스트로 분류하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
  17. 제1항에 있어서,
    상기 학습 데이터 생성부는,
    상기 불공정 텍스트 분류부에 의해 불공정 텍스트로 분류된 상기 타겟 텍스트를 제3 학습 데이터로 생성하여 상기 학습 데이터 저장부에 저장하는 것을 특징으로 하는 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템.
KR1020200189474A 2020-12-31 2020-12-31 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템 KR102570536B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200189474A KR102570536B1 (ko) 2020-12-31 2020-12-31 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200189474A KR102570536B1 (ko) 2020-12-31 2020-12-31 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템

Publications (2)

Publication Number Publication Date
KR20220096748A KR20220096748A (ko) 2022-07-07
KR102570536B1 true KR102570536B1 (ko) 2023-08-23

Family

ID=82397321

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200189474A KR102570536B1 (ko) 2020-12-31 2020-12-31 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템

Country Status (1)

Country Link
KR (1) KR102570536B1 (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101259558B1 (ko) * 2009-10-08 2013-05-07 한국전자통신연구원 문장경계 인식 장치 및 방법
KR101737887B1 (ko) * 2015-09-18 2017-05-19 아주대학교산학협력단 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
KR101983975B1 (ko) * 2017-04-19 2019-05-30 아시아나아이디티 주식회사 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
KR102034668B1 (ko) * 2017-07-18 2019-11-08 한국과학기술원 이종 컨텐츠 추천 모델 제공 장치 및 방법

Also Published As

Publication number Publication date
KR20220096748A (ko) 2022-07-07

Similar Documents

Publication Publication Date Title
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
CN108763510B (zh) 意图识别方法、装置、设备及存储介质
CN105095204B (zh) 同义词的获取方法及装置
Ratinov et al. Learning-based multi-sieve co-reference resolution with knowledge
Daumé III et al. A large-scale exploration of effective global features for a joint entity detection and tracking model
Chong et al. Natural language processing for sentiment analysis: an exploratory analysis on tweets
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
US10496756B2 (en) Sentence creation system
CN102567509B (zh) 视觉信息辅助的即时通信方法及系统
CN110532328B (zh) 一种文本概念图构造方法
WO2014030721A1 (ja) 文書分類装置および文書分類方法
CN106095778A (zh) 搜索引擎的中文搜索词自动纠错方法
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
Adhitama et al. Topic labeling towards news document collection based on Latent Dirichlet Allocation and ontology
Sazzed A hybrid approach of opinion mining and comparative linguistic analysis of restaurant reviews
Saif et al. Mapping Arabic WordNet synsets to Wikipedia articles using monolingual and bilingual features
CN111104437A (zh) 基于对象模型的试验数据统一检索方法和系统
Wang et al. Chinese subjectivity detection using a sentiment density-based naive Bayesian classifier
Loglisci et al. Toward geographic information harvesting: Extraction of spatial relational facts from Web documents
KR102570536B1 (ko) 딥러닝 기반의 비정형 컨텐츠 자동 분류 시스템
Pathak et al. Context guided retrieval of math formulae from scientific documents
Tian et al. A multi-modal topic model for image annotation using text analysis
Khoufi et al. Chunking Arabic texts using conditional random fields
Liao et al. The sg-cim entity linking method based on bert and entity name embeddings

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant