KR20230013793A - 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법 - Google Patents

어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법 Download PDF

Info

Publication number
KR20230013793A
KR20230013793A KR1020210094696A KR20210094696A KR20230013793A KR 20230013793 A KR20230013793 A KR 20230013793A KR 1020210094696 A KR1020210094696 A KR 1020210094696A KR 20210094696 A KR20210094696 A KR 20210094696A KR 20230013793 A KR20230013793 A KR 20230013793A
Authority
KR
South Korea
Prior art keywords
document
sentence
similarity
generating
word
Prior art date
Application number
KR1020210094696A
Other languages
English (en)
Inventor
김태현
김은빈
김정규
Original Assignee
현대모비스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대모비스 주식회사 filed Critical 현대모비스 주식회사
Priority to KR1020210094696A priority Critical patent/KR20230013793A/ko
Priority to US17/505,979 priority patent/US20230027526A1/en
Publication of KR20230013793A publication Critical patent/KR20230013793A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

본 실시예는, 계층적 어텐션 망(Hierarchical Attention Network: HAN) 및 의미분석(semantic analysis) 기법을 기반으로 문서에 대한 판정 결과, 및 판정 결과에 대한 설명가능한(explainable) 근거를 제시함으로써, 문서에 대한 평가 지표를 생성하는 AI(Artificial Intelligence) 기반 문서 분류장치 및 방법을 제공한다.

Description

어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법{Method and Apparatus for Classifying Document Based on Attension Mechanism and Semantic Analysis}
본 개시는 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법에 관한 것이다. 더욱 상세하게는, 계층적 어텐션 망(Hierarchical Attention Network: HAN) 및 의미분석(semantic analysis) 기법을 기반으로 문서에 대한 판정 결과, 및 판정 결과에 대한 설명가능한(explainable) 근거를 제시함으로써, 문서에 대한 평가 지표를 생성하는 AI(Artificial Intelligence) 기반 문서 분류장치 및 방법에 관한 것이다.
이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
하나의 문서에 기술된 내용을 평가한 후, 평가한 결과에 따라 해당 문서를 분류하는 작업은, 사회적 시스템의 많은 부분에서 발견된다. 예컨대, 종래의 채용 업무에서는, 지원자들이 형식에 따라 작성한, 방대한 양의 자기소개서를 하나씩 검토한 후, 회사에 적합한 인재인지 판별함으로써, 서류 심사 결과를 생성한다. 다른 예로서, 입시 또는 고시 등의 논술 시험 채점에서는, 수험생이 논제에 대해 작성한, 방대한 양의 서술형 답안에 대한 평가가 수행된다. 또다른 예로서, 어학 시험 채점에서도, 응시자가 작성한, 쓰기(writing) 항목의 에세이에 대한 평가가 수행된다.
이러한 문서 평가 과정에서의 문제점은, 평가 또는 선별 기준이 평가자의 주관에 따라 일정하지 않을 수 있다는 점이다. 예컨대, 종래의 채용 업무의 경우, 인사 담당자가 자기소개서를 평가함에 있어서, 일관된 기준을 적용하는 것이 쉽지 않고, 평가 결과에 대해 자기소개서의 어떤 부분에 근거했는지에 대한 정보를 제시하기도 어렵다.
선별과정의 객관성을 확보한다는 측면에서, AI(Artificial Intelligence) 기술의 도움을 받고는 있으나, 아직은 면접과정의 제한적인 분야에 도움을 받는 것에 그치고 있다. 이러한 판별 과정에서의 불확실성은, 선별 과정의 효율성을 감소시키고, 지원자들에게 평가 과정의 공정성에 대한 의심을 발생시킬 수 있다. 따라서, 문서 평가 및 분류에 있어서, 사람에 의한 주관적 개입을 가급적 배제하고, 판별 결과에 대한 객관적 근거를 제시할 수 있는 방안이 고려되어야 한다.
Yang, Zichao, et al. "Hierarchical attention networks for document classification." Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies. 2016.
본 개시는, 계층적 어텐션 망(Hierarchical Attention Network: HAN) 및 의미분석(semantic analysis) 기법을 기반으로 문서에 대한 판정 결과, 및 판정 결과에 대한 설명가능한(explainable) 근거를 제시함으로써, 문서에 대한 평가 지표를 생성하는 AI(Artificial Intelligence) 기반 문서 분류장치 및 방법을 제공하는 데 목적이 있다.
본 개시의 실시예에 따르면, 컴퓨팅 장치가 수행하는, 문서를 분류하는 방법에 있어서, 문서에 포함된 문장을 구성하는 단어에 대한 워드 임베딩(word embedding)을 획득하는 과정; 의미분석(semantic analysis) 모델을 이용하여 상기 워드 임베딩으로부터 상기 문서를 표현할 수 있는 문서 특성(feature)을 생성하는 과정, 여기서 상기 문서 특성은 키워드 유사도(keyword similarity) 및 문장 유사도(sentence similarity)를 나타냄; 추론 모델을 이용하여, 상기 문서 특성 및 상기 워드 임베딩으로부터 상기 문서에 대한 판정 결과를 생성하는 과정; 및 상기 판정 결과에 대해 설명가능한(explainable) 판정 근거를 제공하는 과정을 포함하는, 문서를 분류하는 방법을 제공한다.
본 개시의 다른 실시예에 따르면, 컴퓨팅 장치가 수행하는, 문서를 분류하기 위한 추론 모델을 트레이닝하는 방법에 있어서, 상기 문서에 포함된 문장을 구성하는 단어에 대한 워드 임베딩(word embedding), 및 레이블을 획득하는 과정, 여기서, 상기 레이블은 상기 문서에 대한 평가 결정, 평가 점수 또는 평가 등급을 나타냄; 의미분석(semantic analysis) 모델을 이용하여 상기 워드 임베딩으로부터 상기 문서를 표현할 수 있는 문서 특성(feature)을 생성하는 과정, 여기서, 상기 특성은 키워드 유사도(keyword similarity) 및 문장 유사도(sentence similarity)를 나타냄; 추론 모델을 이용하여, 상기 문서 특성 및 상기 워드 임베딩으로부터 상기 문서에 대한 판정 결과를 생성하는 과정, 여기서, 판정 결과는 상기 평가 결정에 대한 확률, 상기 평가 점수에 대한 추정치, 또는 평가 등급에 대한 추정치를 나타냄; 및 상기 판정 결과와 상기 레이블을 기반으로 손실 함수(loss function)를 정의하고, 상기 손실 함수를 감소시키는 방향으로, 상기 추론 모델의 파라미터를 업데이트하는 과정을 포함하는, 트레이닝하는 방법을 제공한다.
본 개시의 다른 실시예에 따르면, 문서에 포함된 문장을 구성하는 단어에 대한 워드 임베딩(word embedding)을 획득하는 입력부; 상기 워드 임베딩으로부터 상기 문서를 표현할 수 있는 문서 특성(feature)을 생성하는 의미분석(semantic analysis) 모델, 여기서 상기 특성은 키워드 유사도(keyword similarity) 및 문장 유사도(sentence similarity)를 나타냄; 상기 문서 특성 및 상기 워드 임베딩으로부터 상기 문서에 대한 판정 결과를 생성하는 추론 모델을 포함하되, 상기 추론 모델 및 상기 의미분석 모델은, 상기 판정 결과에 대해 설명가능한(explainable) 판정 근거를 제공하는, 문서 분류장치를 제공한다.
본 개시의 다른 실시예에 따르면, 문서를 분류하는 방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.
본 개시의 다른 실시예에 따르면, 추론 모델을 트레이닝하는 방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 따르면, HAN 및 의미분석 기법을 기반으로 문서에 대한 판정 결과, 및 판정 결과에 대한 설명가능한 근거를 제시하는 AI 기반 문서 분류장치 및 방법을 제공함으로써, 문서에 대한 평가에 참고할 수 있는 객관적 지표를 생성하는 것이 가능해지는 효과가 있다.
또한 본 실시예에 따르면, 문서에 대한 판정 결과, 및 판정 결과에 대한 설명가능한 근거를 제시하는 AI 기반 문서 분류장치 및 방법을 제공함으로써, 자기소개서, 서술형 답안, 평가용 에세이 등과 같은 문서의 평가에 있어서, 일관된 기준을 적용하는 것이 가능해지는 효과가 있다.
도 1은 본 개시의 일 실시예에 따른 문서 분류장치에 대한 개략적인 블록도이다.
도 2는 본 개시의 일 실시예에 따른 학습 장치에 대한 개념적인 블록도이다.
도 3은 본 개시의 일 실시예에 따른 문서를 분류하는 방법에 대한 흐름도이다.
도 4는 본 개시의 일 실시예에 따른 추론 모델의 트레이닝 방법에 대한 흐름도이다.
도 5는 계층적 어텐션 망에 대한 개략적인 블록도이다.
이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.
본 실시예는 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법에 관한 내용을 개시한다. 보다 자세하게는, 계층적 어텐션 망(Hierarchical Attention Network: HAN) 및 의미분석(semantic analysis) 기법을 기반으로 문서에 대한 판정 결과, 및 판정 결과에 대한 설명가능한(explainable) 근거를 제시함으로써, 문서에 대한 평가 지표를 생성하는 AI(Artificial Intelligence) 기반 문서 분류장치 및 방법을 제공한다.
이하의 설명에서, 하나의 문서(document)는 적어도 하나의 문장(sentence)을 포함하고, 하나의 문장은 적어도 하나의 단어(word)를 포함한다.
문서는 자기소개서, 서술형 답안, 또는 에세이와 같은, 평가의 대상이 되는, 서술 형식의 어느 문서든 될 수 있다.
문서에 대한 판정 결과는, 예컨대, 자기소개서의 경우, 합격(acceptance), 불합격(rejection), 또는 보류(holding)과 같은 평가 결정 중의 하나일 수 있고, 서술형 답안 또는 에세이의 경우, 평가 점수(예컨대, 최저점 내지 최고점 중의 어느 하나의 점수)/평가 등급(예컨대, 최저 등급 내지 최고 등급 중의 어느 하나의 등급)일 수 있다.
도 1은 본 개시의 일 실시예에 따른 문서 분류장치에 대한 개략적인 블록도이다.
본 실시예에 따른 문서 분류장치(100)는, HAN 및 의미분석(semantic analysis) 모델을 기반으로 문서에 대한 판정 결과, 및 판정 결과에 대한 설명가능한 근거를 제시한다. 문서 분류장치(100)는 인코더(102), 추론 모델, 의미분석 모델, 및 순서정렬부(114)의 전부 또는 일부를 포함한다. 여기서, 본 실시예에 따른 문서 분류장치(100)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 문서 분류장치(100)는 추론 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.
도 1의 도시는 본 실시예에 따른 예시적인 구성이며, 문서의 종류, 인코더의 구조와 동작, 추론 모델의 구조와 동작, 의미분석 모델의 구조와 동작, 트레이닝부의 동작 등에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 다양한 구현이 가능하다.
인코더(102)는 문서에 포함된 단어를 인코딩하여, 단어에 해당되는 벡터를 나타내는 워드 임베딩(word embedding)을 생성한다. 인코더(102)로는, 단어로부터 워드 임베딩을 생성할 수 있는, 딥러닝 기반의 어느 워드 임베딩 모델(word2vec, GloVe 등)이든 이용될 수 있다. 이러한 워드 임베딩 모델은, 정답 레이블이 없는(unlabeled) 대용량의 말뭉치(dialogue corpus)에 비지도 학습방법(unsupervised learning)을 적용하여 사전에 트레이닝된다.
추론 모델은, 딥러닝 기반 신경망으로 구현되며, 워드 임베딩으로부터 문서에 대한 판정 결과를 생성한다. 추론 모델은 HAN(108), 결합부(110), 및 전연결 레이어(fully-connected layer, 112)를 포함한다.
한편, 의미분석 모델은 워드 임베딩을 이용하여 의미분석을 수행함으로써, 문서를 표현할 수 있는 문서 특성(feature)으로서, 키워드 유사도(keyword similarity) 및 문장 유사도(sentence similarity)를 생성한다. 의미분석 모델은 키워드분석부(104) 및 문장분석부(106)를 포함한다. 문서 특성은 문서가 내포하는 직관적인 특성을 정량화한 수치로 나타내어질 수 있다.
추론 모델에 포함된 HAN(108)은, 도 2에 예시된 바와 같이, 문서가 포함하는 문장 및 단어로 이어지는 계층적 구조를 기반으로 문서를 분류하는 모델이다(비특허문헌 1 참조). 어텐션 메커니즘(attention mechanism)을 이용하여, 각 단어와 문장이 갖는 중요도에 따라 가중치를 다르게 생성함으로써, HAN(108)은 문서 분류의 성능을 향상시킬 수 있다.
HAN(108)은, 단어 인코더(502), 단어 어텐션부(504), 문장 인코더(506) 및 문장 어텐션부(508)을 포함한다. HAN(108)은, 단어 어텐션부(504) 및 문장 어텐션부(508)을 이용하여 두 번의 어텐션 메커니즘을 수행한다.
먼저, 문서의 계층구조 중 하위 계층에 위치하는 단어에 대한 어텐션의 적용을 설명한다. 하나의 문장에 대해, 단어의 워드 임베딩을 인코딩(단어 인코더(502)에 의해 수행됨)하여, 단어 정보가 담긴 단어 어노테이션(annotation)이 생성된다. 단어 어텐션부(504)는, 문장 내에서 단어가 차지하는 중요도를 파악하여, 해당 단어에 대한 가중치를 산정한 후, 이러한 가중치를 기반으로 단어 어노테이션들을 가중합하여 문장 벡터(sentence vector)를 생성한다.
다음, 상위 계층인 문장에 대한 어텐션의 적용을 설명한다. 하나의 문서에 대해, 문장 벡터를 인코딩(문장 인코더(502)에 의해 수행됨)하여 문장 정보가 담긴 문장 어노테이션이 생성된다. 문장 어텐션부(508)는, 문서 내에서 문장이 차지하는 중요도를 파악하여, 해당 문장에 대한 가중치를 생성한 후, 이러한 가중치를 기반으로 문장 어노테이션들을 가중합하여 문서 벡터(document vector)를 생성한다.
HAN이 단어가 차지하는 중요도, 및 문장이 차지하는 중요도를 파악하는 과정은 본 발명의 범위가 아니므로, 자세한 설명을 생략한다(비특허문헌 1 참조).
한편, 문서 벡터는 문서분류에 대한 결과로서 이용될 수 있으나, 본 실시예에서는, 의미분석 모델이 생성하는 문서 특성을 추가적으로 고려하여, 문서분류에 대한 정확도를 향상시킨다.
키워드분석부(104)는, 타겟 키워드(target keyword)를 기준으로, 워드 임베딩에 대한 키워드 유사도를 생성한다. 여기서, 타겟 키워드는, 워드 임베딩과 동일한 형태로 표현되고, 사전에 설정될 수 있다. 예컨대, 문서가 자기소개서인 경우, 채용 부서에 의해 결정되거나, 에세이인 경우, 주제와 관련된 단어 벡터로 결정될 수 있다.
키워드 유사도는 문서에서 타겟 키워드와 유사한 단어가 사용된 횟수를 나타내는 문서 특성이다. 키워드분석부(104)는, 워드 임베딩과 타겟 키워드 간의 코사인(cosine) 유사도가 기설정된 임계치보다 큰 단어들의 빈도수를 카운팅함으로써, 키워드 유사도를 생성할 수 있다.
일반적으로 문서에 대한 높은 키워드 유사도는, 문서 주제에 대한 높은 연관성을 나타내므로, 합격 확률을 향상시킬 수 있다.
문장분석부(106)는, 문서 내 문장들 간의 문장 유사도를 생성한다. 여기서, 문장은 문장 벡터로 표현되되, 문장 벡터는 문장 내 단어들에 대한 워드 임베딩의 평균으로 정의한다(HAN(108) 내부에서 사용되는, 어텐션 적용에 따른 문장 벡터와는 다른 정의이다).
문장 유사도는 문장(즉, 문장 벡터) 간의 유사도를 나타내는 문서 특성이다. 문장분석부(106)는, 문서 내 문장 벡터들 간 코사인 유사도를 평균함으로써, 문장 유사도를 생성할 수 있다.
일반적으로 문서에 대한 높은 문장 유사도는, 문서의 서술에 대한 높은 일관성을 나타내므로, 역시 합격 확률을 향상시킬 수 있다.
전술한 바와 같이, 문서 특징을 생성하기 위해 유사도로는 코사인 유사도가 이용되었으나, 반드시 이에 한정하는 것은 아니며, 내적(inner product), 크로스 엔트로피(cross entropy) 등과 같이 두 비교 대상 간의 차이를 표현할 수 있는 어느 것이든 이용될 수 있다.
또한, 본 실시예에서는, 문서 특성으로서 키워드 유사도 및 문장 유사도가 이용되었으나, 반드시 이에 한정하는 것은 아니며, 문서의 종류, 문서에 대한 평가 기준 등에 따라 다른 종류의 문서 특성이 활용될 수 있다.
추론 모델에 포함된 결합부(110)는 의미분석 모델이 생성하는 키워드 유사도와 문장 유사도, 및 HAN(108)이 생성하는 문서 벡터를 결합(concatenation)하여 결합 벡터를 생성한다. 여기서, 결합은 결합의 대상이 되는 벡터들을 단순히 연결하여, 하나의 벡터를 생성하는 과정을 나타낸다.
전연결 레이어(112)는 결합 벡터로부터 문서에 대한 판정 결과를 생성한다.
예컨대, 전연결 레이어(112)의 출력이 소프트맥스(softmax) 블록(미도시)에 입력되어 판정 결과가 생성될 수 있다. 예컨대, 판정 결과는, 문서가 자기소개서인 경우, 합격, 불합격, 또는 보류 중 하나의 평가 결정일 수 있다.
추론 모델은, 트레이닝부에 의해, 문서에 대한 워드 임베딩, 및 의미분석 모델이 생성하는 키워드 유사도와 문장 유사도를 기반으로 판정 결과를 생성할 수 있도록 (사전에) 트레이닝될 수 있다. 추론 모델의 구성요소 중 트레이닝되는 부분은 HAN(108) 및 전연결 레이어(112)이다. 추론 모델에 대한 트레이닝 과정은, 추후 설명하기로 한다.
한편, 문서 분류장치(100)는, 문서에 대한 판정 결과 외에, 판정 결과에 대해 설명가능한 판정 근거를 제공할 수 있다. 판정 근거는, 평가 담당자에게 제공되어, 문서 판별에 대한 지표로서 참조될 수 있다.
판정 근거는, 판정 결과에 대한 확률, 최고/최저 중요 단어, 최고/최저 중요 문장, 키워드 유사도 및 문자 유사도의 전부 또는 일부를 포함할 수 있다. 판정 근거 중, 판정 결과에 대한 확률은 추론 모델에 의해 제공되고, 키워드 유사도 및 문자 유사도는 의미분석 모델에 의해 제공된다. 최고/최저 중요 단어 및 최고/최저 중요 문장은 순서정렬부(114)에 의해 제공될 수 있다.
순서정렬부(114)는, HAN(108)의 단어에 대한 어텐션 적용에 따라 생성되는, 단어의 중요도에 해당하는 가중치를 재배열하여 가장 높은 가중치를 갖는 N(여기서, N은 자연수) 개의 단어와 가장 낮은 가중치를 갖는 N 개의 단어를 선별함으로써, 최고/최저 중요 단어를 생성한다.
또한, 순서정렬부(114)는, HAN(108)의 문장에 대한 어텐션 적용에 따라 생성되는, 문장의 중요도에 해당하는 가중치를 재배열하여 가장 높은 가중치를 낮은 N 개의 문장과 가장 낮은 가중치를 갖는 N 개의 문장을 선별함으로써, 최고/최저 중요 문장을 생성할 수 있다.
전술한 바와 같이, 추론 모델은 딥러닝 기반 신경망으로 구현되고, 학습용 문서 및 해당되는 레이블을 기반으로, 문서에 대한 판정 결과를 생성할 수 있도록 트레이닝될 수 있다.
이하, 도 2 에 도시된 바와 같은 학습 장치를 이용하여, 트레이닝부가 수행하는, 추론 모델에 대한 트레이닝을 설명한다.
도 2는 본 개시의 일 실시예에 따른 학습 장치에 대한 개념적인 블록도이다.
추론 모델의 트레이닝에 이용되는 학습 장치는, 인코더(102), 추론 모델, 의미분석 모델, 및 트레이닝부를 포함한다.
트레이닝부는 학습용 문서에 해당하는 레이블을 획득한다. 여기서, 레이블은, 학습용 문서가 자기소개서인 경우, 문서에 대한 합격, 불합격, 또는 보류 중 하나를 나타내는 평가 결정일 수 있다.
인코더(102)는 학습용 문서에 포함된 단어를 인코딩하여, 단어에 해당되는 벡터를 나타내는 워드 임베딩을 생성한다. 인코더(102)는 딥러닝 기반의, 어느 워드 임베딩 모델로든 구현될 수 있다. 이러한 워드 임베딩 모델은, 정답 레이블이 없는 대용량의 말뭉치에 비지도 학습방법을 적용하여 사전에 트레이닝된다.
추론 모델은 워드 임베딩으로부터 학습용 문서에 대한 판정 결과를 생성한다. 추론 모델은 HAN(108), 결합부(110), 및 전연결 레이어(112)를 포함한다.
한편, 의미분석 모델은 워드 임베딩을 이용하여 의미분석을 수행함으로써, 학습용 문서를 표현할 수 있는 문서 특성으로서, 키워드 유사도 및 문장 유사도를 생성한다. 의미분석 모델은 키워드분석부(104) 및 문장분석부(106)를 포함한다.
추론 모델에 포함된 HAN(108)은, 전술한 바와 같이, 두 번의 어텐션 메카니즘을 수행하여, 학습용 문서에 대한 문장 벡터를 생성할 수 있다.
의미분석 모델에 포함된 키워드분석부(104)는, 타겟 키워드를 기준으로, 워드 임베딩에 대한 키워드 유사도를 생성한다.
키워드 유사도는 학습용 문서에서 타겟 키워드와 유사한 단어가 사용된 횟수를 나타내는 문서 특성이다. 워드 임베딩과 타겟 키워드 간의 코사인(cosine) 유사도가 기설정된 임계치보다 큰 단어들의 빈도수를 카운팅함으로써, 키워드 유사도가 생성될 수 있다.
문장분석부(106)는, 학습용 문서 내 문장들 간의 문장 유사도를 생성한다. 여기서, 문장은 문장 벡터로 표현되되, 문장 벡터는 문장 내 단어들에 대한 워드 임베딩의 평균으로 정의한다.
문장 유사도는 문장(즉, 문장 벡터) 간의 유사도를 나타내는 문서 특성이다. 학습용 문서 내 문장 벡터들 간 코사인 유사도를 평균함으로써, 문장 유사도가 생성될 수 있다.
추론 모델에 포함된 결합부(110)는 의미분석 모델이 생성하는 키워드 유사도와 문장 유사도, 및 HAN(108)이 생성하는 문서 벡터를 결합하여 결합 벡터를 생성한다.
전연결 레이어(112)는 결합 벡터로부터 학습용 문서에 대한 판정 결과를 생성한다. 트레이닝부는 전연결 레이어(112)의 출력을 소프트맥스 블록에 입력하여 판정 결과를 생성할 수 있다. 예컨대, 판정 결과는, 학습용 문서가 자기소개서인 경우, 하나의 평가 결정에 대한 확률일 수 있다.
트레이닝부는, 학습용 문서에 대한 판정 결과 및 해당되는 레이블 간의 비유사도(dissimilarity)에 기반하여 손실 함수(loss function)를 정의하고, 손실 함수를 감소시키는 방향으로 추론 모델의 파라미터를 업데이트함으로써, 추론 모델에 대한 트레이닝을 진행한다. 여기서 비유사도는 거리(distance, 예컨대, L1 메트릭(metric), L2 메트릭 등), 유사도(예컨대, 코사인 유사, 내적, 크로스 엔트로피, KLD(Kullback-Leibler Divergence) 등) 등과 같이 두 비교 대상 간의 차이(difference)를 표현할 수 있는 어느 것이든 이용될 수 있다.
전술한 바와 같이, 트레이닝부는, 추론 모델의 구성요소 중, HAN(108) 및 전연결 레이어(112)의 파라미터를 업데이트할 수 있다.
본 실시예에 따른 문서 분류장치(100)가 탑재되는 디바이스(미도시)는 프로그램가능 컴퓨터일 수 있으며, 서버(미도시)와 연결이 가능한 적어도 한 개의 통신 인터페이스를 포함한다.
전술한 바와 같은 문서 분류장치(100)에 대한 트레이닝은, 문서 분류장치(100)가 탑재되는 디바이스의 컴퓨팅 파워를 이용하여 문서 분류장치(100)가 탑재되는 디바이스에서 진행될 수 있다.
전술한 바와 같은 문서 분류장치(100)에 대한 트레이닝은 서버에서 진행될 수 있다. 디바이스 상에 탑재된 문서 분류장치(100)의 구성요소인 추론 모델과 동일한 구조의 딥러닝 기반 신경망 모델에 대하여 서버의 트레이닝부는 트레이닝을 수행할 수 있다. 디바이스와 연결되는 통신 인터페이스를 이용하여 서버는 트레이닝된 딥러닝 기반 신경망 모델의 파라미터를 디바이스로 전달하고, 전달받은 파라미터를 이용하여 문서 분류장치(100)는 추론 모델의 파라미터를 설정할 수 있다.
도 3은 본 개시의 일 실시예에 따른 문서를 분류하는 방법에 대한 흐름도이다.
문서 분류장치(100)는, 인코더(102)를 이용하여, 문서에 포함된 문장을 구성하는 단어를 인코딩함으로써, 워드 임베딩을 생성한다(S300).
인코더(102)로는, 단어로부터 워드 임베딩을 생성할 수 있는, 딥러닝 기반의 어느 워드 임베딩 모델이든 이용될 수 있다. 이러한 워드 임베딩 모델은, 정답 레이블이 없는 대용량의 말뭉치에 비지도 학습방법을 적용하여 사전에 트레이닝될 수 있다.
문서 분류장치(100)는, 의미분석 모델을 이용하여 워드 임베딩으로부터 문서를 표현할 수 있는 문서 특성을 생성한다(S302). 여기서, 문서 특성은 키워드 유사도 및 문장 유사도를 나타낸다.
이하, 이러한 문서 특성을 생성하기 위한 세부 과정(S320 및 S322)을 설명한다.
문서 분류장치(100)는, 타겟 키워드를 기준으로, 워드 임베딩에 대한 키워드 유사도를 생성한다(S320). 여기서, 타겟 키워드는, 워드 임베딩과 동일한 형태로 표현되고, 사전에 설정될 수 있다.
키워드 유사도는 문서에서 타겟 키워드와 유사한 단어가 사용된 횟수를 나타내는 문서 특성이다. 워드 임베딩과 타겟 키워드 간의 코사인 유사도가 기설정된 임계치보다 큰 단어들의 빈도수를 카운팅함으로써, 키워드 유사도가 생성될 수 있다.
문서 분류장치(100)는, 문서 내 문장들 간의 문장 유사도를 생성한다(S322). 여기서, 문장은 문장 벡터로 표현되되, 문장 벡터는 문장 내 단어들에 대한 워드 임베딩의 평균으로 정의한다.
문장 유사도는 문장(즉, 문장 벡터) 간의 유사도를 나타내는 문서 특성이다. 문서 내 문장 벡터들 간 코사인 유사도를 평균함으로써, 문장 유사도가 생성될 수 있다.
문서 분류장치(100)는, 추론 모델을 이용하여, 문서 특성 및 워드 임베딩으로부터 문서에 대한 판정 결과를 생성한다(S304).
이하, 판정 결과를 생성하기 위한 세부 과정(S330 내지 S334)을 설명한다.
문서 분류장치(100)는, HAN을 이용하여 워드 임베딩으로부터 문서 벡터를 생성한다(S330).
어텐션 메커니즘을 이용하여, 문서 내 각 단어와 문장이 갖는 중요도에 따라 가중치를 다르게 산정하고, 이러한 가중치를 기반으로 HAN(108)은 문서 벡터를 생성한다. 문서 벡터는 문서분류에 대한 결과로서 이용될 수 있으나, 본 실시예에서는, 의미분석 모델이 생성하는 문서 특성을 추가적으로 고려하여, 문서분류에 대한 정확도를 향상시킨다.
문서 분류장치(100)는, 문서 벡터, 및 문서 특성을 결합하여 결합 벡터를 생성한다(S332).
전연결 레이어를 이용하여 결합 벡터로부터 문서에 대한 판정 결과를 생성한다(S334). 여기서, 판정 결과는, 문서가 자기소개서인 경우, 평가 결정 중 하나일 수 있다.
추론 모델은, 트레이닝부에 의해, 문서에 대한 워드 임베딩, 및 의미분석 모델이 생성하는 키워드 유사도와 문장 유사도를 기반으로 판정 결과를 생성할 수 있도록 (사전에) 트레이닝될 수 있다.
문서 분류장치(100)는, 문서에 대한 판정 결과 외에, 판정 결과에 대해 설명가능한 판정 근거를 제공한다(S304). 여기서, 판정 근거는, 판정 결과에 대한 확률, 최고/최저 중요 단어, 최고/최저 중요 문장, 키워드 유사도 및 문자 유사도의 전부 또는 일부를 포함할 수 있다.
판정 근거 중, 판정 결과에 대한 확률은 추론 모델에 의해 제공되고, 키워드 유사도 및 문자 유사도는 의미분석 모델에 의해 제공된다. 최고/최저 중요 단어 및 최고/최저 중요 문장을 제공하는 과정은, 앞에서 기술되었으므로, 더 이상의 자세한 설명은 생략한다.
도 4는 본 개시의 일 실시예에 따른 추론 모델의 트레이닝 방법에 대한 흐름도이다.
트레이닝부는, 인코더(102)를 이용하여, 학습용 문서에 포함된 문장을 구성하는 단어를 인코딩함으로써, 워드 임베딩을 생성하고, 레이블을 획득한다(S400). 여기서, 레이블은, 학습용 문서가 자기소개서인 경우, 합격, 불합격, 또는 보류 중 하나의 평가 결정일 수 있다.
인코더(102)로는, 단어로부터 워드 임베딩을 생성할 수 있는, 딥러닝 기반의 어느 워드 임베딩 모델이든 이용될 수 있다. 이러한 워드 임베딩 모델은, 정답 레이블이 없는 대용량의 말뭉치에 비지도 학습방법을 적용하여 사전에 트레이닝될 수 있다.
트레이닝부는, 의미분석 모델을 이용하여 워드 임베딩으로부터 학습용 문서를 표현할 수 있는 문서 특성을 생성한다(S402). 여기서, 문서 특성은 키워드 유사도 및 문장 유사도를 나타낸다.
이하, 이러한 문서 특성을 생성하기 위한 세부 과정(S420 및 S422)을 설명한다.
트레이닝부는, 타겟 키워드를 기준으로, 워드 임베딩에 대한 키워드 유사도를 생성한다(S420). 여기서, 타겟 키워드는, 워드 임베딩과 동일한 형태로 표현되고, 사전에 설정될 수 있다.
키워드 유사도는 학습용 문서에서 타겟 키워드와 유사한 단어가 사용된 횟수를 나타내는 문서 특성이다. 워드 임베딩과 타겟 키워드 간의 코사인 유사도가 기설정된 임계치보다 큰 단어들의 빈도수를 카운팅함으로써, 키워드 유사도가 생성될 수 있다.
트레이닝부는, 학습용 문서 내 문장들 간의 문장 유사도를 생성한다(S422). 여기서, 문장은 문장 벡터로 표현되되, 문장 벡터는 문장 내 단어들에 대한 워드 임베딩의 평균으로 정의한다.
문장 유사도는 문장(즉, 문장 벡터) 간의 유사도를 나타내는 문서 특성이다. 학습용 문서 내 문장 벡터들 간 코사인 유사도를 평균함으로써, 문장 유사도가 생성될 수 있다.
트레이닝부는, 추론 모델을 이용하여, 문서 특성 및 워드 임베딩으로부터 학습용 문서에 대한 판정 결과를 생성한다(S404).
이하, 판정 결과를 생성하기 위한 세부 과정(S430 내지 S434)을 설명한다.
트레이닝부는, HAN을 이용하여 워드 임베딩으로부터 문서 벡터를 생성한다(S430).
어텐션 메커니즘을 이용하여, 문서 내 각 단어와 문장이 갖는 중요도에 따라 가중치를 다르게 산정하고, 이러한 가중치를 기반으로 HAN(108)은 문서 벡터를 생성한다. 문서 벡터는 문서분류에 대한 결과로서 이용될 수 있으나, 본 실시예에서는, 의미분석 모델이 생성하는 문서 특성을 추가적으로 고려하여, 문서분류에 대한 정확도를 향상시킨다.
트레이닝부는, 문서 벡터, 및 문서 특성을 결합하여 결합 벡터를 생성한다(S432).
트레이닝부는, 전연결 레이어를 이용하여 결합 벡터로부터 학습용 문서에 대한 판정 결과를 생성한다(S434). 여기서, 판정 결과는, 학습용 문서가 자기소개서인 경우, 합격, 불합격, 또는 보류 중 하나의 평가 결정에 대한 확률일 수 있다.
트레이닝부는, 판정 결과와 레이블을 기반으로 손실 함수를 정의하고, 손실 함수를 감소시키는 방향으로, 추론 모델의 파라미터를 업데이트한다(S406). 트레이닝부는, 예컨대, 학습용 문서에 대한 판정 결과 및 해당되는 레이블 간의 비유사도에 기반하여 손실 함수를 정의할 수 있다.
본 개시에 따른 일 실시예에 있어서, 문서는 자기소개서일 수 있다. 채용 부서의 인사 담당자는, 문서 분류장치(100)가 생성하는 판정 결과 및 판정 근거를, 문서 평가 과정에서 객관적 지표로 참조할 수 있다.
여기서, 판정 결과는, 문서가 자기소개서인 경우, 합격, 불합격, 또는 보류 중의 하나로 추론된 평가 결정일 수 있다. 판정 결과에 대한 판정 근거는 평가 결정에 대한 확률을 포함할 수 있다. 추론 모델에 대한 학습 과정에서, 레이블로는 학습용 자기소개서에 대한 평가 결정이 이용되고, 추론 모델은 평가 결정에 대한 확률을 생성할 수 있다.
한편, 지원자는, 문서 분류장치(100)가 제공하는 판정 결과를 이용하여, 자신에 대한 자기소개서의 합격 확률을 예측할 수 있다. 또한, 판정 근거를 이용하여 자기소개서의 주제 연관성 및 서술 일관성을, 채용 부서에 제출하기 전에 확인할 수 있다.
본 개시에 따른 다른 실시예에 있어서, 문서는 서술형 답안일 수 있다. 채점 기관의 평가자는, 문서 분류장치(100)가 생성하는 판정 결과 및 판정 근거를, 답안 평가 과정에서 객관적 지표로 참조할 수 있다.
여기서, 판정 결과는, 문서가 서술형 답안인 경우, 추론된 평가 점수(예컨대, 최저점 내지 최고점 중의 어느 하나의 점수)/평가 등급(예컨대, 최저 등급 내지 최고 등급 중의 어느 하나의 등급)일 수 있다. 판정 결과에 대한 판정 근거는 평가 점수/평가 등급에 대한 추정치를 포함할 수 있다. 따라서, 추론 모델에 대한 학습 과정에서, 레이블로는 학습용 서술형 답안에 대한 평가 점수/평가 등급이 이용되고, 추론 모델은 평가 점수/평가 등급에 대한 추정치를 생성할 수 있다.
한편, 수험생은, 문서 분류장치(100)가 제공하는 판정 결과를 이용하여, 자신이 제출한 서술형 답안에 대한 평가 점수/평가 등급을 예측할 수 있다. 또한, 판정 근거를 이용하여 서술형 답안의 주제 연관성 및 서술 일관성을 확인할 수 있다.
본 개시에 따른 다른 실시예에 있어서, 문서는 에세이일 수 있다. 평가 기관의 담당자는, 문서 분류장치(100)가 생성하는 판정 결과 및 판정 근거를, 에세이 평가 과정에서 객관적 지표로 참조할 수 있다.
여기서, 판정 결과는, 문서가 에세이인 경우, 추론된 평가 점수(예컨대, 최저점 내지 최고점 중의 어느 하나의 점수)/평가 등급(예컨대, 최저 등급 내지 최고 등급 중의 어느 하나의 등급)일 수 있다. 판정 결과에 대한 판정 근거는 평가 점수/평가 등급에 대한 추정치를 포함할 수 있다. 따라서, 추론 모델에 대한 학습 과정에서, 레이블로는 학습용 에세이에 대한 평가 점수/평가 등급이 이용되고, 추론 모델은 평가 점수/평가 등급에 대한 추정치를 생성할 수 있다.
한편, 응시자는, 문서 분류장치(100)가 제공하는 판정 결과를 이용하여, 자신이 제출한 에세이에 대한 평가 점수/평가 등급을 예측할 수 있다. 또한, 판정 근거를 이용하여 에세이의 주제 연관성 및 서술 일관성을 확인할 수 있다.
전술한 바와 같은 예시에 한정되지 않고, 평가 및 분류를 필요로 하는, 평가의 대상이 되는, 서술 형식의 어느 문서에 대해서든, 본 실시예에 따른 문서 분류장치(100)가 적용될 수 있다.
이상에서 설명한 바와 같이 본 실시예에 따르면, 문서에 대한 판정 결과, 및 판정 결과에 대한 설명가능한 근거를 제시하는 AI 문서 분류장치 및 방법을 제공함으로써, 문서의 평가 및 분류에 있어서, 일관된 기준을 적용하는 것이 가능해지는 효과가 있다.
본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다.
컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 문서 분류장치
102: 인코더 104: 키워드분석부
106: 문서분석부 108: HAN
110: 결합부 113: 전연결 레이어
114: 순서정렬부

Claims (20)

  1. 컴퓨팅 장치가 수행하는, 문서를 분류하는 방법에 있어서,
    문서에 포함된 문장을 구성하는 단어에 대한 워드 임베딩(word embedding)을 획득하는 과정;
    의미분석(semantic analysis) 모델을 이용하여 상기 워드 임베딩으로부터 상기 문서를 표현할 수 있는 문서 특성(feature)을 생성하는 과정, 여기서 상기 문서 특성은 키워드 유사도(keyword similarity) 및 문장 유사도(sentence similarity)를 나타냄;
    추론 모델을 이용하여, 상기 문서 특성 및 상기 워드 임베딩으로부터 상기 문서에 대한 판정 결과를 생성하는 과정; 및
    상기 판정 결과에 대해 설명가능한(explainable) 판정 근거를 제공하는 과정
    을 포함하는, 문서를 분류하는 방법.
  2. 제1항에 있어서,
    인코더를 이용하여 상기 단어를 인코딩함으로써, 상기 워드 임베딩을 생성하는 과정을 더 포함하되, 상기 인코더는 딥러닝 기반 신경망으로 구현되고, 정답 레이블이 없는(unlabeled) 대용량의 말뭉치(dialogue corpus)을 기반으로 비지도 학습방법(unsupervised learning)을 적용하여 사전에 트레이닝되는, 문서를 분류하는 방법.
  3. 제1항에 있어서,
    상기 판정 결과는,
    상기 문서에 대한 평가 결정, 평가 점수 또는 평가 등급을 나타내는, 문서를 분류하는 방법.
  4. 제1항에 있어서,
    상기 문서 특성을 생성하는 과정은,
    기설정된 타겟 키워드와 상기 워드 임베딩 간의 유사도(similarity)가 기설정된 임계치보다 큰 단어의 빈도수를 카운팅함으로써, 상기 키워드 유사도를 생성하는 과정; 및
    상기 문서에 포함된 문장에 대해, 상기 문장 내 단어들에 대한 워드 임베딩의 평균을 산정하여 문장 벡터를 생성한 후, 두 개의 문장 벡터 간에 산정된 유사도를 평균함으로써, 상기 문장 유사도를 생성하는 과정
    을 포함하는, 문서를 분류하는 방법.
  5. 제1항에 있어서,
    상기 판정 결과를 생성하는 과정은,
    계층적 어텐션 망(Hierarchical Attention Network: HAN)을 이용하여 상기 워드 임베딩으로부터 문서 벡터를 생성하는 과정;
    상기 문서 벡터, 및 상기 문서 특성을 결합(concatenation)하여 결합 벡터를 생성하는 과정; 및
    전연결 레이어(fully-connected layer)를 이용하여 상기 결합 벡터로부터 상기 문서에 대한 판정 결과를 생성하는 과정
    을 포함하는, 문서를 분류하는 방법.
  6. 제5항에 있어서,
    상기 판정 근거는,
    상기 문장에 대한 가중치의 순서에 따라 선별한, 적어도 하나의 중요(important) 문장, 여기서, 상기 문장에 대한 가중치는 상기 HAN에 의해 제공됨;
    상기 키워드 유사도; 및
    상기 문서 유사도
    를 포함하는, 문서를 분류하는 방법.
  7. 제1항에 있어서,
    상기 추론 모델은,
    딥러닝 기반 신경망으로 구현되되, 학습용 문서 및 해당되는 레이블을 이용하여, 지도학습을 기반으로 트레이닝되는, 문서를 분류하는 방법.
  8. 컴퓨팅 장치가 수행하는, 문서를 분류하기 위한 추론 모델을 트레이닝하는 방법에 있어서,
    상기 문서에 포함된 문장을 구성하는 단어에 대한 워드 임베딩(word embedding), 및 레이블을 획득하는 과정, 여기서, 상기 레이블은 상기 문서에 대한 평가 결정, 평가 점수 또는 평가 등급을 나타냄;
    의미분석(semantic analysis) 모델을 이용하여 상기 워드 임베딩으로부터 상기 문서를 표현할 수 있는 문서 특성(feature)을 생성하는 과정, 여기서, 상기 특성은 키워드 유사도(keyword similarity) 및 문장 유사도(sentence similarity)를 나타냄;
    추론 모델을 이용하여, 상기 문서 특성 및 상기 워드 임베딩으로부터 상기 문서에 대한 판정 결과를 생성하는 과정, 여기서, 판정 결과는 상기 평가 결정에 대한 확률, 상기 평가 점수에 대한 추정치, 또는 평가 등급에 대한 추정치를 나타냄; 및
    상기 판정 결과와 상기 레이블을 기반으로 손실 함수(loss function)를 정의하고, 상기 손실 함수를 감소시키는 방향으로, 상기 추론 모델의 파라미터를 업데이트하는 과정
    을 포함하는, 트레이닝하는 방법.
  9. 제8항에 있어서,
    상기 단어를 인코딩함으로써, 상기 워드 임베딩을 생성하는 과정을 더 포함하되, 상기 인코더는 딥러닝 기반 신경망으로 구현되고, 정답 레이블이 없는(unlabeled) 대용량의 말뭉치(dialogue corpus)을 기반으로 비지도 학습방법(unsupervised learning)을 적용하여 사전에 트레이닝되는, 트레이닝하는 방법.
  10. 제8항에 있어서,
    상기 문서 특성을 생성하는 과정은,
    기설정된 타겟 키워드와 상기 워드 임베딩 간의 유사도(similarity)가 기설정된 임계치보다 큰 단어의 빈도수를 카운팅함으로써, 상기 키워드 유사도를 생성하는 과정; 및
    상기 문서에 포함된 문장에 대해, 상기 문장 내 단어들에 대한 워드 임베딩의 평균을 산정하여 문장 벡터를 생성한 후, 두 개의 문장 벡터 간에 산정된 유사도를 평균함으로써, 상기 문장 유사도를 생성하는 과정
    을 포함하는, 트레이닝하는 방법.
  11. 제8항에 있어서,
    상기 판정 결과를 생성하는 과정은,
    계층적 어텐션 망(Hierarchical Attention Network: HAN)을 이용하여 상기 워드 임베딩으로부터 문서 벡터를 생성하는 과정;
    상기 문서 벡터, 및 상기 문서 특성을 결합(concatenation)하여 결합 벡터를 생성하는 과정; 및
    전연결 레이어(fully-connected layer)를 이용하여 상기 결합 벡터로부터 상기 문서에 대한 판정 결과를 생성하는 과정
    을 포함하는, 트레이닝하는 방법.
  12. 문서에 포함된 문장을 구성하는 단어에 대한 워드 임베딩(word embedding)을 획득하는 입력부;
    상기 워드 임베딩으로부터 상기 문서를 표현할 수 있는 문서 특성(feature)을 생성하는 의미분석(semantic analysis) 모델, 여기서 상기 특성은 키워드 유사도(keyword similarity) 및 문장 유사도(sentence similarity)를 나타냄;
    상기 문서 특성 및 상기 워드 임베딩으로부터 상기 문서에 대한 판정 결과를 생성하는 추론 모델
    을 포함하되,
    상기 추론 모델 및 상기 의미분석 모델은, 상기 판정 결과에 대해 설명가능한(explainable) 판정 근거를 제공하는, 문서 분류장치.
  13. 제12항에 있어서,
    인코더를 추가로 포함하여, 상기 인코더는 상기 단어를 인코딩하여 상기 워드 임베딩을 생성하되, 상기 인코더는 딥러닝 기반 신경망으로 구현되고, 정답 레이블이 없는(unlabeled) 대용량의 말뭉치(dialogue corpus)을 기반으로 비지도 학습방법(unsupervised learning)을 적용하여 사전에 트레이닝되는, 문서 분류장치.
  14. 제12항에 있어서,
    상기 판정 결과는,
    상기 문서에 대한 평가 결정, 평가 점수 또는 평가 등급을 나타내는, 문서 분류장치.
  15. 제12항에 있어서,
    상기 의미분석 모델은,
    기설정된 타겟 키워드와 상기 워드 임베딩 간의 유사도(similarity)가 기설정된 임계치보다 큰 단어의 빈도수를 카운팅함으로써, 상기 키워드 유사도를 생성하는 키워드분석부; 및
    상기 문서에 포함된 문장에 대해, 상기 문장 내 단어들에 대한 워드 임베딩의 평균을 산정하여 문장 벡터를 생성한 후, 두 개의 문장 벡터 간에 산정된 유사도를 평균함으로써, 상기 문장 유사도를 생성하는 문장분석부
    를 포함하는, 문서 분류장치.
  16. 제12항에 있어서,
    상기 추론 모델은,
    상기 워드 임베딩으로부터 문서 벡터를 생성하는 계층적 어텐션 망(Hierarchical Attention Network: HAN);
    상기 문서 벡터, 및 상기 문서 특성을 결합(concatenation)하여 결합 벡터를 생성하는 결합부; 및
    상기 결합 벡터로부터 상기 문서에 대한 판정 결과를 생성하는 전연결 레이어(fully-connected layer)
    를 포함하는, 문서 분류장치.
  17. 제16항에 있어서,
    상기 판정 근거는,
    상기 문장에 대한 가중치의 순서에 따라 선별한, 적어도 하나의 중요(important) 문장, 여기서, 상기 문장에 대한 가중치는 상기 HAN에 의해 제공됨;
    상기 키워드 유사도; 및
    상기 문서 유사도
    를 포함하는, 문서 분류장치.
  18. 제12항에 있어서,
    상기 추론 모델은,
    딥러닝 기반 신경망으로 구현되되, 학습용 문서 및 해당되는 레이블을 이용하여, 지도학습을 기반으로 트레이닝되는, 문서 분류장치.
  19. 제1항 내지 제7항 중 어느 한 항에 따른 문서를 분류하는 방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.
  20. 제8항 내지 제11항 중 어느 한 항에 따른 추론 모델을 트레이닝하는 방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.
KR1020210094696A 2021-07-20 2021-07-20 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법 KR20230013793A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210094696A KR20230013793A (ko) 2021-07-20 2021-07-20 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법
US17/505,979 US20230027526A1 (en) 2021-07-20 2021-10-20 Method and apparatus for classifying document based on attention mechanism and semantic analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210094696A KR20230013793A (ko) 2021-07-20 2021-07-20 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230013793A true KR20230013793A (ko) 2023-01-27

Family

ID=84977406

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210094696A KR20230013793A (ko) 2021-07-20 2021-07-20 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법

Country Status (2)

Country Link
US (1) US20230027526A1 (ko)
KR (1) KR20230013793A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102647510B1 (ko) * 2023-08-03 2024-03-15 주식회사 액션파워 초차원 컴퓨팅을 이용하여 텍스트를 분할하는 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230091581A1 (en) * 2021-09-21 2023-03-23 Bank Of America Corporation Personal Data Discovery
CN116562304B (zh) * 2023-07-06 2024-03-01 广东亚齐信息技术股份有限公司 基于人工智能和多维语义理解的档案智能开放鉴定方法
CN117313704B (zh) * 2023-11-28 2024-02-23 江西师范大学 基于公有与私有特征分解的混合可读性评估方法与系统
CN117556112B (zh) * 2024-01-11 2024-04-16 中国标准化研究院 电子档案信息智能管理系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4608740B2 (ja) * 2000-02-21 2011-01-12 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
US10762439B2 (en) * 2016-07-26 2020-09-01 International Business Machines Corporation Event clustering and classification with document embedding
US10755174B2 (en) * 2017-04-11 2020-08-25 Sap Se Unsupervised neural attention model for aspect extraction
CN110647613A (zh) * 2018-06-26 2020-01-03 上海谦问万答吧云计算科技有限公司 一种课件构建方法、装置、服务器和存储介质
US10824815B2 (en) * 2019-01-02 2020-11-03 Netapp, Inc. Document classification using attention networks
CN111368996B (zh) * 2019-02-14 2024-03-12 谷歌有限责任公司 可传递自然语言表示的重新训练投影网络
US11423093B2 (en) * 2019-09-25 2022-08-23 Microsoft Technology Licensing, Llc Inter-document attention mechanism
US20210109958A1 (en) * 2019-10-14 2021-04-15 Stacks LLC Conceptual, contextual, and semantic-based research system and method
CN112835860B (zh) * 2021-02-19 2022-03-25 腾讯科技(深圳)有限公司 共享文档的处理方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yang, Zichao, et al. "Hierarchical attention networks for document classification." Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies. 2016.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102647510B1 (ko) * 2023-08-03 2024-03-15 주식회사 액션파워 초차원 컴퓨팅을 이용하여 텍스트를 분할하는 방법

Also Published As

Publication number Publication date
US20230027526A1 (en) 2023-01-26

Similar Documents

Publication Publication Date Title
KR20230013793A (ko) 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
KR102315984B1 (ko) 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램
CN114582470B (zh) 一种模型的训练方法、训练装置及医学影像报告标注方法
CN108228576B (zh) 文本翻译方法及装置
CN111221939A (zh) 评分方法、装置和电子设备
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
JP2016153931A (ja) 情報処理方法、情報処理装置及び情報処理プログラム
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN113590810A (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
He et al. Winologic: a zero-shot logic-based diagnostic dataset for winograd schema challenge
CN114298314A (zh) 一种基于电子病历的多粒度因果关系推理方法
Babulal et al. Suicidal analysis on social networks using machine learning
CN112052663B (zh) 客服语句质检方法及相关设备
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题系统
Wongkoblap et al. Predicting social network users with depression from simulated temporal data
CN115935969A (zh) 基于多模态信息融合的异构数据特征提取方法
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
CN109657013A (zh) 一种系统化生成标签的方法和系统
CN115269816A (zh) 基于信息处理方法的核心人员挖掘方法、装置和存储介质
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
CN115357711A (zh) 一种方面级情感分析方法、装置、电子设备及存储介质
Zoroub et al. Candidate teacher performance prediction using classification techniques: a case study of high schools in Gaza-strip

Legal Events

Date Code Title Description
E902 Notification of reason for refusal