KR102400689B1 - 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램 - Google Patents

의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램 Download PDF

Info

Publication number
KR102400689B1
KR102400689B1 KR1020217019768A KR20217019768A KR102400689B1 KR 102400689 B1 KR102400689 B1 KR 102400689B1 KR 1020217019768 A KR1020217019768 A KR 1020217019768A KR 20217019768 A KR20217019768 A KR 20217019768A KR 102400689 B1 KR102400689 B1 KR 102400689B1
Authority
KR
South Korea
Prior art keywords
data
auxiliary
learning
similarity
pairs
Prior art date
Application number
KR1020217019768A
Other languages
English (en)
Other versions
KR20210088725A (ko
Inventor
하야토 우치데
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20210088725A publication Critical patent/KR20210088725A/ko
Application granted granted Critical
Publication of KR102400689B1 publication Critical patent/KR102400689B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

의미 관계 학습 장치(1)는, 복수의 정례 데이터 페어를 구성하는 언어 데이터를 조합하는 것에 의해 복수의 부례 데이터 페어를 작성하는 부례 데이터 작성부(12)와, 부례 데이터 페어의 각각을 구성하는 언어 데이터로부터 특징량을 추출하는 특징량 추출부(13)와, 부례 데이터 페어의 각각에 있어서의 특징량의 사이의 유사도를 산출하는 유사도 산출부(14)와, 유사도에 근거하여 복수의 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트를 작성하는 학습용 부례 데이터 작성부(15)와, 복수의 유사도 범위에 근거하여 미리 결정된 선택 스케줄에 따르는 순서로, 복수의 학습용 부례 데이터 세트 중 어느 하나의 학습용 부례 데이터 세트를 선택하는 학습 데이터 세트 선택부(17)와, 선택된 학습용 부례 데이터 세트와 복수의 정례 데이터 페어를 이용하여 기계 학습 처리를 행하는 학습 처리부(18)를 구비한다.

Description

의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
본 발명은, 기계 학습을 행하는 의미 관계 학습 장치, 및, 기계 학습을 행하기 위해서 사용되는 의미 관계 학습 방법 및 의미 관계 학습 프로그램에 관한 것이다.
퍼스널 컴퓨터 및 인터넷의 보급에 의해, 유저가 액세스 가능한 전자화 데이터의 양이 증대하고 있다. 이 때문에, 대규모 전자화 데이터 중에서, 원하는 데이터를 효율적으로 발견하기 위한 기술이 요구되고 있다. 자연 언어 처리의 분야에서는, 환언문(즉, 의미적으로 등가인 문장)의 검색을 위해서, 동의 관계에 있는 텍스트의 페어인 정례(正例)와 동의 관계에 있지 않은 텍스트의 페어인 부례(負例)를, 교사(敎師) 데이터로서 미리 사람 손으로 작성하고, 작성된 교사 데이터를 이용하여 텍스트간의 의미 관계를 통계적으로 기계 학습하는 학습 장치가 사용되고 있다. 이 기계 학습의 결과를 이용하면, 입력된 텍스트와 동의 관계에 있는 텍스트를 검색 및 추정할 수 있다.
예를 들면, 특허문헌 1은, 문장 중에 포함되는 술부의 동의 판정 처리를 행하는 장치를 제안하고 있다. 이 장치는, 서로 동일한 의미를 가지는 술어(즉, 서로 동의 관계에 있는 텍스트의 예)의 페어를 정례로 하고, 서로 상이한 의미를 가지는 술어(즉, 서로 동의 관계에 있지 않은 텍스트의 예)의 페어를 부례로 하고, 정례와 부례를 교사 데이터로 하여 기계 학습 처리를 행하고, 그 결과, 동의 판정 처리에 이용되는 판정용 모델을 취득하고 있다.
일본 특허공개 2014-119988호 공보
그러나, 상기 장치가 행하는 기계 학습 처리로 이용되는 부례에서는, 매우 가까운 의미를 가지는 언어 데이터로 구성되는 부례와 매우 먼 의미를 가지는 언어 데이터로 구성되는 부례가, 구별되어 있지 않고, 혼재하고 있다고 생각된다. 따라서, 이와 같은 부례를 교사 데이터로 하는 기계 학습 처리에 의해, 양호한 의미 관계의 판별을 가능하게 하는 판별용 모델을 얻는 것은 어렵다.
본 발명은, 상기 종래 기술의 과제를 해결하기 위해서 이루어진 것으로, 양호한 의미 관계의 판별을 가능하게 하는 기계 학습 처리를 행할 수 있는 의미 관계 학습 장치, 및, 양호한 의미 관계의 판별을 가능하게 하는 기계 학습 처리를 행하기 위해서 사용되는 의미 관계 학습 방법 및 의미 관계 학습 프로그램을 제공하는 것을 목적으로 한다.
본 발명의 일 태양에 의한 의미 관계 학습 장치는, 복수의 정례 데이터 페어의 각각은 서로 미리 결정된 의미 관계에 있는 언어 데이터로 구성되어 있고, 상기 복수의 정례 데이터 페어를 저장하고 있는 정례 데이터 기억부로부터, 상기 복수의 정례 데이터 페어를 취득하고, 상기 언어 데이터를 조합하는 것에 의해 복수의 부례 데이터 페어를 작성하고, 상기 복수의 부례 데이터 페어의 각각은 서로 상기 미리 결정된 의미 관계에 있지 않은 언어 데이터로 구성되는, 부례 데이터 작성부와, 상기 복수의 부례 데이터 페어의 각각을 구성하는 상기 언어 데이터로부터 특징량을 추출하는 특징량 추출부와, 상기 복수의 부례 데이터 페어의 각각에 있어서의 상기 언어 데이터의 상기 특징량의 사이의 유사도를 산출하는 유사도 산출부와, 상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 또는, 상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 구성하는 상기 언어 데이터와 상기 복수의 정례 데이터 페어를 구성하는 상기 언어 데이터로부터 작성된 복수의 학습용 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 상기 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트를 작성하고, 상기 복수의 학습용 부례 데이터 세트의 각각은 상기 복수의 부례 데이터 페어 중 하나 이상의 부례 데이터 페어를 포함하는, 학습용 부례 데이터 작성부와, 상기 복수의 유사도 범위에 근거하여 미리 결정된 선택 스케줄에 따르는 순서로, 상기 복수의 학습용 부례 데이터 세트 중 어느 하나의 학습용 부례 데이터 세트를 선택하는 학습 데이터 세트 선택부와, 상기 학습 데이터 세트 선택부에 의해 선택된 상기 학습용 부례 데이터 세트와 상기 복수의 정례 데이터 페어를 이용하여 기계 학습 처리를 행하는 학습 처리부를 구비하는 것을 특징으로 한다.
본 발명의 일 태양에 의한 의미 관계 학습 방법은, 복수의 정례 데이터 페어의 각각은 서로 미리 결정된 의미 관계에 있는 언어 데이터로 구성되어 있고, 상기 복수의 정례 데이터 페어를 저장하고 있는 정례 데이터 기억부로부터, 상기 복수의 정례 데이터 페어를 취득하고, 상기 언어 데이터를 조합하는 것에 의해 복수의 부례 데이터 페어를 작성하고, 상기 복수의 부례 데이터 페어의 각각은 서로 상기 미리 결정된 의미 관계에 있지 않은 언어 데이터로 구성되는, 부례 데이터 작성 스텝과, 상기 복수의 부례 데이터 페어의 각각을 구성하는 상기 언어 데이터로부터 특징량을 추출하는 추출 스텝과, 상기 복수의 부례 데이터 페어의 각각에 있어서의 상기 언어 데이터의 상기 특징량의 사이의 유사도를 산출하는 산출 스텝과, 상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 또는, 상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 구성하는 상기 언어 데이터와 상기 복수의 정례 데이터 페어를 구성하는 상기 언어 데이터로부터 작성된 복수의 학습용 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 상기 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트를 작성하고, 상기 복수의 학습용 부례 데이터 세트의 각각은 상기 복수의 부례 데이터 페어 중 하나 이상의 부례 데이터 페어를 포함하는, 학습용 부례 데이터 작성 스텝과, 상기 복수의 유사도 범위에 근거하여 미리 결정된 선택 스케줄에 따르는 순서로, 상기 복수의 학습용 부례 데이터 세트 중 어느 하나의 학습용 부례 데이터 세트를 선택하는 선택 스텝과, 선택된 상기 학습용 부례 데이터 세트와 상기 복수의 정례 데이터 페어를 이용하여 기계 학습 처리를 행하는 학습 스텝을 갖는 것을 특징으로 한다.
본 발명에 의하면, 양호한 의미 관계의 판별을 가능하게 하는 기계 학습 처리를 행할 수 있다.
도 1은 본 발명의 실시형태 1에 따른 의미 관계 학습 장치의 구성을 개략적으로 나타내는 기능 블럭도이다.
도 2는 실시형태 1에 따른 의미 관계 학습 장치의 하드웨어 구성의 예를 나타내는 도면이다.
도 3은 실시형태 1에 따른 의미 관계 학습 장치의 동작을 나타내는 플로 차트이다.
도 4는 실시형태 1에 있어서의 부례 데이터 작성부의 동작을 나타내는 플로 차트이다.
도 5는 실시형태 1에 있어서의 특징량 추출부의 동작을 나타내는 플로 차트이다.
도 6은 실시형태 1에 있어서의 유사도 산출부의 동작을 나타내는 플로 차트이다.
도 7은 실시형태 1에 있어서의 학습용 부례 데이터 작성부의 동작을 나타내는 플로 차트이다.
도 8은 실시형태 1에 있어서의 학습 데이터 선택부의 동작을 나타내는 플로 차트이다.
도 9는 실시형태 1에 있어서의 학습 처리부의 동작을 나타내는 플로 차트이다.
도 10은 본 발명의 실시형태 2에 따른 의미 관계 학습 장치의 구성을 개략적으로 나타내는 기능 블럭도이다.
도 11은 실시형태 2에 따른 의미 관계 학습 장치의 동작을 나타내는 플로 차트이다.
도 12는 실시형태 2에 있어서의 부례 데이터 작성부의 동작을 나타내는 플로 차트이다.
도 13은 실시형태 2에 있어서의 특징량 추출부의 동작을 나타내는 플로 차트이다.
도 14는 실시형태 2에 있어서의 유사도 산출부의 동작을 나타내는 플로 차트이다.
도 15는 실시형태 2에 있어서의 학습용 부례 데이터 작성부의 동작을 나타내는 플로 차트이다.
이하에, 본 발명의 실시형태에 따른 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램을, 도면을 참조하면서 설명한다. 한편, 이하의 실시형태는, 예에 지나지 않고, 본 발명의 범위 내에서 여러 가지의 변경이 가능하다.
실시형태에 따른 의미 관계 학습 장치는, 의미 관계의 판별 처리를 행하는 의미 관계 판별부를 구비한 의미 관계 판별 장치에 구비할 수 있는 학습 장치이다. 실시형태에 따른 의미 관계 학습 방법은, 의미 관계의 판별 처리에서 사용되는 의미 관계 판별용 모델을 취득하기 위한 학습 방법이다. 실시형태에 따른 의미 관계 학습 프로그램은, 의미 관계의 판별 처리에서 사용되는 의미 관계 판별용 모델을 취득하기 위한 소프트웨어 프로그램이다.
《1》실시형태 1.
《1-1》실시형태 1의 구성.
도 1은, 본 발명의 실시형태 1에 따른 의미 관계 학습 장치(1)의 구성을 개략적으로 나타내는 기능 블럭도이다. 의미 관계 학습 장치(1)는, 실시형태 1에 따른 의미 관계 학습 방법을 실시할 수 있는 장치이다. 도 1에 나타나는 바와 같이, 의미 관계 학습 장치(1)는, 부례 데이터 작성부(12)와, 특징량 추출부(13)와, 유사도 산출부(14)와, 학습용 부례 데이터 작성부(15)와, 학습 데이터 세트 선택부(17)와, 학습 처리부(18)를 구비하고 있다. 또, 의미 관계 학습 장치(1)는, 정례 데이터 기억부(11)와, 학습용 부례 데이터 기억부(16)를 구비해도 된다.
정례 데이터 기억부(11)는, 복수의 정례 데이터 페어(이하, 「정례」라고도 한다) A11을 저장하고 있다. 복수의 정례 데이터 페어의 각각은, 서로 미리 결정된 의미 관계에 있는 언어에 관한 데이터(이하, 「언어 데이터」라고도 한다)로 구성되어 있다. 실시형태 1에 있어서, 미리 결정된 의미 관계는, 동의 관계이다. 서로 동의 관계에 있는 언어 데이터의 페어는, 예를 들면, 서로 동의 관계에 있는 텍스트의 페어이다. 여기에서, 텍스트는, 단어 및 문장을 포함한다. 한편, 미리 결정된 의미 관계는, 동의 관계로 한정되지 않는다.
부례 데이터 작성부(12)는, 정례 데이터 기억부(11)에 저장되어 있는 복수의 정례 데이터 페어 A11을 취득한다. 부례 데이터 작성부(12)는, 복수의 정례 데이터 페어 A11의 각각을 구성하는 언어 데이터를 조합하는 것에 의해 복수의 부례 데이터 페어(이하, 「부례」라고도 한다) A12를 작성한다. 복수의 부례 데이터 페어 A12의 각각은, 서로 미리 결정된 의미 관계에 있지 않은 언어 데이터로 구성된다. 실시형태 1에 있어서는, 복수의 부례 데이터 페어 A12의 각각은, 서로 동의 관계에 있지 않은 언어 데이터로 구성된다. 서로 동의 관계에 있지 않은 언어 데이터의 페어는, 예를 들면, 서로 동의 관계에 있지 않은 텍스트의 페어이다. 여기에서, 텍스트는, 단어 및 문장을 포함한다.
특징량 추출부(13)는, 부례 데이터 작성부(12)에 의해 작성된 복수의 부례 데이터 페어 A12의 각각을 구성하는 언어 데이터로부터 특징량 A13을 추출, 즉, 산출한다. 특징량으로서는, 이용하는 유사도와 언어 데이터의 성질 등에 적합한 특징량을 이용할 수 있다. 예를 들면, 부례 데이터 페어를 구성하는 언어 데이터가 텍스트 데이터인 경우에는, 텍스트간의 유사도의 산출을 위한 특징량으로서, 텍스트의 문장 길이, 텍스트의 문자 종류, 텍스트의 형태소 해석의 결과, 텍스트의 의존 해석(dependency parsing)의 결과, 텍스트로부터 변환된 다차원 벡터 등 중 하나 이상을 사용할 수 있다. 텍스트를 다차원 벡터로 변환하는 방법은, 공지이고, 예를 들면, 비특허문헌 1에 기재된 방법을 사용할 수 있다.
(비특허문헌 1) Tomas Mikolov, 외 3명, "Efficient Estimation of Word Representations in Vector Space", ICLR(International Conference on Learning Representations) 2013
유사도 산출부(14)는, 복수의 부례 데이터 페어 A12의 각각에 있어서의 특징량 A13의 사이의 유사도를 산출한다. 유사도 산출부(14)는, 산출된 유사도를, 이 유사도에 대응하는 부례 데이터 페어 A12에 부여하고, 유사도가 부여된 부례 데이터 페어 A14를 작성한다.
유사도로서는, 언어 데이터의 성질에 따라 사전에 정의된 것을 사용할 수 있다. 예를 들면, 부례 데이터 페어를 구성하는 언어 데이터가 텍스트 데이터인 경우에는, 텍스트간의 문장 길이의 차이, 텍스트의 편집 거리(즉, 레벤슈타인(Levenshtein) 거리), 텍스트를 형태소 해석하여 얻어진 단어열의 중복 정도, 텍스트를 의존 해석한 결과 얻어진 문절(文節) 단위의 중복 정도, 텍스트를 의존 해석한 결과 얻어진 의존 관계의 중복 정도, 텍스트로부터 변환된 다차원 벡터의 유클리드(Euclid) 거리 또는 코사인 유사도 등 중 하나 이상을 사용할 수 있다.
예를 들면, 텍스트간의 문장 길이의 차이가 작을수록, 유사도가 높다. 또, 텍스트의 편집 거리가 짧을수록, 유사도가 높다. 또, 텍스트를 형태소 해석하여 얻어진 단어열의 중복 정도가 클수록, 유사도가 높다. 또, 텍스트를 의존 해석한 결과 얻어진 문절 단위의 중복 정도가 클수록, 유사도가 높다. 또, 텍스트를 의존 해석한 결과 얻어진 의존 관계의 중복 정도가 클수록, 유사도가 높다. 또, 텍스트로부터 변환된 다차원 벡터의 유클리드 거리가 짧을수록, 유사도가 높다. 텍스트를 다차원 벡터로 변환하는 방법은, 공지이고, 예를 들면, 비특허문헌 1에 기재된 방법을 사용할 수 있다. 또, 코사인 유사도는, 벡터 공간 모델에 있어서, 문서끼리를 비교할 때에 이용되고, 그 계산 방법은 공지이다. 또, 사전에 준비된 학습 장치에 의해 출력되는 우도(尤度; likelihood), 등의 판별 결과를, 유사도로서 이용해도 된다.
학습용 부례 데이터 작성부(15)는, 유사도 산출부(14)에 의해 산출된 유사도가 부여된 부례 데이터 페어 A14에 근거하여, 복수의 부례 데이터 페어 A14를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트 A15를 작성한다. 복수의 학습용 부례 데이터 세트 A15의 각각은, 유사도가 부여된 복수의 부례 데이터 페어 A14 중 하나 이상의 부례 데이터 페어를 포함한다.
예를 들면, 부례 데이터 페어가 텍스트 페어이고, 유사도가 벡터화된 텍스트간의 유클리드 거리인 경우에는, 학습용 부례 데이터 작성부(15)는, 부례 데이터 작성부(12)에서 작성된 텍스트를, 유사도 산출부(14)에서 산출된 유클리드 거리에 근거하여 분류하는 것에 의해, 유사도 산출부(14)에서 산출된 유클리드 거리의 범위마다 분류된 학습용 부례 데이터 세트 A15를 작성한다. 여기에서, 유사도 범위인 유클리드 거리 d1의 범위는, 예를 들면,
0.1≤d1<0.3의 범위인 제 1 유사도 범위,
0.3≤d1<0.5의 범위인 제 2 유사도 범위, 및
0.5≤d1≤0.7의 범위인 제 3 유사도 범위
이다. 이 예는, 부례 데이터 페어를, 유사도 범위별로, 3개의 데이터 세트로 분류하는 경우의 예이다. 한편, 작성하는 학습용 부례 데이터 세트의 유사도 범위의 넓이, 유사도 범위의 수는, 상기의 예로 한정되지 않는다.
학습용 부례 데이터 기억부(16)는, 학습용 부례 데이터 작성부(15)에 의해 작성된, 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트 A15를 수취하고, 복수의 학습용 부례 데이터 세트 A16으로서 저장한다.
학습 데이터 세트 선택부(17)는, 복수의 유사도 범위에 근거하여 미리 결정된 선택 스케줄에 따르는 순서로, 학습용 부례 데이터 기억부(16)에 저장되어 있는 복수의 학습용 부례 데이터 세트 A16 중, 어느 하나의 학습용 부례 데이터 세트 A17을 선택한다.
구체적으로는, 학습 데이터 세트 선택부(17)는, 유사도 범위의 유사도가 낮은 학습용 부례 데이터 세트부터 차례로 학습 처리부(18)에 출력하고, 학습 처리부(18)에 있어서의 학습 처리를 실행한다. 1회의 학습 처리가 종료되면 다음으로 유사도가 높은 학습용 부례 데이터 세트를 학습 처리부(18)에 출력하고, 학습용 부례 데이터 세트의 선택 스케줄이 종료되기까지, 마찬가지의 순번으로 처리를 반복한다.
바꾸어 말하면, 학습 데이터 세트 선택부(17)는, 먼저, 복수의 유사도 범위 중 제일 낮은(즉, 가장 낮은) 값의 유사도 범위에 대응하는 학습용 부례 데이터 세트가 1번째로 선택되도록, 다음에, 복수의 유사도 범위 중 2번째로 낮은 값의 유사도 범위에 대응하는 학습용 부례 데이터 세트가 2번째로 선택되도록, 선택 스케줄을 결정한다. 즉, 학습 데이터 세트 선택부(17)는, n을 1 이상의 정수로 했을 때에, 복수의 유사도 범위 중 n번째로 낮은 값의 유사도 범위에 대응하는 학습용 부례 데이터 세트가 n번째로 선택되도록, 선택 스케줄을 결정한다.
이와 같이, 유사도가 낮은 학습용 부례 데이터 세트로부터 학습을 개시하고, 서서히 유사도가 높은 학습용 부례 데이터 세트를 학습함으로써, 의미 관계 학습 장치는, 좋은 해(solution)에 빨리 수속(收束)될 수 있다. 또, 의미 관계 학습 장치에 의하여 얻어진 의미 관계 판별용 모델의 범화(汎化) 성능을 향상시킬 수 있다. 한편, 학습용 부례 데이터 세트의 선택 스케줄에서는, 임의의 학습 횟수를 설정해도 된다. 또, 의미 관계 학습 장치의 정밀도가 가장 높아지도록 하기 위해, 학습용 부례 데이터 세트의 선택 스케줄의 결정에, 베이즈 최적화 등에 의한 최적화의 결과를 이용해도 된다.
즉, 전자화 데이터의 의미 관계 판별을 위한 학습에 있어서, 유사도를 고려한 부례 데이터 페어를 사전에 준비하고, 난이도가 낮은 간단한 문제 설정(예를 들면, 유사도가 낮은 언어 데이터로 구성되는 부례 데이터 페어를 이용한 문제)의 학습을 먼저 행하고, 난이도가 높은 문제 설정(예를 들면, 유사도가 높은 언어 데이터로 구성되는 부례 데이터 페어의 문제)의 학습을 뒤에 행한다. 이와 같이 하면, 의미 관계 학습 장치(1)가 좋은 해에 빨리 수속될 뿐만 아니라, 의미 관계 학습 장치(1)를 구비한 의미 관계 판별 장치의 범화 성능을 향상시킬 수 있다.
학습 처리부(18)는, 학습 데이터 세트 선택부(17)에 의해 선택된 학습용 부례 데이터 세트 A17과 정례 데이터 기억부(11)에 저장되어 있는 복수의 정례 데이터 페어 A11을 이용하여 기계 학습 처리를 행한다. 기계 학습 처리에는, 공지의 학습 알고리즘을 이용할 수 있다. 사용 가능한 알고리즘으로서는, SVM(Support Vector Machine), 뉴럴 네트워크(neural network), 또는 결정 나무, 등이 있다.
도 2는, 실시형태 1에 따른 의미 관계 학습 장치(1)의 하드웨어 구성의 예를 나타내는 도면이다. 의미 관계 학습 장치(1)는, 예를 들면, 소프트웨어로서의 프로그램, 즉, 실시형태 1에 따른 의미 관계 학습 프로그램을 저장하는 기억 장치로서의 메모리(102)와, 메모리(102)에 저장된 프로그램을 실행하는 정보 처리부로서의 프로세서(101)를 구비하고 있다. 의미 관계 학습 장치(1)는, 예를 들면, 컴퓨터이다. 실시형태 1에 따른 의미 관계 학습 프로그램은, 정보를 기억하는 기억 매체로부터 판독 장치(도시하지 않음)를 통하여 또는 인터넷 등에 접속 가능한 통신 인터페이스(도시하지 않음)를 통하여 메모리(102)에 저장된다. 또, 의미 관계 학습 장치(1)는, 마우스(103) 및 키보드(104) 등과 같은 유저 조작부인 입력 장치와, 화상을 표시하는 표시 장치(105) 및 음성을 출력하는 음성 출력부(도시하지 않음) 등과 같은 출력 장치를 가져도 된다. 또, 의미 관계 학습 장치(1)는, 데이터베이스 등의 각종 정보를 저장하는 보조 기억 장치(106)를 가져도 된다. 보조 기억 장치(106)는, 반드시 의미 관계 학습 장치(1)의 내부에 존재할 필요는 없고, 통신 인터페이스를 통하여 클라우드 상에 존재하는 기억 장치여도 된다.
도 1에 나타나는 부례 데이터 작성부(12), 특징량 추출부(13), 유사도 산출부(14), 학습용 부례 데이터 작성부(15), 학습 데이터 세트 선택부(17), 및 학습 처리부(18)는, 메모리(102)에 저장되어 있는 프로그램을 실행하는 프로세서(101)에 의해 실현될 수 있다. 또, 도 1에 나타나는 정례 데이터 기억부(11) 및 학습용 부례 데이터 기억부(16)는, 보조 기억 장치(106)의 일부여도 된다.
《1-2》실시형태 1의 동작.
도 3은, 실시형태 1에 따른 의미 관계 학습 장치(1)의 동작을 나타내는 플로 차트이다. 또, 도 4는, 실시형태 1에 있어서의 부례 데이터 작성부(12)의 동작을 나타내는 플로 차트이다. 우선, 부례 데이터 작성부(12)는, 정례 데이터 기억부(11)로부터 복수의 정례 데이터 페어 A11을 취득함으로써, 복수의 정례 데이터 페어 A11의 각각을 구성하는 언어 데이터를 취득한다(스텝 S11, 스텝 S111).
다음에, 부례 데이터 작성부(12)는, 정례 데이터 기억부(11)로부터 취득된 언어 데이터를 조합하는 것에 의해 복수의 부례 데이터 페어 A12를 작성한다(스텝 S12, 스텝 S112). 복수의 부례 데이터 페어 A12의 각각은, 서로 동의 관계에 있지 않은 언어 데이터로 구성된다. 즉, 부례 데이터 작성부(12)는, 정례 데이터 페어 A11 이외의 언어 데이터의 조합으로부터 복수의 부례 데이터 페어 A12를 작성한다. 부례 데이터 작성부(12)는, 정례 데이터 페어 A11 이외의 언어 데이터의 모든 조합으로부터 복수의 부례 데이터 페어 A12를 작성하는 것이 바람직하다. 부례 데이터 작성부(12)는, 부례 데이터 페어 A12를 특징량 추출부(13) 및 유사도 산출부(14)에 출력한다(스텝 S113).
도 5는, 실시형태 1에 있어서의 특징량 추출부(13)의 동작을 나타내는 플로 차트이다. 특징량 추출부(13)는, 복수의 부례 데이터 페어 A12를 취득하고, 복수의 부례 데이터 페어 A12의 각각을 구성하는 언어 데이터로부터 특징량 A13을 추출, 즉, 산출한다(스텝 S13, 스텝 S131, S132). 특징량 추출부(13)는, 특징량 A13을 유사도 산출부(14)에 출력한다(스텝 S133).
도 6은, 실시형태 1에 있어서의 유사도 산출부(14)의 동작을 나타내는 플로 차트이다. 유사도 산출부(14)는, 복수의 부례 데이터 페어 A12 및 복수의 특징량 A13을 취득하고, 복수의 부례 데이터 페어 A12의 각각에 있어서의 특징량 A13의 사이의 유사도를 산출한다(스텝 S14, 스텝 S141, S142). 유사도 산출부(14)는, 유사도를 부례 데이터 페어에 부여하고, 유사도가 부여된 부례 데이터 페어 A14를 학습용 부례 데이터 작성부(15)에 출력한다(스텝 S143).
도 7은, 실시형태 1에 있어서의 학습용 부례 데이터 작성부(15)의 동작을 나타내는 플로 차트이다. 학습용 부례 데이터 작성부(15)는, 유사도가 부여된 복수의 부례 데이터 페어 A14를 취득하고, 복수의 부례 데이터 페어 A14를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트 A15를 작성한다(스텝 S15, 스텝 S151, S152). 즉, 복수의 학습용 부례 데이터 세트 A15의 각각은, 복수의 부례 데이터 페어 A12 중 하나 이상의 부례 데이터 페어를 포함하는 데이터의 그룹이다. 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트 A15는, 학습용 부례 데이터 기억부(16)에 저장된다(스텝 S153).
도 8은, 실시형태 1에 있어서의 학습 데이터 세트 선택부(17)의 동작을 나타내는 플로 차트이다. 학습 데이터 세트 선택부(17)는, 복수의 유사도 범위에 근거하여 미리 결정된 선택 스케줄에 따르는 순서로, 학습용 부례 데이터 기억부(16)에 저장되어 있는 복수의 학습용 부례 데이터 세트 A16 중, 어느 하나의 학습용 부례 데이터 세트 A17을 선택한다(스텝 S16, 스텝 S161). 선택된 학습용 부례 데이터 세트 A17은, 학습 처리부(18)에 출력된다(스텝 S162).
도 9는, 실시형태 1에 있어서의 학습 처리부(18)의 동작을 나타내는 플로 차트이다. 학습 처리부(18)는, 선택된 학습용 부례 데이터 세트 A17과 정례 데이터 기억부(11)에 저장되어 있는 복수의 정례 데이터 페어 A11을 이용하여 기계 학습 처리를 행한다(스텝 S17, 스텝 S171). 도 3에 있어서의 스텝 S16 및 S17의 처리는, 학습용 부례 데이터 세트의 선택 스케줄이 종료되기까지 반복된다(스텝 S18).
《1-3》실시형태 1의 효과.
이상으로 설명한 바와 같이, 실시형태 1에 따른 의미 관계 학습 장치(1), 의미 관계 학습 방법, 또는 의미 관계 학습 프로그램을 이용하면, 양호한 의미 관계의 판별을 가능하게 하는 기계 학습 처리를 행할 수 있다.
구체적으로 말하면, 유사도를 고려한 부례 데이터 페어 A14를 사전에 준비하고, 유사도가 낮은 언어 데이터로 구성되는 부례 데이터 페어를 이용하는 학습을 최초로 행하고, 다음에, 유사도가 다음으로 낮은 언어 데이터로 구성되는 부례 데이터 페어를 이용하는 학습을 행한다. 즉, 서서히 난이도가 높은 문제 설정(즉, 유사도가 높은 언어 데이터로 구성되는 부례 데이터 페어를 이용한 문제 설정)으로 학습을 진행시킨다. 이와 같이 하면, 좋은 해에 빨리 수속될 뿐만 아니라, 범화 성능을 향상시킬 수 있다.
《2》실시형태 2.
《2-1》실시형태 2의 구성.
도 10은, 본 발명의 실시형태 2에 따른 의미 관계 학습 장치(2)의 구성을 개략적으로 나타내는 기능 블럭도이다. 의미 관계 학습 장치(2)는, 실시형태 2에 따른 의미 관계 학습 방법을 실시할 수 있는 장치이다. 도 10에 나타나는 바와 같이, 의미 관계 학습 장치(2)는, 부례 데이터 작성부(22)와, 특징량 추출부(23)와, 유사도 산출부(24)와, 학습용 부례 데이터 작성부(25)와, 학습 데이터 세트 선택부(27)와, 학습 처리부(28)를 구비하고 있다. 또, 의미 관계 학습 장치(2)는, 정례 데이터 기억부(21)와, 학습용 부례 데이터 기억부(26)를 구비해도 된다. 이하에, 실시형태 2를, 실시형태 1과 상이한 개소를 중심으로, 설명한다.
정례 데이터 기억부(21)는, 복수의 정례 데이터 페어 A21을 저장하고 있다. 복수의 정례 데이터 페어의 각각은, 서로 미리 결정된 의미 관계에 있는 언어 데이터로 구성되어 있다. 실시형태 2에 있어서, 미리 결정된 의미 관계는, 질문문과 회답문의 관계이다. 서로 미리 결정된 의미 관계에 있는 언어 데이터는, 예를 들면, 질문문 데이터와 회답문 데이터이다. 한편, 미리 결정된 의미 관계는, 질문문과 회답문의 관계로 한정되지 않는다.
부례 데이터 작성부(22)는, 정례 데이터 기억부(21)에 저장되어 있는 복수의 정례 데이터 페어 A21을 취득한다. 부례 데이터 작성부(22)는, 복수의 정례 데이터 페어 A21의 각각을 구성하는 언어 데이터를 조합하는 것에 의해 복수의 부례 데이터 페어 A22를 작성한다. 복수의 부례 데이터 페어 A22의 각각은, 서로 미리 결정된 의미 관계에 있지 않은 언어 데이터로 구성된다. 실시형태 2에 있어서는, 복수의 부례 데이터 페어 A22의 각각은, 서로 질문문과 회답문의 관계에 있지 않은 언어 데이터로 구성된다. 부례 데이터 페어 A22는, 예를 들면, 질문문과 질문문으로 구성되는 데이터 페어, 및 회답문과 회답문으로 구성되는 데이터 페어이다.
특징량 추출부(23)는, 부례 데이터 작성부(22)에 의해 작성된 복수의 부례 데이터 페어 A22의 각각을 구성하는 언어 데이터로부터 특징량 A23을 추출, 즉, 산출한다. 실시형태 1의 경우와 마찬가지로, 특징량으로서는, 이용하는 유사도와 언어 데이터의 성질 등에 적합한 특징량을 이용할 수 있다.
유사도 산출부(24)는, 복수의 부례 데이터 페어 A22의 각각에 있어서의 특징량 A23의 사이의 유사도를 산출한다. 유사도 산출부(24)는, 산출한 유사도를, 이 유사도에 대응하는 부례 데이터 페어 A22에 부여하고, 유사도가 부여된 부례 데이터 페어 A24를 작성한다. 유사도로서는, 실시형태 1의 경우와 마찬가지의 것을 사용할 수 있다.
학습용 부례 데이터 작성부(25)는, 유사도 산출부(24)에서 작성된 유사도가 부여된 부례 데이터 페어 A24에 포함되는 질문문 데이터로, 정례 데이터 기억부(21)에 저장되어 있는 정례 데이터 페어 A21을 구성하는 질문문 데이터를 대체하는 것에 의해, 또는, 유사도 산출부(24)에서 작성된 유사도가 부여된 부례 데이터 페어 A24에 포함되는 회답문 데이터로, 정례 데이터 기억부(21)에 저장되어 있는 정례 데이터 페어 A21을 구성하는 회답문 데이터를 대체하는 것에 의해, 복수의 학습용 부례 데이터 페어를 작성한다. 학습용 부례 데이터 작성부(25)는, 유사도 산출부(24)에 의해 산출된 유사도에 근거하여, 복수의 학습용 부례 데이터 페어를 구성하는 언어 데이터를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트 A25를 작성한다. 복수의 학습용 부례 데이터 세트 A25의 각각은, 유사도가 부여된 복수의 학습용 부례 데이터 페어 A24 중 하나 이상의 부례 데이터 페어를 포함한다.
예를 들면, 학습용 부례 데이터 작성부(25)가, 「질문문 데이터 D10」과 「회답문 데이터 D20」로 구성되는 정례 데이터 페어로부터, 「질문문 데이터 D10」과 「질문문 데이터 D11」로 구성되는 부례 데이터 페어를 이용하여, 「질문문 데이터 D11」과 「회답문 데이터 D20」로 구성되는 학습용 부례 데이터 페어를 작성하는 경우를 설명한다. 이 경우, 학습용 부례 데이터 작성부(25)는, 정례 데이터 페어의 「질문문 데이터 D10」을, 부례 데이터 페어의 「질문문 데이터 D11」로 대체하는 것에 의해, 「질문문 데이터 D11」과 「회답문 데이터 D20」로 구성되는 학습용 부례 데이터 페어를 작성한다. 이때, 작성된 학습용 부례 데이터 페어에는, 「질문문 데이터 D10」과 「질문문 데이터 D11」로 구성되는 부례 데이터 페어에 부여되어 있는 유사도가 부여된다.
또, 예를 들면, 학습용 부례 데이터 작성부(25)가, 「질문문 데이터 D10」과 「회답문 데이터 D20」로 구성되는 정례 데이터 페어로부터, 「회답문 데이터 D20」과 「회답문 데이터 D21」로 구성되는 부례 데이터 페어를 이용하여, 「질문문 데이터 D10」과 「회답문 데이터 D21」로 구성되는 학습용 부례 데이터 페어를 작성하는 경우를 설명한다. 이 경우, 학습용 부례 데이터 작성부(25)는, 정례 데이터 페어의 「회답문 데이터 D20」을, 부례 데이터 페어의 「회답문 데이터 D21」로 대체하는 것에 의해, 「질문문 데이터 D10」과 「회답문 데이터 D21」로 구성되는 학습용 부례 데이터 페어를 작성한다. 이때, 작성된 학습용 부례 데이터 페어에는, 「회답문 데이터 D20」과 「회답문 데이터 D21」로 구성되는 부례 데이터 페어에 부여되어 있는 유사도가 부여된다.
예를 들면, 부례 데이터 작성부(22)에서 작성된 부례 데이터 페어를 구성하는 「질문문 A」와 「질문문 B」의 사이의 유사도에 대해 설명한다. 유사도 산출부(24)는, 「질문문 A」의 텍스트 데이터와 「질문문 B」의 텍스트 데이터를, 각각 다차원 벡터로 변환하여, 다차원 벡터에 근거하여 텍스트간의 유클리드 거리 d2를 산출하고, 이 산출에서 얻어진 유클리드 거리 d2를 유사도로 한다. 이와 같이 처리함으로써, 유사도가 부여된, 「질문문」과 「회답문」으로 구성되는 학습용 부례 데이터 페어가 작성된다.
학습용 부례 데이터 작성부(25)는, 산출된 유클리드 거리 d2에 근거하여, 「질문문」과 「회답문」으로 구성되는 학습용 부례 데이터 페어를, 유클리드 거리 d2의 범위마다 분류된 학습용 부례 데이터 세트 A25를 작성한다. 여기에서, 유사도 범위인 유클리드 거리 d2의 범위는, 예를 들면,
0.1≤d2<0.3의 범위인 제 1 유사도 범위,
0.3≤d2<0.5의 범위인 제 2 유사도 범위, 및
0.5≤d2≤0.7의 범위인 제 3 유사도 범위
이다. 이 예는, 학습용 부례 데이터 페어를, 유사도 범위별로, 3개의 데이터 세트로 분류하는 경우의 예이다. 한편, 작성하는 학습용 부례 데이터 세트의 유사도 범위의 넓이, 유사도 범위의 수는, 상기의 예로 한정되지 않는다.
학습용 부례 데이터 기억부(26)는, 학습용 부례 데이터 작성부(25)에 의해 작성된, 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트 A25를 수취하고, 복수의 학습용 부례 데이터 세트 A26으로서 저장한다.
학습 데이터 세트 선택부(27)는, 복수의 유사도 범위에 근거하여 미리 결정된 선택 스케줄에 따르는 순서로, 학습용 부례 데이터 기억부(26)에 저장되어 있는 복수의 학습용 부례 데이터 세트 A26 중, 어느 하나의 학습용 부례 데이터 세트 A27을 선택한다.
구체적으로는, 학습 데이터 세트 선택부(27)는, 유사도 범위의 유사도가 낮은 학습용 부례 데이터 세트부터 차례로 학습 처리부(28)에 출력하고, 학습 처리부(28)에 있어서의 학습 처리를 실행한다. 1회의 학습 처리가 종료되면 다음으로 유사도가 높은 학습용 부례 데이터 세트를 학습 처리부(28)에 출력하고, 학습용 부례 데이터 세트의 선택 스케줄이 종료되기까지, 마찬가지의 순번으로 처리를 반복한다.
바꾸어 말하면, 학습 데이터 세트 선택부(27)는, 먼저, 복수의 유사도 범위 중 제일 낮은(즉, 가장 낮은) 값의 유사도 범위에 대응하는 학습용 부례 데이터 세트가 1번째로 선택되도록, 다음에, 복수의 유사도 범위 중 2번째로 낮은 값의 유사도 범위에 대응하는 학습용 부례 데이터 세트가 2번째로 선택되도록, 선택 스케줄을 결정한다. 즉, 학습 데이터 세트 선택부(27)는, n을 1 이상의 정수로 했을 때에, 복수의 유사도 범위 중 n번째로 낮은 값의 유사도 범위에 대응하는 학습용 부례 데이터 세트가 n번째로 선택되도록, 선택 스케줄을 결정한다.
이와 같이, 유사도가 낮은 학습용 부례 데이터 세트로부터 학습을 개시하고, 서서히 유사도가 높은 학습용 부례 데이터 세트를 학습함으로써, 의미 관계 학습 장치(2)는, 좋은 해에 빨리 수속될 수 있다. 또, 의미 관계 학습 장치(2)에 의하여 얻어진 의미 관계 판별용 모델의 범화 성능을 향상시킬 수 있다. 한편, 학습용 부례 데이터 세트의 선택 스케줄에서는, 임의의 학습 횟수를 설정해도 된다. 또, 의미 관계 학습 장치(2)의 정밀도가 가장 높아지도록 하기 위해, 학습용 부례 데이터 세트의 선택 스케줄의 결정에, 베이즈 최적화 등에 의한 최적화의 결과를 이용해도 된다.
즉, 전자화 데이터의 의미 관계 판별을 위한 학습에 있어서, 유사도를 고려한 학습용 부례 데이터 페어를 사전에 준비하고, 난이도가 낮은 간단한 문제 설정(예를 들면, 유사도가 낮은 언어 데이터로 구성되는 학습용 부례 데이터 페어를 이용한 문제)의 학습을 먼저 행하고, 난이도가 높은 문제 설정(예를 들면, 유사도가 높은 언어 데이터로 구성되는 학습용 부례 데이터 페어를 이용한 문제)의 학습을 뒤에 행한다. 이와 같이 하면, 의미 관계 학습 장치(2)가 좋은 해에 빨리 수속될 뿐만 아니라, 의미 관계 학습 장치(2)를 구비한 의미 관계 판별 장치의 범화 성능을 향상시킬 수 있다.
학습 처리부(28)는, 학습 데이터 세트 선택부(27)에 의해 선택된 학습용 부례 데이터 세트 A27과 정례 데이터 기억부(21)에 저장되어 있는 복수의 정례 데이터 페어 A21을 이용하여 기계 학습 처리를 행한다. 학습 처리부(28)의 기능은, 실시형태 1에 있어서의 학습 처리부(18)의 기능과 마찬가지이다.
또, 실시형태 2에 따른 의미 관계 학습 장치(2)의 하드웨어 구성은, 도 2에 나타나는 것과 마찬가지이다.
《2-2》실시형태 2의 동작.
도 11은, 실시형태 2에 따른 의미 관계 학습 장치(2)의 동작을 나타내는 플로 차트이다. 또, 도 12는, 실시형태 2에 있어서의 부례 데이터 작성부(22)의 동작을 나타내는 플로 차트이다. 우선, 부례 데이터 작성부(22)는, 정례 데이터 기억부(21)로부터 복수의 정례 데이터 페어 A21을 취득함으로써, 복수의 정례 데이터 페어 A21의 각각을 구성하는 언어 데이터인 질문문 데이터와 회답문 데이터를 취득한다(스텝 S21, 스텝 S211).
다음에, 부례 데이터 작성부(22)는, 정례 데이터 기억부(21)로부터 취득된 질문문 데이터끼리를 조합하는 것에 의해 및 회답문끼리를 조합하는 것에 의해, 복수의 부례 데이터 페어 A22를 작성한다(스텝 S22, 스텝 S212, S213). 복수의 부례 데이터 페어 A22의 각각은, 미리 결정된 의미 관계에 있지 않은 언어 데이터의 페어로 구성된다. 즉, 부례 데이터 작성부(22)는, 정례 데이터 페어 A21 이외의 언어 데이터의 조합으로부터 복수의 부례 데이터 페어 A22를 작성한다. 부례 데이터 작성부(22)는, 부례 데이터 페어 A22를 특징량 추출부(23) 및 유사도 산출부(24)에 출력한다(스텝 S214).
도 13은, 실시형태 2에 있어서의 특징량 추출부(23)의 동작을 나타내는 플로 차트이다. 특징량 추출부(23)는, 복수의 부례 데이터 페어 A22를 취득하고, 복수의 부례 데이터 페어 A22의 각각을 구성하는 언어 데이터로부터 특징량 A23을 추출, 즉, 산출한다(스텝 S23, 스텝 S231, S232). 특징량 추출부(23)는, 특징량 A23을 유사도 산출부(24)에 출력한다(스텝 S233).
도 14는, 실시형태 2에 있어서의 유사도 산출부(24)의 동작을 나타내는 플로 차트이다. 유사도 산출부(24)는, 복수의 부례 데이터 페어 A22 및 복수의 특징량 A23을 취득하고, 복수의 부례 데이터 페어 A22의 각각에 있어서의 특징량 A23의 사이의 유사도를 산출한다(스텝 S24, 스텝 S241, S242). 유사도 산출부(24)는, 유사도를 부례 데이터 페어에 부여하고, 유사도가 부여된 부례 데이터 페어 A24를 학습용 부례 데이터 작성부(25)에 출력한다(스텝 S24, 스텝 S243, S244).
도 15는, 실시형태 2에 있어서의 학습용 부례 데이터 작성부(25)의 동작을 나타내는 플로 차트이다. 학습용 부례 데이터 작성부(25)는, 유사도에 근거하여, 복수의 부례 데이터 페어 A24를 구성하는 언어 데이터와 복수의 정례 데이터 페어 A21을 구성하는 언어 데이터로부터 작성된 복수의 학습용 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 복수의 학습용 부례 데이터 세트 A25를 작성한다(스텝 S25, 스텝 S251, S252). 즉, 복수의 학습용 부례 데이터 세트 A25의 각각은, 복수의 부례 데이터 페어 A24 중 하나 이상의 부례 데이터 페어를 포함하는 데이터의 그룹이다. 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트 A25는, 학습용 부례 데이터 기억부(26)에 저장된다(스텝 S253).
학습 데이터 세트 선택부(27) 및 학습 처리부(28)의 동작은, 실시형태 1에 있어서의 학습 데이터 세트 선택부(17) 및 학습 처리부(18)와 마찬가지이다.
《2-3》실시형태 2의 효과.
이상으로 설명한 바와 같이, 실시형태 2에 따른 의미 관계 학습 장치(2), 의미 관계 학습 방법, 또는 의미 관계 학습 프로그램을 이용하면, 양호한 의미 관계의 판별을 가능하게 하는 기계 학습 처리를 행할 수 있다.
구체적으로 말하면, 유사도를 고려한 부례 데이터 페어 A24를 사전에 준비하고, 유사도가 낮은 언어 데이터로 구성되는 학습용 부례 데이터 페어의 학습용 부례 데이터 페어 세트를 이용하는 학습을 최초로 행하고, 다음에, 유사도가 다음으로 낮은 언어 데이터로 구성되는 학습용 부례 데이터 페어의 학습용 부례 데이터 페어 세트를 이용하는 학습을 행한다. 즉, 서서히 난이도가 높은 문제 설정(즉, 유사도가 높은 언어 데이터로 구성되는 부례 데이터 페어의 학습용 부례 데이터 페어 세트를 이용한 문제 설정)으로 학습을 진행시킨다. 이와 같이 하면, 좋은 해에 빨리 수속될 뿐만 아니라, 범화 성능을 향상시킬 수 있다.
1, 2: 의미 관계 학습 장치, 11, 21: 정례 데이터 기억부, 12, 22: 부례 데이터 작성부, 13, 23: 특징량 추출부, 14, 24: 유사도 산출부, 15, 25: 학습용 부례 데이터 작성부, 16, 26: 학습용 부례 데이터 기억부, 17, 27: 학습 데이터 세트 선택부, 18, 28: 학습 처리부.

Claims (11)

  1. 복수의 정례(正例) 데이터 페어의 각각은 서로 미리 결정된 의미 관계에 있는 언어 데이터로 구성되어 있고, 상기 복수의 정례 데이터 페어를 저장하고 있는 정례 데이터 기억부로부터, 상기 복수의 정례 데이터 페어를 취득하고, 상기 언어 데이터를 조합하는 것에 의해 복수의 부례(負例) 데이터 페어를 작성하고, 상기 복수의 부례 데이터 페어의 각각은 서로 상기 미리 결정된 의미 관계에 있지 않은 언어 데이터로 구성되는, 부례 데이터 작성부와,
    상기 복수의 부례 데이터 페어의 각각을 구성하는 상기 언어 데이터로부터 특징량을 추출하는 특징량 추출부와,
    상기 복수의 부례 데이터 페어의 각각에 있어서의 상기 언어 데이터의 상기 특징량의 사이의 유사도를 산출하는 유사도 산출부와,
    상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 또는, 상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 구성하는 상기 언어 데이터와 상기 복수의 정례 데이터 페어를 구성하는 상기 언어 데이터로부터 작성된 복수의 학습용 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 상기 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트를 작성하고, 상기 복수의 학습용 부례 데이터 세트의 각각은 상기 복수의 부례 데이터 페어 중 하나 이상의 부례 데이터 페어를 포함하는, 학습용 부례 데이터 작성부와,
    상기 복수의 유사도 범위에 근거하여 미리 결정된 선택 스케줄에 따르는 순서로, 상기 복수의 학습용 부례 데이터 세트 중 어느 하나의 학습용 부례 데이터 세트를 선택하는 학습 데이터 세트 선택부와,
    상기 학습 데이터 세트 선택부에 의해 선택된 상기 학습용 부례 데이터 세트와 상기 복수의 정례 데이터 페어를 이용하여 기계 학습 처리를 행하는 학습 처리부
    를 구비하는 것을 특징으로 하는 의미 관계 학습 장치.
  2. 제 1 항에 있어서,
    상기 미리 결정된 의미 관계에 있는 상기 언어 데이터는, 서로 동의 관계에 있는 언어 데이터이고,
    상기 미리 결정된 의미 관계에 있지 않은 상기 언어 데이터는, 서로 동의 관계에 있지 않은 언어 데이터이고,
    상기 학습용 부례 데이터 작성부는, 상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 상기 복수의 학습용 부례 데이터 세트를 작성하는
    것을 특징으로 하는 의미 관계 학습 장치.
  3. 제 2 항에 있어서,
    상기 학습 데이터 세트 선택부는,
    n을 1 이상의 정수로 했을 때에,
    상기 복수의 유사도 범위 중 n번째로 낮은 값의 유사도 범위에 대응하는 학습용 부례 데이터 세트가 n번째로 선택되도록, 상기 선택 스케줄을 결정하는
    것을 특징으로 하는 의미 관계 학습 장치.
  4. 제 1 항에 있어서,
    상기 미리 결정된 의미 관계에 있는 상기 언어 데이터는, 질문문을 나타내는 언어 데이터와 회답문을 나타내는 언어 데이터이고,
    상기 미리 결정된 의미 관계에 있지 않은 상기 언어 데이터는, 질문문을 나타내는 제 1 언어 데이터와 질문문을 나타내는 제 2 언어 데이터, 또는, 회답문을 나타내는 제 3 언어 데이터와 회답문을 나타내는 제 4 언어 데이터이고,
    상기 학습용 부례 데이터 작성부는, 상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어와 상기 복수의 정례 데이터 페어로부터 작성된 복수의 학습용 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 상기 복수의 학습용 부례 데이터 세트를 작성하는
    의미 관계 학습 장치.
  5. 제 1 항에 있어서,
    상기 미리 결정된 의미 관계에 있는 상기 언어 데이터는, 질문문을 나타내는 언어 데이터와 회답문을 나타내는 언어 데이터이고,
    상기 미리 결정된 의미 관계에 있지 않은 상기 언어 데이터는, 질문문을 나타내는 제 1 언어 데이터와 질문문을 나타내는 제 2 언어 데이터, 또는, 회답문을 나타내는 제 3 언어 데이터와 회답문을 나타내는 제 4 언어 데이터이고,
    상기 학습용 부례 데이터 작성부는, 상기 복수의 정례 데이터 페어의 각각의 질문문 데이터를, 상기 복수의 부례 데이터 페어 중 어느 하나의 부례 데이터 페어의 상기 제 1 언어 데이터 또는 상기 제 2 언어 데이터로 대체하는 것에 의해, 또는, 상기 복수의 정례 데이터 페어의 각각의 회답문 데이터를, 상기 복수의 부례 데이터 페어 중 어느 하나의 부례 데이터 페어의 상기 제 3 언어 데이터 또는 상기 제 4 언어 데이터로 대체하는 것에 의해, 작성된 복수의 학습용 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 상기 복수의 학습용 부례 데이터 세트를 작성하는
    것을 특징으로 하는 의미 관계 학습 장치.
  6. 제 4 항 또는 제 5 항에 있어서,
    상기 학습 데이터 세트 선택부는,
    n을 1 이상의 정수로 했을 때에,
    상기 복수의 유사도 범위 중 n번째로 낮은 값의 유사도 범위에 대응하는 학습용 부례 데이터 세트가 n번째로 선택되도록, 상기 선택 스케줄을 결정하는
    것을 특징으로 하는 의미 관계 학습 장치.
  7. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 복수의 정례 데이터 페어를 저장하고 있는 상기 정례 데이터 기억부를 더 구비한 것을 특징으로 하는 의미 관계 학습 장치.
  8. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 학습용 부례 데이터 작성부에 의해 작성된 상기 복수의 학습용 부례 데이터 세트를 저장하는 학습용 부례 데이터 기억부를 더 구비한 것을 특징으로 하는 의미 관계 학습 장치.
  9. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 학습 처리부에 의해 행해진 상기 기계 학습 처리의 결과를 기억하는 기억부를 더 구비한 것을 특징으로 하는 의미 관계 학습 장치.
  10. 의미 관계 학습 장치에 의해 각 스텝이 수행되는 의미 관계 학습 방법에 있어서,
    복수의 정례 데이터 페어의 각각은 서로 미리 결정된 의미 관계에 있는 언어 데이터로 구성되어 있고, 상기 복수의 정례 데이터 페어를 저장하고 있는 정례 데이터 기억부로부터, 상기 복수의 정례 데이터 페어를 취득하고, 상기 언어 데이터를 조합하는 것에 의해 복수의 부례 데이터 페어를 작성하고, 상기 복수의 부례 데이터 페어의 각각은 서로 상기 미리 결정된 의미 관계에 있지 않은 언어 데이터로 구성되는, 부례 데이터 작성 스텝과,
    상기 복수의 부례 데이터 페어의 각각을 구성하는 상기 언어 데이터로부터 특징량을 추출하는 추출 스텝과,
    상기 복수의 부례 데이터 페어의 각각에 있어서의 상기 언어 데이터의 상기 특징량의 사이의 유사도를 산출하는 산출 스텝과,
    상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 또는, 상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 구성하는 상기 언어 데이터와 상기 복수의 정례 데이터 페어를 구성하는 상기 언어 데이터로부터 작성된 복수의 학습용 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 상기 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트를 작성하고, 상기 복수의 학습용 부례 데이터 세트의 각각은 상기 복수의 부례 데이터 페어 중 하나 이상의 부례 데이터 페어를 포함하는, 학습용 부례 데이터 작성 스텝과,
    상기 복수의 유사도 범위에 근거하여 미리 결정된 선택 스케줄에 따르는 순서로, 상기 복수의 학습용 부례 데이터 세트 중 어느 하나의 학습용 부례 데이터 세트를 선택하는 선택 스텝과,
    선택된 상기 학습용 부례 데이터 세트와 상기 복수의 정례 데이터 페어를 이용하여 기계 학습 처리를 행하는 학습 스텝
    을 갖는 것을 특징으로 하는 의미 관계 학습 방법.
  11. 복수의 정례 데이터 페어의 각각은 서로 미리 결정된 의미 관계에 있는 언어 데이터로 구성되어 있고, 상기 복수의 정례 데이터 페어를 저장하고 있는 정례 데이터 기억부로부터, 상기 복수의 정례 데이터 페어를 취득하고, 상기 언어 데이터를 조합하는 것에 의해 복수의 부례 데이터 페어를 작성하고, 상기 복수의 부례 데이터 페어의 각각은 서로 상기 미리 결정된 의미 관계에 있지 않은 언어 데이터로 구성되는, 부례 데이터 작성 처리와,
    상기 복수의 부례 데이터 페어의 각각을 구성하는 상기 언어 데이터로부터 특징량을 추출하는 추출 처리와,
    상기 복수의 부례 데이터 페어의 각각에 있어서의 상기 언어 데이터의 상기 특징량의 사이의 유사도를 산출하는 산출 처리와,
    상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 또는, 상기 유사도에 근거하여, 상기 복수의 부례 데이터 페어를 구성하는 상기 언어 데이터와 상기 복수의 정례 데이터 페어를 구성하는 상기 언어 데이터로부터 작성된 복수의 학습용 부례 데이터 페어를 미리 결정된 복수의 유사도 범위로 분류하는 것에 의해, 상기 복수의 유사도 범위에 대응하는 복수의 학습용 부례 데이터 세트를 작성하고, 상기 복수의 학습용 부례 데이터 세트의 각각은 상기 복수의 부례 데이터 페어 중 하나 이상의 부례 데이터 페어를 포함하는, 학습용 부례 데이터 작성 처리와,
    상기 복수의 유사도 범위에 근거하여 미리 결정된 선택 스케줄에 따르는 순서로, 상기 복수의 학습용 부례 데이터 세트 중 어느 하나의 학습용 부례 데이터 세트를 선택하는 선택 처리와,
    선택된 상기 학습용 부례 데이터 세트와 상기 복수의 정례 데이터 페어를 이용하여 기계 학습 처리를 행하는 학습 처리
    를 컴퓨터로 하여금 실행하게 하는 것을 특징으로 하는 컴퓨터 판독 가능한 기록 매체에 기록된 의미 관계 학습 컴퓨터 프로그램.
KR1020217019768A 2019-01-08 2019-01-08 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램 KR102400689B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/000173 WO2020144736A1 (ja) 2019-01-08 2019-01-08 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム

Publications (2)

Publication Number Publication Date
KR20210088725A KR20210088725A (ko) 2021-07-14
KR102400689B1 true KR102400689B1 (ko) 2022-05-20

Family

ID=71521530

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217019768A KR102400689B1 (ko) 2019-01-08 2019-01-08 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램

Country Status (6)

Country Link
US (1) US20210312333A1 (ko)
JP (1) JP6899973B2 (ko)
KR (1) KR102400689B1 (ko)
CN (1) CN113302601A (ko)
DE (1) DE112019006005T5 (ko)
WO (1) WO2020144736A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256849B (zh) * 2020-10-20 2024-02-13 深圳前海微众银行股份有限公司 模型训练方法、文本检测方法、装置、设备和存储介质
JP7190479B2 (ja) * 2020-12-28 2022-12-15 楽天グループ株式会社 学習装置、機械学習モデル及び学習方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146003A (ja) 2011-01-07 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びプログラム
JP2013254420A (ja) 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、モデル学習装置、方法、及びプログラム
JP2015225416A (ja) 2014-05-26 2015-12-14 日本電信電話株式会社 モデル学習装置、ランキング装置、方法、及びプログラム
JP2018025956A (ja) 2016-08-09 2018-02-15 日本電信電話株式会社 モデル作成装置、推定装置、方法、及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4838272B2 (ja) * 2008-01-30 2011-12-14 日本電信電話株式会社 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体
JP5447862B2 (ja) * 2008-04-03 2014-03-19 日本電気株式会社 単語分類システム、方法およびプログラム
JP5682448B2 (ja) * 2011-05-20 2015-03-11 日本電気株式会社 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP5916016B2 (ja) * 2012-12-17 2016-05-11 日本電信電話株式会社 同義判定装置、同義学習装置、及びプログラム
JP6004015B2 (ja) * 2013-02-01 2016-10-05 富士通株式会社 学習方法、情報処理装置および学習プログラム
JP2017010249A (ja) * 2015-06-22 2017-01-12 日本電信電話株式会社 パラメタ学習装置、文類似度算出装置、方法、及びプログラム
JP6618735B2 (ja) * 2015-08-31 2019-12-11 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム
JP6440035B2 (ja) * 2016-08-26 2018-12-19 井関農機株式会社 コンバイン
CN108153853B (zh) * 2017-12-22 2022-02-01 齐鲁工业大学 基于Wikipedia链接结构的中文概念向量生成方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146003A (ja) 2011-01-07 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びプログラム
JP2013254420A (ja) 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、モデル学習装置、方法、及びプログラム
JP2015225416A (ja) 2014-05-26 2015-12-14 日本電信電話株式会社 モデル学習装置、ランキング装置、方法、及びプログラム
JP2018025956A (ja) 2016-08-09 2018-02-15 日本電信電話株式会社 モデル作成装置、推定装置、方法、及びプログラム

Also Published As

Publication number Publication date
KR20210088725A (ko) 2021-07-14
WO2020144736A1 (ja) 2020-07-16
CN113302601A (zh) 2021-08-24
DE112019006005T5 (de) 2021-09-02
JPWO2020144736A1 (ja) 2021-02-18
US20210312333A1 (en) 2021-10-07
JP6899973B2 (ja) 2021-07-07

Similar Documents

Publication Publication Date Title
US20210192126A1 (en) Generating structured text summaries of digital documents using interactive collaboration
Roberts et al. Investigating the emotional responses of individuals to urban green space using twitter data: A critical comparison of three different methods of sentiment analysis
Daumé et al. Search-based structured prediction
Li et al. Sentiment classification and polarity shifting
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
Atia et al. Increasing the accuracy of opinion mining in Arabic
SzymańSki Comparative analysis of text representation methods using classification
Wang et al. Named entity disambiguation for questions in community question answering
Murugesan et al. Distributed smoothed tree kernel for protein-protein interaction extraction from the biomedical literature
KR20200128584A (ko) 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램
Dalip et al. Quality assessment of collaborative content with minimal information
Alsaedi et al. Temporal TF-IDF: A high performance approach for event summarization in twitter
US20230336532A1 (en) Privacy Preserving Document Analysis
US10754904B2 (en) Accuracy determination for media
US10073890B1 (en) Systems and methods for patent reference comparison in a combined semantical-probabilistic algorithm
KR102400689B1 (ko) 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
Tsarev et al. Supervised and unsupervised text classification via generic summarization
Iram et al. Anatomy of Sentiment Analysis of Tweets Using Machine Learning Approach: Anatomy of Sentiment Analysis of Tweets
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
KR20210003540A (ko) 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 장치 및 방법

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant