KR20120123122A - 자연 언어 처리 장치, 방법 및 프로그램 - Google Patents

자연 언어 처리 장치, 방법 및 프로그램 Download PDF

Info

Publication number
KR20120123122A
KR20120123122A KR1020127022742A KR20127022742A KR20120123122A KR 20120123122 A KR20120123122 A KR 20120123122A KR 1020127022742 A KR1020127022742 A KR 1020127022742A KR 20127022742 A KR20127022742 A KR 20127022742A KR 20120123122 A KR20120123122 A KR 20120123122A
Authority
KR
South Korea
Prior art keywords
speech
pattern
parts
morpheme
character string
Prior art date
Application number
KR1020127022742A
Other languages
English (en)
Other versions
KR101364321B1 (ko
Inventor
사또시 세끼네
하지메 와까하라
Original Assignee
라쿠텐 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 라쿠텐 인코포레이티드 filed Critical 라쿠텐 인코포레이티드
Publication of KR20120123122A publication Critical patent/KR20120123122A/ko
Application granted granted Critical
Publication of KR101364321B1 publication Critical patent/KR101364321B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

자연 언어 처리 장치(10)는, 공통의 하나 이상의 글(text)을 복수 종류의 형태소 해석기(A1, A2, A3)의 각각에 해석시킴으로써 얻어진, 그 하나 이상의 글에 포함되는 각 형태소의 품사를 나타내는 해석 결과를 취득하는 결과 취득부(11)와, 복수의 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 공통의 단락 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 패턴 취득부(12)와, 취득된 품사 상이 패턴을, 그 품사 상이 패턴의 출현 횟수와 함께 기억하는 기억부(13)와, 출현 횟수가 소정의 임계값 이하인 품사 상이 패턴을 기억부(13)로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 후보 특정부(14)를 구비한다.

Description

자연 언어 처리 장치, 방법 및 프로그램{NATURAL LANGUAGE PROCESSING DEVICE, METHOD, AND PROGRAM}
본 발명의 일 형태는 자연 언어 처리 장치, 자연 언어 처리 방법, 자연 언어 처리 프로그램 및 자연 언어 처리 프로그램을 기억한 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
종래부터 다양한 목적으로, 텍스트 데이터에 대한 자연 언어 처리(자연 언어 해석)가 행해지고 있다. 예를 들면, 일반 유저에 의해 기술되어 웹 서비스 상에 등록된 리뷰나 블로그 등의 기사에 대해, 자연 언어 처리가 행해지는 경우가 있다.
자연 언어 처리의 하나의 방법으로서 형태소 해석이 있다. 형태소 해석에 관하여, 하기 특허문헌 1에는, 사전에 등록되어 있는 단어와 중복되지 않는 형태소를 미지어로서 추출하기 위한 방법이 기재되어 있다.
일본 특허 출원 공개 제2002-297589호 공보
그러나, 상기 특허문헌 1에 기재된 방법과 같이, 단순히, 사전에 중복되는 낱말이 없는 단어를 전부 미지어로 판단하고 있었던 것으로는, 효율적으로 미지어를 발견할 수 없다.
따라서, 효율적으로 미지어를 발견하는 것이 요청되고 있다.
본 발명의 일 형태에 따른 자연 언어 처리 장치는, 공통의 하나 이상의 글을 복수 종류의 형태소 해석기의 각각에 해석시킴으로써 얻어진, 그 하나 이상의 글에 포함되는 각 형태소의 품사를 나타내는 해석 결과를 취득하는 결과 취득 수단과, 결과 취득 수단에 의해 취득된 복수의 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 공통의 단락 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 패턴 취득 수단과, 패턴 취득 수단에 의해 취득된 품사 상이 패턴을, 그 품사 상이 패턴의 출현 횟수와 함께 기억하는 기억 수단과, 출현 횟수가 소정의 임계값 이하인 품사 상이 패턴을 기억 수단으로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 후보 특정 수단을 구비한다.
본 발명의 일 형태에 따른 자연 언어 처리 방법은, 자연 언어 처리 장치에 의해 실행되는 자연 언어 처리 방법으로서, 공통의 하나 이상의 글을 복수 종류의 형태소 해석기의 각각에 해석시킴으로써 얻어진, 그 하나 이상의 글에 포함되는 각 형태소의 품사를 나타내는 해석 결과를 취득하는 결과 취득 스텝과, 결과 취득 스텝에서 취득된 복수의 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 공통의 단락 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 패턴 취득 스텝과, 패턴 취득 스텝에서 취득된 품사 상이 패턴을, 그 품사 상이 패턴의 출현 횟수와 함께 기억 수단에 기억하는 기억 스텝과, 출현 횟수가 소정의 임계값 이하인 품사 상이 패턴을 기억 수단으로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 후보 특정 스텝을 포함하는 것을 특징으로 한다.
본 발명의 일 형태에 따른 자연 언어 처리 프로그램은, 컴퓨터를, 공통의 하나 이상의 글을 복수 종류의 형태소 해석기의 각각에 해석시킴으로써 얻어진, 그 하나 이상의 글에 포함되는 각 형태소의 품사를 나타내는 해석 결과를 취득하는 결과 취득 수단과, 결과 취득 수단에 의해 취득된 복수의 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 공통의 단락 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 패턴 취득 수단과, 패턴 취득 수단에 의해 취득된 품사 상이 패턴을, 그 품사 상이 패턴의 출현 횟수와 함께 기억하는 기억 수단과, 출현 횟수가 소정의 임계값 이하인 품사 상이 패턴을 기억 수단으로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 후보 특정 수단으로서 기능시킨다.
본 발명의 일 형태에 따른 컴퓨터 판독 가능한 기록 매체는, 컴퓨터를, 공통의 하나 이상의 글을 복수 종류의 형태소 해석기의 각각에 해석시킴으로써 얻어진, 그 하나 이상의 글에 포함되는 각 형태소의 품사를 나타내는 해석 결과를 취득하는 결과 취득 수단과, 결과 취득 수단에 의해 취득된 복수의 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 공통의 단락 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 패턴 취득 수단과, 패턴 취득 수단에 의해 취득된 품사 상이 패턴을, 그 품사 상이 패턴의 출현 횟수와 함께 기억하는 기억 수단과, 출현 횟수가 소정의 임계값 이하인 품사 상이 패턴을 기억 수단으로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 후보 특정 수단으로서 기능시키는 자연 언어 처리 프로그램을 기억한다.
발명자들은, 형태소 해석의 대상으로 되는 글이 미지어를 포함할 때에는, 복수 종류의 형태소 해석기가 각각, 미지어의 주변에 있어서 상이한 해석 결과를 나타낸다고 하는 가정에 기초하여 예의 검토하였다. 이 가정에 기초하여, 발명자들은 대량의 글을 복수 종류의 형태소 해석기에 입력하여 대량의 품사 상이 패턴을 추출하고, 얻어진 품사 상이 패턴을 그 빈도에 기초하여 분석하였다. 그리고, 발명자들은, 빈도가 낮은 품사 상이 패턴에 대응하는 문자열에 미지어가 포함되는 경향이 있다고 하는 지식을 얻었다.
상기한 형태에 따르면, 공통의 하나 이상의 글에 대한 복수 종류의 형태소 해석기의 해석 결과에 기초하여, 공통의 위치에서 구획된 문자열의 품사 상이 패턴(복수의 형태소 해석기에서 얻어진, 상기 문자열에 대한 품사의 집합)이 얻어진다. 이 품사 상이 패턴은, 그 출현 횟수와 함께 기억된다. 그리고, 출현 횟수가 소정의 임계값 이하인 품사 상이 패턴에 대응하는 문자열이, 미지어의 후보를 포함하는 것으로서 특정된다. 이와 같이, 미지어의 존재 확률이 높다고 추정되는 문자열을 자동적으로 추출함으로써, 미지어의 탐색 범위를 한정하여, 그만큼, 효율적으로 미지어를 발견하는 것이 가능하게 된다.
다른 형태에 따른 자연 언어 처리 장치에서는, 복수 종류의 형태소 해석기의 사이에서, 각 형태소 해석기에 저장되어 있는 사전의 내용이 상이해도 된다.
이와 같이, 사전의 내용이 서로 상이한 복수의 형태소 해석기를 이용함으로써, 미지어를 실제로 포함하고 있는 문자열을 보다 효율적으로 추출하는 것이 가능하게 되므로, 그만큼, 효율적으로 미지어를 발견할 수 있다.
또 다른 형태에 따른 자연 언어 처리 장치에서는, 복수 종류의 형태소 해석기의 사이에서, 사전에 수록되어 있는 단어의 개수가 상이해도 된다.
또 다른 형태에 따른 자연 언어 처리 장치에서는, 복수 종류의 형태소 해석기의 사이에서, 사전에 수록되어 있는 품사의 체계가 상이해도 된다.
또 다른 형태에 따른 자연 언어 처리 장치에서는, 복수 종류의 형태소 해석기의 사이에서, 각 형태소 해석기에 저장되어 있는 단어간의 접속 룰이 상이해도 된다.
이와 같이, 단어간의 접속 룰이 서로 상이한 복수의 형태소 해석기를 이용함으로써, 미지어를 실제로 포함하고 있는 문자열을 보다 효율적으로 추출하는 것이 가능하게 되므로, 그 만큼, 효율적으로 미지어를 발견할 수 있다.
또 다른 형태에 따른 자연 언어 처리 장치에서는, 복수 종류의 형태소 해석기의 사이에서, 단어간의 접속에 대해 설정되는 스코어가 상이해도 된다.
또 다른 형태에 따른 자연 언어 처리 장치에서는, 복수 종류의 형태소 해석기의 사이에서, 단어간의 접속에 관한 스코어 적용의 룰이 상이해도 된다.
본 발명의 일 측면에 따르면, 미지어의 존재 확률이 높다고 추정되는 문자열을 자동적으로 추출함으로써 미지어의 탐색 범위가 한정되므로, 그만큼, 효율적으로 미지어를 발견하는 것이 가능하게 된다.
도 1은 실시 형태에 따른 자연 언어 처리 장치의 기능 구성을 도시하는 블록도이다.
도 2는 품사 상이 패턴의 취득을 설명하기 위한 도면이다.
도 3은 빈도 데이터의 집계 결과의 예를 나타내는 도면이다.
도 4는 빈도 데이터에 기초하는 품사 상이 패턴의 분석 결과의 예를 나타내는 도면이다.
도 5는 도 1에 나타내는 자연 언어 처리 장치의 동작을 나타내는 플로우차트이다.
이하, 첨부 도면을 참조하면서 본 발명의 실시 형태를 상세하게 설명한다. 또한, 도면의 설명에 있어서 동일 또는 동등한 요소에는 동일한 부호를 부여하고, 중복되는 설명을 생략한다.
우선, 도 1?4를 이용하여, 실시 형태에 따른 자연 언어 처리 장치(10)의 기능 및 구성을 설명한다. 자연 언어 처리 장치(10)는 자연 언어 처리를 실행하는 컴퓨터이며, 유선 혹은 무선의 네트워크를 통해 3대의 형태소 해석기와 접속되어 있다. 또한, 형태소 해석기의 대수는, 복수이면 몇 대라도 좋다.
우선, 형태소 해석기에 대해 설명한다. 제1 형태소 해석기(A1), 제2 형태소 해석기(A2) 및 제3 형태소 해석기(A3)는, 하나 이상의 글에 대해 형태소 해석을 실행하는 컴퓨터이다. 형태소 해석의 대상은, 하나의 글이어도 되고, 하나 이상의 글을 포함하는 하나의 문장이어도 되고, 복수의 문장이어도 된다.
형태소라 함은, 언어에 있어서 의미를 갖는 최소의 단위이다. 형태소 해석이라 함은, 사전을 이용하여 글을 형태소로 분할하고, 그 문법적 속성을 동정하는 처리이다. 기존의 주요 형태소 해석기에서는 형태소와 품사 정보가 수록된 사전을 구비하고 있다. 이 사전에 포함되지 않는 낱말에 대해서는, 형태소 해석기는 자종(字種)(일본어이면 한자, 히라가나, 가타카나, 숫자, 영자 등)에 의한 추정을 행하지만, 모든 형태소를 사전 없이 정확하게 동정하는 것은 곤란하다. 이와 같은, 형태소 해석을 위한 사전에 실려 있지 않은 낱말을, 본 명세서에서는 미지어라고 부른다.
미지어를 사전에 추가하여 형태소 해석기의 정밀도를 높이는 것이 중요하지만, 미지어를 발견하는 방법은 충분히 개발되어 있다고 말할 수는 없다. 근본적으로, 미지어라고 하는 것은 끊임없이 새롭게 나타나는 것이며, 형태소 해석기의 미지어 처리 연구에서는, 미지어를 발견하는 방법이 매우 중요하다.
본 실시 형태의 기본적인 아이디어는, 「형태소 해석의 대상으로 되는 글이 미지어를 포함할 때에는, 상이한 복수의 형태소 해석기가 각각, 미지어의 주변에 있어서 상이한 해석 결과를 나타낸다」라고 하는 가정에 기초하고 있다. 그러나, 각 형태소 해석기의 출력이 상이하면 반드시 미지어가 존재한다고 하는 것은 아니고, 단순히 각 형태소 해석기에서 정의되어 있는 단어 정의나 품사 정의의 차이에 불과한 경우가 있다.
본 실시 형태에서는, 상이한 복수의 형태소 해석기에 의해 얻어진 해석 결과를 비교함으로써 얻어진, 품사의 상이 패턴의 출현 빈도에 주목한다. 이것은, 이하와 같은 배경에 기초하고 있다.
ㆍ단어의 표기를 그대로 사용하여 상이 부분을 보는 것은, 거의 모든 해석 데이터를 보는 것과 동등하게 효율적이지는 않는다.
ㆍ미지어가 있었던 경우에는, 상이한 종류의 형태소 해석기에 있어서 각각 특수한 품사 패턴이 생기는 것으로 생각된다.
ㆍ형태소 해석기에서는, 출현 빈도가 높은 낱말은 사전에 등록되어 있을 것이며, 미지어는 저빈도의 패턴에 포함되는 경우가 많다고 생각되므로, 빈도를 기준으로 생각하는 것은 이치에 합당하다.
여기서, 상이한 복수의 형태소 해석기(복수 종류의 형태소 해석기)라 함은, 유지하고 있는 사전의 내용 및 단어간의 접속 룰의 쌍방 또는 어느 한쪽이 서로 상이한 형태소 해석기인 것이다. 사전의 내용이 상이한 예로서는, 수록되어 있는 단어의 개수나, 수록되어 있는 품사의 체계가 형태소 해석기마다 상이한 경우를 들 수 있다. 단어간의 접속 룰이 상이한 예로서는, 단어간의 접속에 대해 설정되는 스코어나, 그 스코어의 적용의 룰(예를 들면, 코스트 최소법, 형태소 수 최소법, 확률 모델 등)이 형태소 해석기마다 상이한 경우를 들 수 있다.
본 실시 형태에서는, 대량의 문장을 제1?제3 형태소 해석기(A1, A2, A3)의 각각이 해석한다. 계속해서, 자연 언어 처리 장치(10)가 그 해석 결과를 이용하여 대량의 품사 상이 패턴을 추출하고, 각 품사 상이 패턴의 출현 횟수(출현 빈도)를 카운트한다. 그리고, 자연 언어 처리 장치(10)는 그 출현 횟수에 기초하여, 미지어의 후보를 포함하는 문자열을 특정한다.
이 처리를 행하기 위해, 자연 언어 처리 장치(10)는 기능적 구성 요소로서 결과 취득부(결과 취득 수단)(11), 패턴 취득부(패턴 취득 수단)(12), 기억부(기억 수단)(13), 후보 특정부(후보 특정 수단)(14) 및 결과 출력부(15)를 구비하고 있다.
이 자연 언어 처리 장치(10)는, 오퍼레이팅 시스템이나 애플리케이션ㆍ프로그램 등을 실행하는 CPU와, ROM 및 RAM으로 구성되는 주기억부와, 하드디스크 등으로 구성되는 보조 기억부와, 네트워크 카드 등으로 구성되는 통신 제어부와, 키보드나 마우스 등의 입력부와, 모니터 등의 출력부로 구성된다. 자연 언어 처리 장치(10)의 각 기능은, CPU나 주기억부 상에 소정의 소프트웨어를 읽어들이고, CPU의 제어 하에서 통신 제어부나 입력부, 출력부 등을 동작시키고, 주기억부나 보조 기억부에 있어서의 데이터의 판독 및 기입을 행함으로써 실현된다. 처리에 필요한 데이터나 데이터베이스는 주기억부나 보조 기억부 내에 저장된다.
결과 취득부(11)는, 공통의 하나 이상의 글(이하에서는 「텍스트」라고도 함)을 제1?제3 형태소 해석기(A1, A2, A3)의 각각에 해석시킴으로써 얻어진 해석 결과를 취득하는 수단이다. 해석 결과는, 텍스트에 포함되는 하나 이상의 형태소와 각 형태소의 품사를 나타내는 데이터이다. 결과 취득부(11)는, 각 형태소 해석기로부터 해석 결과를 수신해도 되고, 각 형태소 해석기로부터 해석 결과를 읽어내도 된다. 결과 취득부(11)는, 취득한 복수의 해석 결과(3대의 형태소 해석기로부터 얻어진 결과)를 패턴 취득부(12)에 출력한다.
패턴 취득부(12)는, 복수의 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 수단이다.
패턴 취득부(12)는, 입력된 복수의 해석 결과의 각각에 대해, 형태소의 단락 위치를 문두로부터 순서대로 검출하고, 모든 해석 결과에서 공통되는 단락 위치(공통 단락 위치)를 특정한다. 계속해서, 패턴 취득부(12)는 공통 단락 위치에 의해 구획되는 각 문자열에 대응하는 하나 이상의 품사를 각 해석 결과로부터 추출하고, 추출된 모든 품사로 이루어지는 집합을 품사 상이 패턴으로서 취득한다.
이와 같은 패턴 취득부(12)의 처리예를 도 2를 이용하여 설명한다. 도 2는, 「私はうっとろりんとした。」(watashi-ha-uttororin-to-shita)라고 하는 일본어의 하나의 글에 대한 제1?제3 형태소 해석기(A1, A2, A3)(도 2에서는, analyzer_1, analyzer_2, analyzer_3으로 표시되어 있음)의 해석 결과이다. 또한, 상기한 일본어 문장은, 영어로는 「I was fascinated」라고 번역할 수 있다. 「うっとろりん」(uttororin)이라 하는 어구는, 일본어의 「うっとり」(uttori)(영어의「fasc inated」)에 상당하는 미지어이다. 도 2에서는, 분해된 각 낱말에 대해, 「명사_대명사」나 「조사_계조사」 등의 품사가 대응지어져 있다. 또한, 도 2의 예에서는, 품사가 「대명사」 등과 같이 1단계로 정의되거나, 「조사_계조사」등과 같이 2단계로 정의되어 있지만, 품사 계층은 각 형태소 해석기에서 임의로 정의되어도 된다.
상기한 일본어 문장은, 「私/は/うっとろりん/と/した」(watashi/ha/uttororin/to/shita)라는 식으로 해석(분해)되는 것이 바람직하다. 그러나, 어구 「うっとろりん」(uttororin)이 모든 형태소 해석기(A1, A2, A3)에 있어서 미지어이므로, 도 2에 나타낸 바와 같이, 어구 「うっとろりん」(uttororin) 및 그 주변의 어구에 대한 해석 결과가 각 형태소 해석기에서 상이하다.
도 2에 있어서의 「===chunked===」 라고 하는 선은 공통 단락 위치이다. 따라서, 이 경우에 패턴 취득부(12)는, 공통 단락 위치에 의해 구획된, 「私」(watashi), 「はうっとろりんと」(hauttororinto) 및 「した」(shita)라고 하는 3개의 문자열을 취득한다. 이 중, 문자열 「はうっとろりんと」(hauttororinto)에 관해, 제1 형태소 해석기(A1)는 「は/うっ/とろりん/と」(ha/ut/tororin/to)라고 해석하고, 제2 형태소 해석기(A2)는 「はう/っと/ろ/んと」(hau/tto/ro/rinto)라고 해석하고, 제3 형태소 해석기(A3)는 「は/うっ/とろり/ん/と」(ha/ut/torori/n/to)라고 해석하고 있다. 또한, 문자열 「私」(watashi) 및 「した」(shita)에 대해서도, 형태소의 구획 방법이나 품사의 설정이 형태소 해석기간에서 상이하다. 이와 같이, 글에 미지어가 포함되어 있으면, 과분할이나 단편화 등의 해석 오류가 발생하기 쉬워진다. 또한, 품사의 동정도 올바르게 행해지지 않을 가능성이 높다.
계속해서, 패턴 취득부(12)는, 복수의 형태소 해석기간에서 품사의 동정 결과가 상이한 부분을 품사 상이 패턴으로서 취득한다. 구체적으로는, 패턴 취득부(12)는 문자열 「私」(watashi)에 대해 해석된 품사 「명사_대명사」「명사_보통 명사」「대명사」의 집합을, 품사 상이 패턴 「명사_대명사|명사_보통 명사|대명사」로서 취득한다. 마찬가지로, 패턴 취득부(12)는 문자열 「はうっとろりんと」(hauttororinto)에 대응하는 품사 상이 패턴 「조사_계조사, 동사_자립, 명사_고유 명사, 조사_격조사|동사, 조사_격조사, 명사_보통 명사, 형용사|조사_계조사, 감동사_필러, 부사, 감동사_필러, 조사_격조사」를 취득한다. 또한, 패턴 취득부(12)는 문자열 「した」(shita)에 대응하는 품사 상이 패턴 「동사_자립, 조동사|접미사_동사성 접미사|동사_비자립 가능, 조동사」를 취득한다. 여기서, 기호 「|」은 형태소 해석기간의 단락을 나타내고 있다.
이와 같이 품사 상이 패턴을 취득하면, 패턴 취득부(12)는 그 패턴의 이제까지의 출현 횟수를 카운트하고, 품사 상이 패턴 및 그 출현 횟수를 나타내는 빈도 데이터를 기억부(13)에 저장한다. 혹은, 패턴 취득부(12)는 취득한 품사 상이 패턴에 대응하는 출현 횟수를 1만큼 증분함으로써, 기억부(13) 내의 빈도 데이터를 갱신한다. 또한, 패턴 취득부(12)는, 품사 상이 패턴 및 그 패턴에 대응하는 문자열을 나타내는 문자열 데이터도 기억부(13)에 저장한다. 예를 들면, 패턴 취득부(12)는 문자열 「はうっとろりんと」(hauttororinto)와 품사 상이 패턴 「조사_계조사, 동사_자립, 명사_고유 명사, 조사_격조사|동사, 조사_격조사, 명사_보통 명사, 형용사|조사_계조사, 감동사_필러, 부사, 감동사_필러, 조사_격조사」가 서로 관련지어진 문자열 데이터를 기억부(13)에 저장한다.
기억부(13)는, 상기 빈도 데이터 및 문자열 데이터를 기억하는 수단이다. 즉, 기억부(13)는, 품사 상이 패턴을 그 출현 횟수와 함께 기억하고, 또한 품사 상이 패턴에 대응하는 문자열도 기억한다.
후보 특정부(14)는, 출현 횟수가 소정의 임계값 이하인 품사 상이 패턴을 기억부(13)로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 수단이다.
이용하는 임계값은 임의로 정해도 되지만, 임계값 결정의 하나의 지침을 여기서 설명한다. 일례로서, 어떤 특정한 웹 사이트로부터 1만건의 기사를 취득하고, 이들 기사를 구성하는 약 4만 5천 글(1문당 평균 문자수는 약 30.9 문자)을 4대의 형태소 해석기에서 처리하여 빈도 데이터를 취득하였다. 그리고, 이들 빈도 데이터에 기초하여 품사 상이 패턴의 종류 수를 출현 횟수마다 집계한바, 도 3에 나타낸 바와 같은 결과가 얻어졌다. 도 3의 예에서, 품사 상이 패턴의 총 수는 5829개이었다.
이들 품사 상이 패턴으로부터 출현 빈도마다 20개의 패턴을 랜덤하게 추출하고, 미지어의 유무를 조사한바, 도 4에 나타낸 바와 같은 결과가 얻어졌다. 도 4의 결과로부터, 출현 횟수가 낮은(예를 들면 1, 2 등) 품사 상이 패턴에는 많은 미지어가 포함되어 있는 반면, 출현 횟수가 20보다 높은 품사 상이 패턴에 미지어가 포함되는 확률은 매우 낮은 것을 알 수 있다. 이것으로부터, 출현 빈도가 낮은 품사 상이 패턴에 대응하는 문자열을 조사하면 효율적으로 미지어를 발견할 수 있다고 말할 수 있고, 따라서 임계값을 20으로 설정하는 것이 생각된다. 무엇보다도, 도 4의 결과에 기초하여 다른 값(예를 들면 2, 3, 10 등)을 임계값으로 해도 된다.
도 3, 4의 예에 따라서 임계값이 20으로 설정되어 있는 경우에는, 후보 특정부(14)는 기억부(13)를 참조하여, 출현 횟수가 20 이하인 5200개의 품사 상이 패턴에 대응하는 문자열을 추출한다. 이에 의해, 미지어의 후보를 포함하는 문자열(미지어를 포함할 가능성이 있는 문자열)이 특정된다. 후보 특정부(14)는, 추출(특정)한 문자열을 결과 출력부(15)에 출력한다.
결과 출력부(15)는, 미지어의 후보를 포함하는 문자열을 소정의 방법으로 출력하는 수단이다. 예를 들면, 결과 출력부(15)는 그 문자열을 모니터에 표시하거나, 데이터 베이스 등의 기록 매체에 저장해도 된다. 또한, 결과 출력부(15)는 그 문자열을 프린터에 인쇄하거나, 네트워크 경유로 다른 장치로 송신해도 된다.
유저는, 이와 같이 하여 좁혀진 문자열(조사 대상 문자열)을 분석하여 미지어를 얻을 수 있다. 하나의 방법으로서, 유저는 조사 대상 문자열을, 단순히 미지어가 포함되는지의 여부로 분류하는 것은 아니고, 우선 이하의 6가지로 분류한다.
(기준 1) 품사의 동정만 잘못되어 있는 것
(기준 2) 형태소의 과분할이라고 판단되는 것
(기준 3) 미지어가 포함되어 있다고 판단할 수 있는 것
(기준 4) 미지어가 포함되어 있지 않다고 판단할 수 있는 것
(기준 5) 출력된 차이 검출 부분의 주변을 포함하여 미지어라고 판단되는 것
(기준 6) 표기 오류ㆍ문 단락 오류 등의, 입력에 의존한 결과인 것
기준 1은, 단어 분할의 양태가 각 형태소 해석기에서 공통되어 있지만, 품사의 동정에 오류가 확인되는 경우이다. 기준 2는, 복수의 낱말로 구성되는 복합어를 구성 단위로까지 분할하고 있으므로 단어 분할과 품사 동정이 일견 바른 것 같이 보이지만, 복합어로서의 의미를 잃었다고 판단할 수 있는 것이다. 기준 3은, 기준 1, 2 이외의 케이스로, 사전으로부터 전혀 상이한 항목을 형태소로서 채용하고 있으므로, 해석 결과가 의미의 최소 단위로서 어울리지 않다고 판단할 수 있는 경우이다. 기준 4는, 어느 단어 분할ㆍ품사 동정에 대해서도 오류가 없고, 해석 결과가 의미의 최소 단위로서 어울린다고 판단할 수 있는 경우이다. 기준 5는, 원래 하나의 미지어로서 취급해야 하는 문자열의 일부만이 품사 상이 패턴에 대응하는 개소로서 추출되었지만, 그 주변의 문자열도 고려할 필요가 있는 경우이다. 예를 들면, 기대하는 미지어 「うっとろりん」(uttororin) 중 「うっと」(utto)에 대응하는 부분만이 품사 상이 패턴에 대응하는 문자열로서 추출되는 경우이다. 기준 6은, 미지어로서 추출하는 의의가 약해, 분석 대상 외라고 하는 경우이다.
유저는, 상기 6기준 중 기준 3, 5에 상당하는 문자열을, 미지어를 포함하는 것으로서 평가하면 된다. 또한, 결과 출력부(15)에 의해 출력된 조사 대상 문자열은, 또한 컴퓨터로 처리되어도 되고, 수작업에 의해 처리되어도 된다. 상기 6기준에 기초하는 평가도 임의의 수단으로 행해도 된다.
다음으로, 도 5를 이용하여, 도 1에 도시하는 자연 언어 처리 장치의 동작(자연 언어 처리 방법)을 설명한다. 우선, 결과 취득부(11)가 각 형태소 해석기(A1, A2, A3)로부터 해석 결과를 취득한다(스텝 S11, 결과 취득 스텝). 계속해서, 패턴 취득부(12)가 그들 해석 결과에 기초하여 품사 상이 패턴을 취득하고(스텝 S12, 패턴 취득 스텝), 그 패턴의 출현 횟수를 나타내는 빈도 데이터와, 그 패턴에 대응하는 문자열을 나타내는 문자열 데이터를 기억부(13)에 저장한다(스텝 S13, 기억 스텝).
일정 수 이상의 빈도 데이터 및 문자열 데이터가 얻어지면, 후보 특정부(14)가, 출현 횟수가 소정의 임계값 이하의 품사 상이 패턴을 기억부(13)로부터 추출한다(스텝 S14, 후보 특정 스텝). 그리고, 후보 특정부(14)는 추출된 품사 상이 패턴에 대응하는 문자열을, 미지어의 후보를 포함하는 문자열로서 추출한다(스텝 S15, 후보 특정 스텝). 마지막으로, 결과 출력부(15)가 추출된 문자열을 출력한다(스텝 S16).
상술한 자연 언어 처리 장치(10)의 일련의 처리를 컴퓨터에 실행시키기 위한 프로그램(자연 언어 처리 프로그램)은, 예를 들면 CD-ROM이나 DVD, ROM, 반도체 메모리 등의 유형의 기록 매체에 고정적으로 기록된 후에 제공된다. 또한, 그 프로그램은, 반송파에 중첩된 데이터 신호로서 통신 네트워크를 통해 제공되어도 된다.
자연 언어 처리 프로그램은, 상술한 자연 언어 처리 장치(10)의 기능에 대응하는 모듈을 구비하고 있고, 그들 모듈이 컴퓨터에 읽어들여져 실행됨으로써, 상술한 기능이 실현된다. 또한, 자연 언어 처리 프로그램의 각 모듈은, 한대의 컴퓨터가 아니라, 복수의 컴퓨터 중 어느 하나에 인스톨되어도 된다. 그 경우, 그 복수의 컴퓨터에 의한 컴퓨터 시스템에 의해, 상술한 일련의 처리가 행해진다.
이상 설명한 바와 같이, 본 실시 형태에 따르면, 공통의 하나 이상의 글에 대한 복수 종류의 형태소 해석기(A1, A2, A3)의 해석 결과에 기초하여, 공통의 위치에 의해 구획된 문자열의 품사 상이 패턴이 얻어진다. 이 품사 상이 패턴은, 그 출현 횟수와 함께 기억된다. 그리고, 출현 횟수가 소정의 임계값 이하인 품사 상이 패턴에 대응하는 문자열이, 미지어의 후보를 포함하는 것으로서 특정된다. 이와 같이, 미지어의 존재 확률이 높다고 추정되는 문자열을 자동적으로 추출함으로써, 미지어의 탐색 범위를 한정하여, 그 만큼, 효율적으로 미지어를 발견하는 것이 가능하게 된다. 본 실시 형태의 형태소 해석은, 일본어와 같이 띄어쓰기를 행하지 않는 언어로 쓰여진 글을 해석할 때에, 그 해석의 최초의 단계에 있어서, 단어를 인식하는 데도 이용할 수 있다. 따라서, 본 발명은, 일본어로 한정되지 않고, 띄어쓰기를 행하지 않는 다른 언어(예를 들면 중국어나 한국어 등)의 처리에도 적용 가능하다.
본 실시 형태에 있어서, 사전의 내용이 서로 상이한 복수의 형태소 해석기(A1, A2, A3)를 이용하면, 미지어를 실제로 포함하고 있는 문자열을 보다 효율적으로 추출하는 것이 가능하게 되므로, 그 만큼, 효율적으로 미지어를 발견할 수 있다. 이와 같은 효과는, 단어간의 접속 룰이 서로 상이한 복수의 형태소 해석기(A1, A2, A3)를 이용한 경우에도 마찬가지로 얻어진다.
이상, 본 발명을 그 실시 형태에 기초하여 상세하게 설명하였다. 그러나, 본 발명은 상기 실시 형태로 한정되는 것은 아니다. 본 발명은, 그 요지를 일탈하지 않는 범위에서 다양한 변형이 가능하다.
A1, A2, A3 : 형태소 해석기
10 : 자연 언어 처리 장치
11 : 결과 취득부(결과 취득 수단)
12 : 패턴 취득부(패턴 취득 수단)
13 : 기억부(기억 수단)
14 : 후보 특정부(후보 특정 수단)
15 : 결과 출력부

Claims (10)

  1. 공통의 하나 이상의 글을 복수 종류의 형태소 해석기의 각각에 해석시킴으로써 얻어진, 그 하나 이상의 글에 포함되는 각 형태소의 품사를 나타내는 해석 결과를 취득하는 결과 취득 수단과,
    상기 결과 취득 수단에 의해 취득된 복수의 상기 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 공통의 단락 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 상기 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 패턴 취득 수단과,
    상기 패턴 취득 수단에 의해 취득된 품사 상이 패턴을, 그 품사 상이 패턴의 출현 횟수와 함께 기억하는 기억 수단과,
    상기 출현 횟수가 소정의 임계값 이하인 상기 품사 상이 패턴을 상기 기억 수단으로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 상기 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 후보 특정 수단을 구비하는 자연 언어 처리 장치.
  2. 제1항에 있어서, 상기 복수 종류의 형태소 해석기의 사이에서, 각 형태소 해석기에 저장되어 있는 사전의 내용이 상이한 자연 언어 처리 장치.
  3. 제2항에 있어서, 상기 복수 종류의 형태소 해석기의 사이에서, 상기 사전에 수록되어 있는 단어의 개수가 상이한 자연 언어 처리 장치.
  4. 제2항 또는 제3항에 있어서, 상기 복수 종류의 형태소 해석기의 사이에서, 상기 사전에 수록되어 있는 상기 품사의 체계가 상이한 자연 언어 처리 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 복수 종류의 형태소 해석기의 사이에서, 각 형태소 해석기에 저장되어 있는 단어간의 접속 룰이 상이한 자연 언어 처리 장치.
  6. 제5항에 있어서, 상기 복수 종류의 형태소 해석기의 사이에서, 상기 단어간의 접속에 대해 설정되는 스코어가 상이한 자연 언어 처리 장치.
  7. 제5항 또는 제6항에 있어서, 상기 복수 종류의 형태소 해석기의 사이에서, 상기 단어간의 접속에 관한 스코어 적용의 룰이 상이한 자연 언어 처리 장치.
  8. 자연 언어 처리 장치에 의해 실행되는 자연 언어 처리 방법으로서,
    공통의 하나 이상의 글을 복수 종류의 형태소 해석기의 각각에 해석시킴으로써 얻어진, 그 하나 이상의 글에 포함되는 각 형태소의 품사를 나타내는 해석 결과를 취득하는 결과 취득 스텝과,
    상기 결과 취득 스텝에서 취득된 복수의 상기 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 공통의 단락 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 상기 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 패턴 취득 스텝과,
    상기 패턴 취득 스텝에서 취득된 품사 상이 패턴을, 그 품사 상이 패턴의 출현 횟수와 함께 기억 수단에 기억하는 기억 스텝과,
    상기 출현 횟수가 소정의 임계값 이하인 상기 품사 상이 패턴을 상기 기억 수단으로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 상기 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 후보 특정 스텝을 포함하는 것을 특징으로 하는 자연 언어 처리 방법.
  9. 컴퓨터를,
    공통의 하나 이상의 글을 복수 종류의 형태소 해석기의 각각에 해석시킴으로써 얻어진, 그 하나 이상의 글에 포함되는 각 형태소의 품사를 나타내는 해석 결과를 취득하는 결과 취득 수단과,
    상기 결과 취득 수단에 의해 취득된 복수의 상기 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 공통의 단락 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 상기 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 패턴 취득 수단과,
    상기 패턴 취득 수단에 의해 취득된 품사 상이 패턴을, 그 품사 상이 패턴의 출현 횟수와 함께 기억하는 기억 수단과,
    상기 출현 횟수가 소정의 임계값 이하인 상기 품사 상이 패턴을 상기 기억 수단으로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 상기 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 후보 특정 수단으로서 기능시키는 자연 언어 처리 프로그램.
  10. 컴퓨터를,
    공통의 하나 이상의 글을 복수 종류의 형태소 해석기의 각각에 해석시킴으로써 얻어진, 그 하나 이상의 글에 포함되는 각 형태소의 품사를 나타내는 해석 결과를 취득하는 결과 취득 수단과,
    상기 결과 취득 수단에 의해 취득된 복수의 상기 해석 결과에 있어서의 공통의 단락 위치를 검출하고, 그 공통의 단락 위치에 의해 구획되어 있는 문자열에 대응하는 하나 이상의 상기 품사를 각 해석 결과로부터 추출하고, 추출된 그 하나 이상의 품사의 집합을 품사 상이 패턴으로서 취득하는 패턴 취득 수단과,
    상기 패턴 취득 수단에 의해 취득된 품사 상이 패턴을, 그 품사 상이 패턴의 출현 횟수와 함께 기억하는 기억 수단과,
    상기 출현 횟수가 소정의 임계값 이하인 상기 품사 상이 패턴을 상기 기억 수단으로부터 추출하고, 추출된 품사 상이 패턴에 대응하는 상기 문자열을, 미지어의 후보를 포함하는 문자열로서 특정하는 후보 특정 수단으로서 기능시키는 자연 언어 처리 프로그램을 기억한 컴퓨터 판독 가능한 기록 매체.
KR1020127022742A 2010-12-17 2011-11-28 자연 언어 처리 장치, 방법 및 프로그램 KR101364321B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201061424283P 2010-12-17 2010-12-17
US61/424,283 2010-12-17
PCT/JP2011/077418 WO2012081386A1 (ja) 2010-12-17 2011-11-28 自然言語処理装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
KR20120123122A true KR20120123122A (ko) 2012-11-07
KR101364321B1 KR101364321B1 (ko) 2014-02-18

Family

ID=46244497

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127022742A KR101364321B1 (ko) 2010-12-17 2011-11-28 자연 언어 처리 장치, 방법 및 프로그램

Country Status (6)

Country Link
US (1) US8880391B2 (ko)
EP (1) EP2653981A4 (ko)
JP (1) JP5314195B2 (ko)
KR (1) KR101364321B1 (ko)
CN (1) CN103038762B (ko)
WO (1) WO2012081386A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380240B2 (en) 2015-03-16 2019-08-13 Fujitsu Limited Apparatus and method for data compression extension

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10007935B2 (en) 2014-02-28 2018-06-26 Rakuten, Inc. Information processing system, information processing method, and information processing program
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
JP2017004127A (ja) 2015-06-05 2017-01-05 富士通株式会社 テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
JP6675474B2 (ja) * 2016-03-23 2020-04-01 株式会社野村総合研究所 文章解析システム及びプログラム
US11507743B2 (en) * 2017-02-28 2022-11-22 Nice Ltd. System and method for automatic key phrase extraction rule generation
CN108388547A (zh) * 2018-02-24 2018-08-10 平安科技(深圳)有限公司 字符串解析方法、装置、设备及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5521816A (en) * 1994-06-01 1996-05-28 Mitsubishi Electric Research Laboratories, Inc. Word inflection correction system
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
JPH09223143A (ja) * 1996-02-16 1997-08-26 Fujitsu Ltd 文書情報処理装置
JP3777456B2 (ja) * 1996-04-23 2006-05-24 日本電信電話株式会社 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
JP2002297589A (ja) 2001-03-30 2002-10-11 Ricoh Co Ltd 未知語収集方法
CN101539907B (zh) * 2008-03-19 2013-01-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
JP5286125B2 (ja) * 2009-03-24 2013-09-11 Kddi株式会社 単語境界決定装置および形態素解析装置
CN101706777B (zh) * 2009-11-10 2011-07-06 中国科学院计算技术研究所 机器翻译中抽取调序模板的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380240B2 (en) 2015-03-16 2019-08-13 Fujitsu Limited Apparatus and method for data compression extension

Also Published As

Publication number Publication date
CN103038762A (zh) 2013-04-10
JPWO2012081386A1 (ja) 2014-05-22
EP2653981A4 (en) 2018-01-17
KR101364321B1 (ko) 2014-02-18
EP2653981A1 (en) 2013-10-23
CN103038762B (zh) 2015-05-20
US8880391B2 (en) 2014-11-04
US20130262085A1 (en) 2013-10-03
JP5314195B2 (ja) 2013-10-16
WO2012081386A1 (ja) 2012-06-21

Similar Documents

Publication Publication Date Title
KR101364321B1 (ko) 자연 언어 처리 장치, 방법 및 프로그램
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
US9043339B2 (en) Extracting terms from document data including text segment
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
Elfardy et al. Token level identification of linguistic code switching
KR20100031800A (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Adouane et al. Identification of languages in Algerian Arabic multilingual documents
Fetahu et al. Multiconer v2: a large multilingual dataset for fine-grained and noisy named entity recognition
CN110147546B (zh) 一种英语口语的语法校正方法及装置
CN104008123B (zh) 用于中文姓名匹配的方法和系统
Barrett et al. Cross-lingual transfer of correlations between parts of speech and gaze features
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
López et al. Experiments on sentence boundary detection in user-generated web content
Wu et al. Integrating dictionary and web N-grams for chinese spell checking
Boulaknadel et al. Amazighe Named Entity Recognition using a A rule based approach
CN103049434A (zh) 一种变形词证认系统及证认方法
KR100652901B1 (ko) 나열 및 병렬형 구문 분석 장치 및 방법
CN106250354B (zh) 处理文书的信息处理装置、信息处理方法以及程序
US8977538B2 (en) Constructing and analyzing a word graph
Sharma et al. Improving existing punjabi grammar checker
KR20080049764A (ko) 주석화된 코퍼스의 분할화 오류를 탐지하는 방법
Benko Language Code Switching in Web Corpora.
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
Nawab et al. External plagiarism detection using information retrieval and sequence alignment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170203

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180202

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190201

Year of fee payment: 6