KR20130137048A - 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 - Google Patents

사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 Download PDF

Info

Publication number
KR20130137048A
KR20130137048A KR1020137030410A KR20137030410A KR20130137048A KR 20130137048 A KR20130137048 A KR 20130137048A KR 1020137030410 A KR1020137030410 A KR 1020137030410A KR 20137030410 A KR20137030410 A KR 20137030410A KR 20130137048 A KR20130137048 A KR 20130137048A
Authority
KR
South Korea
Prior art keywords
word
dictionary
text
unit
boundary
Prior art date
Application number
KR1020137030410A
Other languages
English (en)
Other versions
KR101379128B1 (ko
Inventor
마사또 하기와라
Original Assignee
라쿠텐 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 라쿠텐 인코포레이티드 filed Critical 라쿠텐 인코포레이티드
Publication of KR20130137048A publication Critical patent/KR20130137048A/ko
Application granted granted Critical
Publication of KR101379128B1 publication Critical patent/KR101379128B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

사전 생성 장치는, 미리 준비된 코파스 및 단어군을 사용하여 단어 분할 모델을 생성하는 모델 생성부와, 수집된 텍스트의 집합에 대하여, 단어 분할 모델이 짜 넣어진(embedded) 단어 분할을 실행하여, 각 텍스트에 경계 정보를 부여하는 해석부와, 해석부에 의해 경계 정보가 부여된 텍스트로부터 사전에 등록하는 단어를 선택하는 선택부와, 선택부에 의해 선택된 단어를 사전에 등록하는 등록부를 구비한다. 코파스에 포함되는 각 텍스트에는, 단어의 경계를 나타내는 경계 정보가 부여되어 있다.

Description

사전 생성 장치, 방법 및 프로그램{DICTIONARY GENERATION DEVICE, METHOD, AND PROGRAM}
본 발명의 일 형태는, 단어 사전을 생성하기 위한 장치, 방법, 프로그램 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
종래부터, 단어 사전을 사용하여 문장을 분할함으로써 복수의 단어를 얻는 기술(단어 분할)이 알려져 있다. 이것과 관련되어 하기 특허문헌 1에는, 입력 텍스트의 부분 문자열과 대조하는 단어를 단어 사전으로부터 검색하여 단어 후보로서 생성하고, 그 단어 사전과 대조하지 않는 입력 텍스트의 부분 문자열로부터 미지어일 가능성이 있는 것을 미지어 후보로서 선택하고, 미지어 모델을 사용하여 미지어 후보의 품사별 단어 출현 확률을 추정하고, 동적 계획법을 이용하여 동시 확률이 최대로 되는 단어열을 구하는 기술이 기재되어 있다.
일본 특허 출원 공개 제2001-051996호 공보
텍스트를 올바르게 분할하기 위해서는, 어휘적인 지식을 충실하게 하기 위해 사전 내에 대량의 단어를 준비해 두는 것이 바람직하다. 그러나 대규모의 사전을 수작업에 의해 구축하는 것은 용이하지는 않다. 따라서, 대규모의 단어 사전을 용이하게 구축하는 것이 요청되고 있다.
본 발명의 일 형태에 따른 사전 생성 장치는, 미리 준비된 코파스 및 단어군을 사용하여 단어 분할 모델을 생성하는 모델 생성부로서, 코파스에 포함되는 각 텍스트에는, 단어의 경계를 나타내는 경계 정보가 부여되어 있는, 상기 모델 생성부와, 수집된 텍스트의 집합에 대하여, 단어 분할 모델이 짜 넣어진 단어 분할을 실행하여, 각 텍스트에 경계 정보를 부여하는 해석부와, 해석부에 의해 경계 정보가 부여된 텍스트로부터 사전에 등록하는 단어를 선택하는 선택부와, 선택부에 의해 선택된 단어를 사전에 등록하는 등록부를 구비한다.
본 발명의 일 형태에 따른 사전 생성 방법은, 사전 생성 장치에 의해 실행되는 사전 생성 방법으로서, 미리 준비된 코파스 및 단어군을 사용하여 단어 분할 모델을 생성하는 모델 생성 스텝으로서, 코파스에 포함되는 각 텍스트에는, 단어의 경계를 나타내는 경계 정보가 부여되어 있는, 상기 모델 생성 스텝과, 수집된 텍스트의 집합에 대하여, 단어 분할 모델이 짜 넣어진 단어 분할을 실행하여, 각 텍스트에 경계 정보를 부여하는 해석 스텝과, 해석 스텝에 있어서 경계 정보가 부여된 텍스트로부터 사전에 등록하는 단어를 선택하는 선택 스텝과, 선택 스텝에 있어서 선택된 단어를 사전에 등록하는 등록 스텝을 포함한다.
본 발명의 일 형태에 따른 사전 생성 프로그램은, 미리 준비된 코파스 및 단어군을 사용하여 단어 분할 모델을 생성하는 모델 생성부로서, 코파스에 포함되는 각 텍스트에는, 단어의 경계를 나타내는 경계 정보가 부여되어 있는, 상기 모델 생성부와, 수집된 텍스트의 집합에 대하여, 단어 분할 모델이 짜 넣어진 단어 분할을 실행하여, 각 텍스트에 경계 정보를 부여하는 해석부와, 해석부에 의해 경계 정보가 부여된 텍스트로부터 사전에 등록하는 단어를 선택하는 선택부와, 선택부에 의해 선택된 단어를 사전에 등록하는 등록부를 컴퓨터에 실행시킨다.
본 발명의 일 형태에 따른 컴퓨터 판독 가능한 기록 매체는, 미리 준비된 코파스 및 단어군을 사용하여 단어 분할 모델을 생성하는 모델 생성부로서, 코파스에 포함되는 각 텍스트에는, 단어의 경계를 나타내는 경계 정보가 부여되어 있는, 상기 모델 생성부와, 수집된 텍스트의 집합에 대하여, 단어 분할 모델이 짜 넣어진 단어 분할을 실행하여, 각 텍스트에 경계 정보를 부여하는 해석부와, 해석부에 의해 경계 정보가 부여된 텍스트로부터 사전에 등록하는 단어를 선택하는 선택부와, 선택부에 의해 선택된 단어를 사전에 등록하는 등록부를 컴퓨터에 실행시키는 사전 생성 프로그램을 기억한다.
이러한 형태에 따르면, 경계 정보가 부여되어 있는 코파스와, 단어군을 사용하여 단어 분할 모델이 생성되고, 그 모델이 짜 넣어진 단어 분할이 텍스트 집합에 적용된다. 그리고 이 적용에 의해 경계 정보가 부여된 텍스트 집합으로부터 단어가 선택되어 사전에 등록된다. 이와 같이, 경계 정보가 부여된 코파스를 사용한 해석에 의해 텍스트 집합에도 경계 정보를 부여한 후에, 그 텍스트 집합으로부터 추출된 단어를 등록함으로써, 대규모의 단어 사전을 용이하게 구축할 수 있다.
다른 형태에 따른 사전 생성 장치에서는, 선택부가, 해석부에 의해 부여된 경계 정보로부터 산출되는 각 단어의 출현 빈도에 기초하여, 사전에 등록하는 단어를 선택해도 된다. 이와 같이 산출되는 출현 빈도를 고려함으로써 사전의 정밀도를 높일 수 있다.
또 다른 형태에 따른 사전 생성 장치에서는, 선택부가, 출현 빈도가 소정의 임계값 이상인 단어를 선택해도 된다. 일정한 횟수 이상 출현한 단어만을 사전에 등록함으로써, 사전의 정밀도를 높일 수 있다.
또 다른 형태에 따른 사전 생성 장치에서는, 선택부가, 출현 빈도가 임계값 이상인 단어를 등록 후보로서 추출하고, 출현 빈도가 높은 단어로부터 순서대로 상기 등록 후보로부터 소정수의 단어를 선택하고, 등록부가, 선택부에 의해 선택된 단어를 단어군이 기록되어 있는 사전에 추가해도 된다. 출현 빈도가 상대적으로 높은 단어만을 사전에 등록함으로써, 사전의 정밀도를 높일 수 있다. 또한, 미리 준비되어 있는 단어군의 사전에 단어를 추가함으로써, 사전의 구성을 간단하게 할 수 있다.
또 다른 형태에 따른 사전 생성 장치에서는, 선택부가, 출현 빈도가 임계값 이상인 단어를 등록 후보로서 추출하고, 출현 빈도가 높은 단어로부터 순서대로 상기 등록 후보로부터 소정수의 단어를 선택하고, 등록부가, 선택부에 의해 선택된 단어를, 단어군이 기록되어 있는 사전과는 다른 사전에 등록해도 된다. 출현 빈도가 상대적으로 높은 단어만을 사전에 등록함으로써, 사전의 정밀도를 높일 수 있다. 또한, 미리 준비되어 있는 단어군의 사전(기존 사전)과는 다른 사전에 단어를 추가함으로써, 기존 사전과는 다른 특성의 사전을 생성할 수 있다.
또 다른 형태에 따른 사전 생성 장치에서는, 등록부가, 선택부에 의해 선택된 단어를, 단어군이 기록되어 있는 사전과는 다른 사전에 등록해도 된다. 미리 준비되어 있는 단어군의 사전(기존 사전)과는 다른 사전에 단어를 추가함으로써, 기존 사전과는 다른 특성의 사전을 생성할 수 있다.
또 다른 형태에 따른 사전 생성 장치에서는, 선택부가, 출현 빈도가 임계값 이상인 단어를 등록 후보로서 추출하고, 출현 빈도의 높음에 따라 상기 등록 후보의 단어를 그룹화하고, 등록부가, 선택부에 의해 생성된 복수의 그룹을, 단어군이 기록되어 있는 사전과는 다른 복수의 사전에 개별적으로 등록해도 된다. 출현 빈도의 높음에 따라 단어를 그룹화하고, 생성된 각 그룹을 각각의 사전에 등록함으로써, 출현 빈도에 기인하여 특성이 서로 다른 복수의 사전을 생성할 수 있다.
또 다른 형태에 따른 사전 생성 장치에서는, 수집된 텍스트의 각각에는, 상기 텍스트의 분야를 나타내는 정보가 관련지어져 있고, 등록부가, 선택부에 의해 선택된 단어를, 상기 단어가 포함되어 있었던 텍스트의 분야에 기초하여, 분야마다 준비된 사전에 개별적으로 등록해도 된다. 분야마다 사전을 생성함으로써, 특성이 서로 다른 복수의 사전을 생성할 수 있다.
또 다른 형태에 따른 사전 생성 장치에서는, 경계 정보가, 문자간 위치에 경계가 존재하지 않는 것을 나타내는 제1 정보와, 문자간 위치에 경계가 존재하는 것을 나타내는 제2 정보와, 문자간 위치에 경계가 확률적으로 존재하는 것을 나타내는 제3 정보를 포함하고, 각 단어의 출현 빈도가 제1, 제2 및 제3 정보에 기초하여 산출되어도 된다. 단순히 경계가 존재하는지 하지 않는지의 2가지 중 선택하는 것이 아니라, 그 중간의 개념을 나타내는 제3 정보를 도입함으로써, 보다 적절하게 텍스트를 복수의 단어로 분할할 수 있다.
또 다른 형태에 따른 사전 생성 장치에서는, 해석부가, 제1 이치 분류기 및 제2 이치 분류기를 구비하고, 제1 이치 분류기가, 각 문자간 위치에 대해, 제1 정보를 할당할지 제1 정보 이외의 정보를 할당할지를 판정하고, 제2 이치 분류기가, 제1 이치 분류기에 의해 제1 정보 이외의 정보를 할당한다고 판정된 문자간 위치에 대해, 제2 정보를 할당할지 제3 정보를 할당할지를 판정해도 된다. 이치 분류기를 복수 사용하여 단계적으로 경계 정보를 확정함으로써, 고속이고 또한 효율적으로 텍스트에 경계 정보를 부여할 수 있다.
또 다른 형태에 따른 사전 생성 장치에서는, 수집된 텍스트의 집합이 복수의 그룹으로 분할되고, 해석부, 선택부 및 등록부가 복수의 그룹 중의 하나에 기초하는 처리를 실행한 후에, 모델 생성부가 코파스, 단어군 및 등록부에 의해 등록된 단어를 사용하여 단어 분할 모델을 생성하고, 계속해서, 해석부, 선택부 및 등록부가 복수의 그룹 중의 다른 하나에 기초하는 처리를 실행해도 된다.
본 발명의 일 측면에 따르면, 대규모의 단어 사전을 용이하게 구축할 수 있다.
도 1은 실시 형태에 따른 사전 생성 장치의 하드웨어 구성을 나타내는 도면이다.
도 2는 도 1에 나타내는 사전 생성 장치의 기능 구성을 나타내는 블록도이다.
도 3은 경계 정보(단어 경계 태그)의 설정을 설명하기 위한 도면이다.
도 4는 도 1에 나타내는 사전 생성 장치의 동작을 나타내는 흐름도이다.
도 5는 실시 형태에 따른 사전 생성 프로그램의 구성을 나타내는 도면이다.
이하, 첨부 도면을 참조하면서 본 발명의 실시 형태를 상세하게 설명한다. 또한, 도면의 설명에 있어서 동일 또는 동등한 요소에는 동일한 부호를 부여하고, 중복되는 설명을 생략한다.
우선, 도 1∼3을 사용하여, 실시 형태에 따른 사전 생성 장치(10)의 기능 구성을 설명한다. 사전 생성 장치(10)는, 수집된 대량의 텍스트를 포함하여 이루어지는 집합(이하에서는 「대규모 텍스트」라고도 함)을 해석함으로써 그 텍스트 집합으로부터 단어를 추출하고, 추출된 단어를 사전에 추가하는 컴퓨터이다.
도 1에 나타내는 바와 같이, 사전 생성 장치(10)는, 오퍼레이팅 시스템이나 애플리케이션·프로그램 등을 실행하는 CPU(101)와, ROM 및 RAM으로 구성되는 주 기억부(102)와, 하드 디스크 등으로 구성되는 보조 기억부(103)와, 네트워크 카드 등으로 구성되는 통신 제어부(104)와, 키보드나 마우스 등의 입력 장치(105)와, 디스플레이 등의 출력 장치(106)를 구비하고 있다.
후술하는 사전 생성 장치(10)의 각 기능적 구성 요소는, CPU(101)나 주 기억부(102) 상에 소정의 소프트웨어를 읽어들이게 하고, CPU(101)의 제어하에서 통신 제어부(104)나 입력 장치(105), 출력 장치(106) 등을 동작시키고, 주 기억부(102)나 보조 기억부(103)에 있어서의 데이터의 판독 및 기입을 행함으로써 실현된다. 처리에 필요한 데이터나 데이터 베이스는 주 기억부(102)나 보조 기억부(103) 내에 저장된다. 또한, 도 1에서는 사전 생성 장치(10)가 1대의 컴퓨터로 구성되어 있도록 나타내고 있지만, 사전 생성 장치(10)의 기능을 복수대의 컴퓨터에 분산시켜도 된다.
도 2에 나타내는 바와 같이, 사전 생성 장치(10)는 기능적 구성 요소로서 모델 생성부(11), 해석부(12), 선택부(13) 및 등록부(14)를 구비하고 있다. 사전 생성 장치(10)는, 단어 추출 처리를 실행할 때에, 미리 준비되어 있는 학습 코파스(20), 기존 사전(31) 및 대규모 텍스트(40)를 참조하고, 추출된 단어를 단어 사전(30)에 저장한다. 또한, 단어 사전(30)은 적어도 기존 사전(31)을 포함하고 있고, 1 이상의 추가 사전(32)을 더 포함하고 있어도 된다. 사전 생성 장치(10)에 대해 상세하게 설명하기 전에, 이들의 데이터에 대해 설명한다.
학습 코파스(20)는, 단어의 경계(문장을 단어로 분할하였을 때의 분할 위치)를 나타내는 경계 정보(어노테이션)가 부여된(관련지어진) 텍스트의 집합이며, 데이터 베이스로서 미리 준비되어 있다. 텍스트는 복수의 단어를 포함하여 이루어지는 문장이나 문자열이다. 본 실시 형태에서는, 가상 상점가의 웹 사이트 내에 축적되어 있는 상품의 타이틀 및 설명문으로부터 랜덤하게 추출한 소정수의 텍스트를 학습 코파스(20)의 재료로 한다.
추출한 각 텍스트에는, 평가자의 수작업에 의해 경계 정보가 부여된다. 경계 정보의 설정은, 점 추정에 의한 단어 분할과 3단계 단어 분할 코파스라고 하는 2개의 기술에 기초하여 실시된다.
[점 추정에 의한 단어 분할]
텍스트(문자열) x=x1x2…xn(x1, x2, …, xn은 문자)에는, 단어 경계 태그 b=b1b2…bn이 할당된다. 여기서, bi는 문자 xi와 xi +1과의 사이(문자간 위치)에 단어 경계가 존재하는지의 여부를 나타내는 태그이며, bi=1은 분할을, bi=0은 비분할을, 각각 의미한다. 여기서, 이 태그 bi로 나타내어지는 값은 분할의 강도라고도 할 수 있다.
도 3에, 「ボ―ルペンを買った。」(bo-rupen wo katta)라고 하는 일본어의 문장[영어로는 「(I) bought a ballpoint pen.」]에 있어서 「ん(n)」과 「を(wo)」와의 사이의 태그를 결정하는 예를 나타낸다. 단어 경계 태그의 값은, 그 주변에 존재하는 문자로부터 얻어지는 소성(feature)을 참조하여 결정된다. 예를 들어, 문자 소성, 문자종 소성 및 사전 소성이라고 하는 3종류의 소성을 사용하여 단어 경계 태그의 값이 설정된다.
문자 소성은, 경계 bi에 접하거나, 혹은 경계 bi를 내포하는 길이 n 이하의 모든 문자(n―gram)와, 그 위치 bi에 대한 상대 위치와의 조합으로 나타내어지는 소성이다. 예를 들어 도 3에 있어서 n=3으로 한 경우에는, 「ん(n)」과 「を(wo)」와의 사이의 경계 bi에 대하여, 「-1/ン(n)」 「1/を(wo)」 「-2/ペン(pen)」 「-1/ン을 (n wo)」 「1/を買(wo ka)」 「-3/ルペン(rupen)」 「-2/ペンを(pen wo)」 「-1/ンを買(n wo ka)」 「1/を買っ(wo kat)」이라고 하는 9개의 소성이 얻어진다.
문자종 소성은, 문자 대신에 문자종을 다룬다고 하는 점 이외는, 상기한 문자 소성과 마찬가지이다. 문자종으로서, 히라가나, 가타가나, 한자, 알파벳 대문자, 알파벳 소문자, 아라비아 숫자, 한숫자(숫자에만 해당되는 한자) 및 중점(·)의 8종류를 고려하였다. 또한, 사용하는 문자종 및 그 종류수는 전혀 한정되지 않는다.
사전 소성은, 경계의 주변에 위치하는 길이 j(1≤j≤k)의 단어가 사전에 존재하는지의 여부를 나타내는 소성이다. 사전 소성은, 경계 bi가 단어의 종점에 위치하고 있는 것인지(L), 그 시점에 위치하고 있는 것인지(R), 아니면 그 단어에 내포되어 있는 것인지(M)를 나타내는 플래그와, 그 단어의 길이 j와의 조합으로 나타내어진다. 만일 사전에 「ペン(pen)」 「を(wo)」라고 하는 단어가 등록되어 있으면, 도 3에 있어서의 경계 bi에 대하여 L2 및 R1이라고 하는 사전 소성이 작성된다. 또한, 후술하는 바와 같이 복수의 사전을 사용하는 경우에는, 사전 소성에는 사전의 식별자가 부여된다. 예를 들어, 식별자가 DIC1인 사전 A에 「ペン(pen)」이 등록되어 있고, 식별자가 DIC2인 사전 B에 「を(wo)」가 등록되어 있으면, 사전 소성은 DIC1―L2, DIC2―R1 등과 같이 표현된다.
또한, 본 실시 형태에서는, 문자 소성 및 문자종 소성에 있어서의 n―gram의 최대 길이 n을 3으로 하고, 사전 소성에 있어서의 단어의 최대 길이 k를 8로 하였지만, 이들의 값은 임의로 정해도 된다.
[3단계 단어 분할 코파스]
일본어에는, 단어 경계를 일의(一意)적으로 정하는 것이 어려운 단어가 존재하고, 적절한 단어 분할의 양태가 장면에 따라 다르다고 하는 문제가 있다. 일례로서, 「ボ―ルペン(bo-rupen)」(영어로는 「ballpoint pen」)이라고 하는 단어를 포함한 텍스트 집합에 대하여 키워드 검색을 행하는 경우를 상정한다. 만일 「ボ―ルペン(bo-rupen)」을 분할하지 않는 경우에는, 「ペン(pen)」(영어로는 「pen」)이라고 하는 키워드로 검색해도 텍스트가 추출되지 않게 된다(재현율의 저하). 한편, 「ボ―ルペン(bo-rupen)」을 「ボ―ル(bo-ru)」(영어로는 「ball」)와 「ペン(pen)」으로 분할한 경우에는, 스포츠 용품인 「ボ―ル(bo-ru)」를 키워드로 한 검색에 의해, 「ボ―ルペン(bo-rupen)」을 포함하는 텍스트가 추출되어 버린다(정밀도의 저하).
따라서, 상기와 같이 「분할」 「비분할」의 2값뿐만 아니라 「반분할」이라고 하는 개념을 도입한 3단계 단어 분할 코파스를 사용한다. 3단계 단어 분할 코파스는, 확률적인 값으로 분할의 양태를 나타내는 확률적 단어 분할을 발전시킨 방법이다. 사람이 실제로 인식할 수 있는 단어 분할의 강도는 많아야 수 단계에 지나지 않고, 연속적인 확률값으로 분할의 양태를 나타낼 필요성은 낮다고 하는 이유로부터, 이 3단계 단어 분할 코파스가 사용된다. 반분할을 포함하는 단어에 대해서는, 그 단어 전체와, 그 단어의 구성 요소와의 양쪽이 추출되므로, 사람에게 있어서 분할인지 비분할인지의 판단이 어려운 단어를 우선 반분할로서 기록하는 것이 가능해지는 동시에, 경계 정보의 부여가 용이해진다. 「반분할」은, 문자간 위치에 경계가 확률적으로(0보다 크고 1보다 작은 확률의 범위에서) 존재하는 것을 나타내는 일 형태이다.
3단계 단어 분할 코파스는, 「분할」(bi=1) 및 「비분할」(bi=0)에 「반분할」(bi=0.5)을 추가한 3단계의 이산 확률적 단어 분할에 의해 생성되는 코파스이다. 예를 들어, 「ボ―ル/ペン(bo-ru/pen)」과 같은 복합 명사나, 「折り/たたむ(ori/tatamu)」(영어로는 「fold」)와 같은 복합 동사, 「お/すすめ(o/susume)」(영어로는 「recommendation」)와 같은, 접사도 포함하여 어휘화되어 있는 단어 중의 분할(이들 예에서는 "/"로 나타내고 있음)은, 반분할로서 정의하는 것이 자연스럽다. 또한, 「充電池(juudenchi)」(영어로는 「rechargeable battery」)는, 「充電(juuden)」(영어로는 「recharge」)과 「電池(denchi)」(영어로는 「battery」)와 같은 「AB+BC→ABC」형의 복합어라고 할 수 있지만, 이러한 단어는 「充/電/池(juu/den/chi)」라고 하는 것과 같이 반분할된다.
「ボ―ルペンを買った。」(bo-rupen wo katta)라고 하는 텍스트는, 상기한 점 추정에 의한 단어 분할과 3단계 단어 분할 코파스를 사용하여 예를 들어 도 3에 나타내는 바와 같이 분할된다. 도 3의 예에서는, 「분할」(bi=1)의 단어 경계 태그는, 텍스트의 선두나, 「ン(n)」과 「を(wo)」의 사이 등에 부여되어 있다. 「반분할」(bi=0.5)의 단어 경계 태그는 「ル(ru)」와 「ペ(pe)」의 사이에 부여되어 있다. 도 3에서는 「비분할」(bi=0)의 단어 경계 태그를 생략하고 있지만, 문자간에 경계가 나타내어져 있지 않은 개소(예를 들어 「ペ(pe)」와 「ン(n)」의 사이)에는 당해 태그가 부여된다.
각 텍스트에는 단어 경계 태그가 경계 정보로서 부여되어, 학습 코파스(20)로서 데이터 베이스에 저장된다. 경계 정보를 텍스트에 부여하는 방법은 임의이다. 일례로서, 「분할」을 스페이스로 나타내고, 「반분할」을 하이픈으로 나타내고, 「비분할」의 표시를 생략하도록 각 텍스트에 경계 정보를 매립해도 된다. 이 경우에는, 경계 정보가 부여된 텍스트를 문자열인 상태 그대로 기록할 수 있다.
기존 사전(31)은, 소정수의 단어의 집합이며, 데이터 베이스로서 미리 준비되어 있다. 기존 사전(31)은 일반적으로 사용되고 있는 전자화 사전이어도 되고, 예를 들어 UniDic이라고 하는 형태소 해석 사전이어도 된다.
대규모 텍스트(40)는, 수집된 텍스트의 집합이며, 데이터 베이스로서 미리 준비되어 있다. 대규모 텍스트(40)에는, 추출하려고 하는 단어나 그 단어의 분야 등에 따라, 임의의 문장이나 문자열을 포함해도 된다. 예를 들어, 가상 상점가의 웹 사이트로부터 상품의 타이틀 및 설명문을 대량으로 수집하고, 이들의 미가공(生) 데이터로부터 대규모 텍스트(40)를 구축해도 된다. 대규모 텍스트(40)로서 준비되는 텍스트의 수는, 학습 코파스(20)에 포함되는 텍스트의 수보다도 압도적으로 많다.
이상을 전제로 하여 사전 생성 장치(10)의 기능적 구성 요소를 설명한다.
모델 생성부(11)는, 학습 코파스(20) 및 단어 사전(30)을 사용하여 단어 분할 모델을 생성하는 수단이다. 모델 생성부(11)는, 서포트·벡터·머신(SVM:Support vector machine)을 구비하고 있고, 학습 코파스(20) 및 단어 사전(30)을 이 머신에 입력하여 학습 처리를 실행시킴으로써, 단어 분할 모델을 생성한다. 이 단어 분할 모델은, 텍스트를 어떻게 구획해야 하는지 등의 룰을 나타내고 있고, 단어 분할에 사용되는 파라미터군으로서 출력된다. 또한, 기계 학습으로 사용하는 알고리즘은 SVM에 한정되지 않고, 결정목(木)이나 로지스틱 회귀 등이어도 된다.
대규모 텍스트(40)를 해석하기 위해, 모델 생성부(11)는 학습 코파스(20) 및 기존 사전(31)에 기초하는 학습을 SVM에 실행시킴으로써, 최초의 단어 분할 모델(베이스라인·모델)을 생성한다. 그리고 모델 생성부(11)는 이 단어 분할 모델을 해석부(12)에 출력한다.
그 후, 후술하는 해석부(12), 선택부(13) 및 등록부(14)의 처리에 의해 단어 사전(30)에 단어가 추가되면, 모델 생성부(11)는 학습 코파스(20)와 단어 사전(30)의 전체에 기초하는 학습(재학습) 처리를 SVM에 실행시킴으로써, 수정된 단어 분할 모델을 생성한다. 여기서, 단어 사전(30)의 전체라 함은, 기존 사전(31)에 처음부터 기억되어 있었던 단어 및 대규모 텍스트(40)로부터 얻어진 단어의 모두를 의미한다.
해석부(12)는, 단어 분할 모델이 짜 넣어진 해석(단어 분할)을 대규모 텍스트(40)에 대하여 실행하여, 각 텍스트에 경계 정보를 부여하는(관련짓는) 수단이다. 이 결과, 도 3에 나타내는 바와 같은 텍스트가 대량으로 얻어진다. 해석부(12)는 대규모 텍스트(40)를 이루고 있는 각 텍스트에 대해 그러한 단어 분할을 실행함으로써, 상기 「분할」(제2 정보), 「반분할」(제3 정보) 및 「비분할」(제1 정보)을 나타내는 경계 정보를 각 텍스트에 부여하고, 처리된 모든 텍스트를 선택부(13)에 출력한다.
해석부(12)는 2개의 이치 분류기를 구비하고 있고, 이들 분류기를 순서대로 사용하여 3종류의 경계 정보를 각 텍스트에 부여한다. 제1 분류기는, 문자간 위치가 「비분할」인지 그 이외인지를 판정하는 수단이며, 제2 분류기는, 「비분할」이 아니라고 판정된 경계가 「분할」인지 「반분할」인지를 판정하는 수단이다. 현실에는 문자간 위치의 과반수가 「비분할」이므로, 우선 문자간 위치가 「비분할」인지의 여부를 판정하고, 계속해서 「비분할」이 아닌 이외라고 판정된 개소에 대해 분할의 양태를 판정함으로써, 효율적으로 경계 정보를 대량의 텍스트에 부여할 수 있다. 또한, 이치 분류기를 조합함으로써, 해석부(12)의 구조를 단순화할 수 있다.
선택부(13)는, 해석부(12)에 의해 경계 정보가 부여된 텍스트로부터, 단어 사전(30)에 등록하는 단어를 선택하는 수단이다.
우선, 선택부(13)는 입력된 텍스트군에 포함되어 있는 각 단어 w의 합계 출현 빈도 fr(w)를 하기 수학식 1에 의해 구한다. 이 계산은, 각 문자간 위치에 부여된 경계 정보 bi로부터 출현 빈도가 얻어지는 것을 의미한다.
Figure pct00001
여기서, O1은 단어 w의 표기의 출현을 나타내고 있고, 하기와 같이 정의된다.
Figure pct00002
도 3에 나타내는 「ボ―ルペンを買った。」(bo-rupen wo katta)라고 하는 하나의 문장에 있어서의 단어 「ボ―ルペン(bo-rupen)」의 출현 빈도는, 1.0*1.0*1.0*0.5*1.0*1.0=0.5로 되고, 그 문장에 있어서의 단어 「ペン(pen)」의 출현 빈도는, 0.5*1.0*1.0=0.5로 된다. 이들은, 그 문장 중에 「ボ―ルペン(bo-rupen)」 및 「ペン(pen)」이라고 하는 단어가 각각 0.5회씩 출현한 것으로 간주되는 것을 의미한다. 선택부(13)는, 각 텍스트에 포함되어 있는 각 단어의 출현 빈도를 구하여, 단어마다 그 출현 빈도를 집계함으로써, 각 단어의 합계 출현 빈도를 얻는다.
계속해서, 선택부(13)는 대규모 텍스트(40) 내의 단어군으로부터, 합계 출현 빈도가 제1 임계값 THa 이상인 단어만을 등록 후보 V로서 선택한다(빈도에 의한 단어의 선별). 그리고 선택부(13)는 최종적으로 단어 사전(30)에 등록하는 단어를 그 등록 후보 V 중에서 선택하고, 필요에 따라 그 단어를 저장하는 사전(데이터 베이스)을 결정한다. 최종적으로 등록하는 단어 및 저장처의 사전의 결정 방법은 하나로 한정되는 것이 아니라, 하기와 같이 여러 가지 방법을 사용할 수 있다.
선택부(13)는, 등록 후보 V 중 합계 출현 빈도가 소정의 임계값 이상인 단어만을 기존 사전(31)에 추가한다고 결정해도 된다. 이 경우에, 선택부(13)는 합계 출현 빈도가 제2 임계값 THb(단, THb>THa)인 단어만을 선택해도 되고, 합계 출현 빈도가 상위 n 정도까지의 단어만을 선택해도 된다. 이하에서는, 이러한 처리를 「APPEND」라고도 한다.
혹은, 선택부(13)는, 등록 후보 V 중 합계 출현 빈도가 소정의 임계값 이상인 단어만을 추가 사전(32)에 등록한다고 결정해도 된다. 이 경우에도, 선택부(13)는 합계 출현 빈도가 제2 임계값 THb(단, THb>THa)인 단어만을 선택해도 되고, 합계 출현 빈도가 상위 n 정도까지의 단어만을 선택해도 된다. 이하에서는, 이러한 처리를 「TOP」이라고도 한다.
혹은, 선택부(13)는, 등록 후보 V의 모두를 추가 사전(32)에 등록한다고 결정해도 된다. 이하에서는, 이러한 처리를 「ALL」이라고도 한다.
혹은, 선택부(13)는 등록 후보 V를 합계 출현 빈도에 따라 복수의 부분 집합으로 나누고, 각 부분 집합을 개별의 추가 사전(32)에 등록한다고 결정해도 된다. 등록 후보 V 중, 합계 출현 빈도가 상위 n 정도까지의 부분 집합을 Vn으로 나타내는 것으로 한다. 이 경우에 선택부(13)는, 예를 들어, 상위 1000 정도까지의 단어를 포함하여 이루어지는 부분 집합 V1000과, 상위 2000 정도까지의 단어를 포함하여 이루어지는 부분 집합 V2000과, 상위 3000 정도까지의 단어를 포함하여 이루어지는 부분 집합 V3000을 생성한다. 그리고 선택부(13)는 부분 집합 V1000, V2000 및 V3000을 제1 추가 사전(32), 제2 추가 사전(32) 및 제3 추가 사전(32)에 등록한다고 결정한다. 또한, 생성하는 부분 집합의 개수나, 각 부분 집합의 크기는 임의로 정해도 된다. 이하에서는, 이러한 처리를 「MULTI」라고 한다.
최종적으로 등록하는 단어를 선택하는 동시에 저장처의 사전을 결정하면, 선택부(13)는 그 선택 결과를 등록부(14)에 출력한다.
등록부(14)는, 선택부(13)에 의해 선택된 단어를 단어 사전(30)에 등록하는 수단이다. 단어 사전(30) 중 어느 사전에 단어를 등록할지는 선택부(13)에서의 처리에 의존하므로, 등록부(14)는 기존 사전(31)에만 단어를 등록할 수도 있고, 하나의 추가 사전(32)에만 단어를 등록할 수도 있다. 상기한 「MULTI」 처리의 경우에는, 등록부(14)는 선택된 단어를 복수의 추가 사전(32)에 나누어 등록한다.
상술한 바와 같이, 단어 사전(30)에 추가된 단어는 단어 분할 모델의 수정에 사용되지만, 단어 사전(30)을 단어 분할 이외의 목적으로 사용해도 된다. 예를 들어, 형태소 해석이나, 자동 입력 기능을 구비하는 입력 박스에 있어서의 입력 후보 어구의 표시나, 고유 명사를 추출하기 위한 지식 데이터 베이스 등을 위해 단어 사전(30)을 사용해도 된다.
다음으로, 도 4를 사용하여, 사전 생성 장치(10)의 동작을 설명하는 동시에 본 실시 형태에 따른 사전 생성 방법에 대해 설명한다.
우선, 모델 생성부(11)가, 학습 코파스(20) 및 기존 사전(31)에 기초하는 학습을 SVM에 실행시킴으로써 최초의 단어 분할 모델(베이스라인·모델)을 생성한다(스텝 S11, 모델 생성 스텝). 계속해서, 해석부(12)가 그 베이스라인·모델이 짜 넣어진 해석(단어 분할)을 대규모 텍스트(40)에 대하여 실행하여, 「분할」, 「반분할」 또는 「비분할」을 나타내는 경계 정보를 각 텍스트에 부여한다(관련시킴)(스텝 S12, 해석 스텝).
계속해서, 선택부(13)가, 사전에 등록하는 단어를 선택한다(선택 스텝). 구체적으로는, 선택부(13)는 경계 정보가 부여된 텍스트에 기초하여 각 단어의 합계 출현 빈도를 산출하고(스텝 S13), 그 빈도가 소정의 임계값 이상인 단어를 등록 후보로서 선택한다(스텝 S14). 그리고 선택부(13)는 최종적으로 사전에 등록하는 단어를 등록 후보로부터 선택하는 동시에, 단어를 등록하는 사전을 결정한다(스텝 S15). 선택부(13)는 상기한 APPEND, TOP, ALL, MULTI 등의 방법을 이용하여, 단어를 선택하고 사전을 지정할 수 있다.
계속해서, 등록부(14)가 선택부(13)에서의 처리에 기초하여, 선택한 단어를 지정된 사전에 등록한다(스텝 S16, 등록 스텝).
이상의 처리에 의해, 단어 사전(30)에의 단어의 추가가 완료된다. 본 실시 형태에서는, 확장된 단어 사전(30)을 이용하여 단어 분할 모델이 수정된다. 즉, 모델 생성부(11)가, 학습 코파스(20)와 단어 사전(30)의 전체에 기초하는 재학습에 의해, 수정된 단어 분할 모델을 생성한다(스텝 S17).
다음으로, 도 5를 이용하여, 컴퓨터를 사전 생성 장치(10)로서 기능시키기 위한 사전 생성 프로그램(P1)을 설명한다.
사전 생성 프로그램(P1)은, 메인 모듈(P10), 모델 생성 모듈(P11), 해석 모듈(P12), 선택 모듈(P13) 및 등록 모듈(P14)을 구비하고 있다.
메인 모듈(P10)은, 사전 생성 기능을 통괄적으로 제어하는 부분이다. 모델 생성 모듈(P11), 해석 모듈(P12), 선택 모듈(P13) 및 등록 모듈(P14)을 실행함으로써 실현되는 기능은 각각, 상기한 모델 생성부(11), 해석부(12), 선택부(13) 및 등록부(14)의 기능과 마찬가지이다.
사전 생성 프로그램(P1)은, 예를 들어, CD―ROM이나 DVD―ROM, 반도체 메모리 등의 유형의 기록 매체에 고정적으로 기록된 후에 제공된다. 또한, 사전 생성 프로그램(P1)은, 반송파에 중첩된 데이터 신호로서 통신 네트워크를 통해 제공되어도 된다.
이상 설명한 바와 같이, 본 실시 형태에 따르면, 경계 정보가 부여되어 있는 학습 코파스(20)와, 기존 사전(31)을 이용하여 단어 분할 모델이 생성되고, 그 모델이 짜 넣어진 단어 분할이 대규모 텍스트(40)에 적용된다. 그리고 이 적용에 의해 경계 정보가 부여된 텍스트 집합으로부터 단어가 선택되어 단어 사전(30)에 등록된다. 이와 같이, 학습 코파스(20)를 이용한 해석에 의해 텍스트 집합에도 경계 정보를 부여한 후에, 그 텍스트 집합으로부터 추출된 단어를 등록함으로써, 대규모의 단어 사전(30)을 용이하게 구축할 수 있다.
예를 들어 「スマホケ―ス」(sumahoke-su)(영어로는 「smartphone case」)가 「スマホ」(sumaho)와 「ケ―ス」(ke-su)로 나뉘어, 그때까지 미지어였던 「スマホ」(sumaho)가 사전에 등록될 수 있다. 또한, 「スマホ」(sumaho)는, 일본어의 「スマ―トフォン」(suma-tofon)의 약어이다. 또한, 「うっとろりん」(uttororin)이라고 하는 어구[일본어의 「うっとり」(uttori)(영어로는 「fascinated」)에 상당하는 미지어]도 사전에 등록될 수 있다. 그리고 구축된 사전을 이용하여 텍스트 해석을 행함으로써, 등록된 단어를 포함하는 문장[예를 들어 「スマホ」(sumaho) 또는 「うっとろりん」(uttororin)을 포함하는 문장]의 단어 분할이 보다 고정밀도로 실행된다.
다음으로, 본 실시 형태에 있어서의 사전 생성 장치(10)에 의한 단어 분할 성능의 평가의 일례를 나타낸다. 단어 분할 성능의 평가의 지표에는, 정밀도(Prec), 재현율(Rec) 및 F값을 사용하였다. 정답 코파스에 포함되는 누적 단어수를 NREF, 해석 결과에 포함되는 누적 단어수를 NSYS, 해석 결과 및 정답 코파스의 양자에 포함되는 누적 단어수를 NCOR로 하면, 상기한 3지표는 하기와 같이 정의된다.
Prec=NCOR/NSYS
Rec=NCOR=NREF
F=2Prec·Rec/(Prec+Rec)
기존 사전으로서 UniDic의 표제어 리스트(개별 304,267어)를 사용하고, 서포트·벡터·머신으로서 LIBLINEAR을 디폴트 파라미터로 사용하였다. 학습 코파스 및 대규모 텍스트 내의 반각 문자는 모두 전각으로 통일하였지만, 그 이상의 정규화는 행하지 않았다.
우선, 학습 코파스 및 대규모 텍스트가 동일한 분야인 경우(동일 분야의 학습)의 유효성에 대해 설명한다. 여기서, 분야라 함은, 문체, 내용(쟝르) 등에 기초하여 문장 및 단어를 그룹화하기 위한 개념을 말한다. 동일 분야의 학습에서는, 가상 상점가 A의 웹 사이트로부터 쟝르의 치우침 없이 랜덤하게 추출한 590상품의 타이틀 및 설명문과, 가상 상점가 B의 웹 사이트로부터 랜덤하게 추출한 50상품의 설명문으로부터 3단계 단어 분할의 학습 코파스를 작성하였다. 이 학습 코파스의 단어수는 약 11만이며, 문자수는 약 34만이었다. 이 학습 코파스를 사용하여 성능을 평가하였다.
대규모 텍스트로서, 상기 가상 상점가 A 내의 전 상품 데이터의 타이틀 및 설명문을 사용하였다. 상품수는 약 2700만이며, 문자수는 약 160억이었다.
이 대규모 텍스트를 베이스라인·모델에 의해 해석하여 2단계 단어 분할을 실행한 경우에는, 개별 576,954어가 추출되고, 당해 해석 후에 3단계 단어 분할을 실행한 경우에는, 개별 603,187어가 추출되었다. 여기서, 단어의 선별을 위해 사용한 빈도의 임계값은 20으로 하였다. 상기 「MULTI」를 채용하였을 때에는, 합계 출현 빈도의 상위 10만어, 상위 20만어, 상위 30만어, 상위 40만어 및 전체를 각각의 사전으로서 추가하였다. 상기 「TOP」을 채용하였을 때에는 상위 10만어만을 사용하였다.
베이스라인·모델에 의한 학습 결과, 2단계 단어 분할에 의해 얻어진 단어 사전을 사용한 재학습의 결과 및 3단계 단어 분할에 의해 얻어진 단어 사전을 사용한 재학습의 결과를 표 1에 나타낸다. 표 1 중의 수치는 모두 백분율(%)이다.
Figure pct00003
2단계 단어 분할을 사용하여 재학습한 경우에는, 어느 방법(APPEND/TOP/ALL/MULTI)을 이용하여 단어를 추가해도 F값이 향상되고, 이것은, 제안하는 대규모 텍스트를 사용한 학습이 유효한 것을 나타내고 있다. F값의 증가 폭은, APPEND<TOP<ALL<MULTI의 순으로 컸다. 이 결과로부터, 단어를 추가할 때에는, 기존 사전에 추가하는 것보다도 다른 사전에 추가한 쪽이 보다 효과적이며, 나아가서는, 추가하는 단어를 하나의 추가 사전에 등록하는 것보다도 출현 빈도에 따라 각각의 사전에 추가한 쪽이 보다 효과적인 것을 알 수 있었다.
표 1로부터, 분류기가 단어의 출현 빈도에 따라 다른 공헌도 및 가중을 자동적으로 학습하고 있다고 생각된다. 또한, 3단계 단어 분할을 사용하여 재학습한 경우에는, 모든 경우에 있어서 베이스라인·모델 및 2단계 단어 분할보다도 성능이 향상되었다. 구체적으로는, 반분할을 고려함으로써, 접사를 수반하는 단어를 정확하게 획득하는 등의 개선이 얻어졌다.
다음으로, 학습 코파스와 대규모 텍스트가 다른 분야인 경우의 유효성에 대해 설명한다. 사용한 학습 코파스는, 상기 동일 분야의 학습에 있어서의 것과 동일한 것으로 하였다. 한편, 대규모 텍스트는, 여행 예약 사이트 C 내의 유저 리뷰, 숙박 시설명, 숙박 플랜명 및 숙박 시설로부터의 답변을 사용하였다. 텍스트수는 348,564이며, 그 문자수는 약 1억 2600만이었다. 이 대규모 텍스트 중, 150건 및 50건의 리뷰를 랜덤하게 추출하여 수작업에 의한 단어 분할을 행하고, 각각 테스트 코파스 및 능동 학습용 코파스(학습 코파스에 대한 추가분)로서 사용하였다.
우선, 상기한 상품 분야의 학습 코파스로부터 학습한 베이스라인·모델을 사용하여 여행 분야의 대규모 텍스트를 해석하였다. 이 해석 성능이 하기 표 2의 「베이스라인」이다.
다음으로, 상품 분야의 학습 코파스에 분야 적응용의 코파스를 추가하여 단어 분할 모델을 학습한 후, 그것을 사용하여 대규모 텍스트를 해석하였다. 이 해석 성능이 하기 표 2의 「분야 적응」이다. 대규모 텍스트를 해석한 후에 2단계 단어 분할을 사용하면 개별 41,671어가 추출되고, 3단계 단어 분할을 사용하면 개별 44,247어가 추출되었다. 어느 경우나, 합계 출현 빈도가 5 이상의 단어만을 사용하였다.
이들 얻어진 단어를 사전에 추가하고, 학습 코파스 및 분야 적응용 코파스를 사용하여 모델을 재학습한 결과를 표 2에 나타낸다. 표 2 중의 수치는 모두 백분율(%)이다.
Figure pct00004
이 표로부터 알 수 있는 바와 같이, 학습 코파스와 대규모 텍스트에서 분야가 다른 경우에는, 3단계 단어 분할의 경우에 있어서 성능의 향상이 보였다.
이상, 본 발명을 그 실시 형태에 기초하여 상세하게 설명하였다. 그러나 본 발명은 상기 실시 형태에 한정되는 것은 아니다. 본 발명은, 그 요지를 일탈하지 않는 범위에서 여러 가지 변형이 가능하다.
상기 실시 형태에서는 선택부(13)가 출현 빈도에 기초하여 단어를 선택하였지만, 선택부(13)는, 이 출현 빈도를 참조하는 일 없이, 모든 단어를 기존 사전(31) 또는 추가 사전(32)에 등록해도 된다. 또한, 단어의 선별은 필수의 처리는 아니다.
상기 실시 형태에서는 해석부(12)가 대규모 텍스트(40)의 전체를 해석한 후에 선택부(13) 및 등록부(14)에 의한 처리가 행해졌지만, 해석부(12)는 수집된 대량의 텍스트를 복수회로 나누어 해석해도 된다. 이 경우에는, 모델 생성 스텝, 해석 스텝, 선택 스텝 및 등록 스텝을 포함하여 이루어지는 일련의 처리가 복수회 반복된다. 예를 들어, 대규모 텍스트(40)를 그룹 1∼3으로 나눈 경우에는, 1루프째의 처리에서 그룹 1이 해석되어 단어가 등록되고, 2루프째의 처리에서 그룹 2가 해석되어 단어가 더 등록되고, 3루프째의 처리에서 그룹 3이 해석되어 단어가 더 등록된다. 2루프째 이후의 처리에서는, 모델 생성부(11)는 단어 사전(30)의 전체를 참조하여, 수정된 단어 분할 모델을 생성한다.
상기 실시 형태에서는 3단계 분할의 방법을 이용하였으므로 경계 정보는 3종류였지만, 경계 정보의 양태는 이 예에 한정되지 않는다. 예를 들어, 「분할」 「비분할」이라고 하는 2종류의 경계 정보만을 사용하여 2단계의 단어 분할을 행해도 된다. 또한, 「분할」 「비분할」과, 복수 종류의 확률적 분할을 사용하여, 4단계 이상의 단어 분할을 행해도 된다. 예를 들어, bi=0.33과 bi=0.67이라고 하는 확률적 분할(제3 정보)을 사용한 4단계의 단어 분할을 행해도 된다. 어떻게 하든, 제3 정보에 상당하는 분할의 강도는, 경계 정보가 「비분할」의 경우의 강도(예를 들어 bi=0)보다 크고, 경계 정보가 「분할」의 경우의 강도(예를 들어 bi=1)보다 작다.
본 실시 형태에 따르면, 대규모의 단어 사전을 용이하게 구축할 수 있다.
10 : 사전 생성 장치
11 : 모델 생성부
12 : 해석부
13 : 선택부
14 : 등록부
20 : 학습 코파스
30 : 단어 사전
31 : 기존 사전(단어군)
32 : 추가 사전
40 : 대규모 텍스트(수집된 텍스트의 집합)
P1 : 사전 생성 프로그램
P10 : 메인 모듈
P11 : 모델 생성 모듈
P12 : 해석 모듈
P13 : 선택 모듈
P14 : 등록 모듈

Claims (14)

  1. 미리 준비된 코파스 및 단어군을 사용하여 단어 분할 모델을 생성하는 모델 생성부로서, 상기 코파스에 포함되는 각 텍스트에는, 단어의 경계를 나타내는 경계 정보가 부여되어 있는, 상기 모델 생성부와,
    수집된 텍스트의 집합에 대하여, 상기 단어 분할 모델이 짜 넣어진 단어 분할을 실행하여, 각 텍스트에 상기 경계 정보를 부여하는 해석부와,
    상기 해석부에 의해 상기 경계 정보가 부여된 텍스트로부터 사전에 등록하는 단어를 선택하는 선택부와,
    상기 선택부에 의해 선택된 단어를 상기 사전에 등록하는 등록부를 구비하는 사전 생성 장치.
  2. 제1항에 있어서,
    상기 선택부가, 상기 해석부에 의해 부여된 상기 경계 정보로부터 산출되는 각 단어의 출현 빈도에 기초하여, 상기 사전에 등록하는 단어를 선택하는 사전 생성 장치.
  3. 제2항에 있어서,
    상기 선택부가, 상기 출현 빈도가 소정의 임계값 이상인 단어를 선택하는 사전 생성 장치.
  4. 제3항에 있어서,
    상기 선택부가, 상기 출현 빈도가 상기 임계값 이상인 단어를 등록 후보로서 추출하고, 상기 출현 빈도가 높은 단어로부터 순서대로 상기 등록 후보로부터 소정수의 단어를 선택하고,
    상기 등록부가, 상기 선택부에 의해 선택된 단어를 상기 단어군이 기록되어 있는 사전에 추가하는 사전 생성 장치.
  5. 제3항에 있어서,
    상기 선택부가, 상기 출현 빈도가 상기 임계값 이상인 단어를 등록 후보로서 추출하고, 상기 출현 빈도가 높은 단어로부터 순서대로 상기 등록 후보로부터 소정수의 단어를 선택하고,
    상기 등록부가, 상기 선택부에 의해 선택된 단어를, 상기 단어군이 기록되어 있는 사전과는 다른 사전에 등록하는 사전 생성 장치.
  6. 제3항에 있어서,
    상기 등록부가, 상기 선택부에 의해 선택된 단어를, 상기 단어군이 기록되어 있는 사전과는 다른 사전에 등록하는 사전 생성 장치.
  7. 제3항에 있어서,
    상기 선택부가, 상기 출현 빈도가 상기 임계값 이상인 단어를 등록 후보로서 추출하고, 상기 출현 빈도의 높음에 따라 상기 등록 후보의 단어를 그룹화하고,
    상기 등록부가, 상기 선택부에 의해 생성된 복수의 그룹을, 상기 단어군이 기록되어 있는 사전과는 다른 복수의 사전에 개별적으로 등록하는 사전 생성 장치.
  8. 제3항에 있어서,
    상기 수집된 텍스트의 각각에는, 상기 텍스트의 분야를 나타내는 정보가 관련지어져 있고,
    상기 등록부가, 상기 선택부에 의해 선택된 단어를, 상기 단어가 포함되어 있었던 텍스트의 분야에 기초하여, 상기 분야마다 준비된 사전에 개별적으로 등록하는 사전 생성 장치.
  9. 제2항 내지 제8항 중 어느 한 항에 있어서,
    상기 경계 정보가, 문자간 위치에 상기 경계가 존재하지 않는 것을 나타내는 제1 정보와, 문자간 위치에 상기 경계가 존재하는 것을 나타내는 제2 정보와, 문자간 위치에 상기 경계가 확률적으로 존재하는 것을 나타내는 제3 정보를 포함하고,
    각 단어의 출현 빈도가 상기 제1, 제2 및 제3 정보에 기초하여 산출되는 사전 생성 장치.
  10. 제9항에 있어서,
    상기 해석부가, 제1 이치 분류기 및 제2 이치 분류기를 구비하고,
    상기 제1 이치 분류기가, 각 문자간 위치에 대해, 상기 제1 정보를 할당할지 상기 제1 정보 이외의 정보를 할당할지를 판정하고,
    상기 제2 이치 분류기가, 상기 제1 이치 분류기에 의해 상기 제1 정보 이외의 정보를 할당한다고 판정된 문자간 위치에 대해, 상기 제2 정보를 할당할지 상기 제3 정보를 할당할지를 판정하는 사전 생성 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 수집된 텍스트의 집합이 복수의 그룹으로 분할되고,
    상기 해석부, 상기 선택부 및 상기 등록부가 상기 복수의 그룹 중의 하나에 기초하는 처리를 실행한 후에, 상기 모델 생성부가 상기 코파스, 상기 단어군 및 상기 등록부에 의해 등록된 단어를 사용하여 상기 단어 분할 모델을 생성하고, 계속해서, 상기 해석부, 상기 선택부 및 상기 등록부가 상기 복수의 그룹 중의 다른 하나에 기초하는 처리를 실행하는 사전 생성 장치.
  12. 사전 생성 장치에 의해 실행되는 사전 생성 방법으로서,
    미리 준비된 코파스 및 단어군을 사용하여 단어 분할 모델을 생성하는 모델 생성 스텝으로서, 상기 코파스에 포함되는 각 텍스트에는, 단어의 경계를 나타내는 경계 정보가 부여되어 있는, 상기 모델 생성 스텝과,
    수집된 텍스트의 집합에 대하여, 상기 단어 분할 모델이 짜 넣어진 단어 분할을 실행하여, 각 텍스트에 상기 경계 정보를 부여하는 해석 스텝과,
    상기 해석 스텝에 있어서 상기 경계 정보가 부여된 텍스트로부터 사전에 등록하는 단어를 선택하는 선택 스텝과,
    상기 선택 스텝에 있어서 선택된 단어를 상기 사전에 등록하는 등록 스텝을 포함하는 사전 생성 방법.
  13. 미리 준비된 코파스 및 단어군을 사용하여 단어 분할 모델을 생성하는 모델 생성부로서, 상기 코파스에 포함되는 각 텍스트에는, 단어의 경계를 나타내는 경계 정보가 부여되어 있는, 상기 모델 생성부와,
    수집된 텍스트의 집합에 대하여, 상기 단어 분할 모델이 짜 넣어진 단어 분할을 실행하여, 각 텍스트에 상기 경계 정보를 부여하는 해석부와,
    상기 해석부에 의해 상기 경계 정보가 부여된 텍스트로부터 사전에 등록하는 단어를 선택하는 선택부와,
    상기 선택부에 의해 선택된 단어를 상기 사전에 등록하는 등록부를 컴퓨터에 실행시키는 사전 생성 프로그램.
  14. 미리 준비된 코파스 및 단어군을 사용하여 단어 분할 모델을 생성하는 모델 생성부로서, 상기 코파스에 포함되는 각 텍스트에는, 단어의 경계를 나타내는 경계 정보가 부여되어 있는, 상기 모델 생성부와,
    수집된 텍스트의 집합에 대하여, 상기 단어 분할 모델이 짜 넣어진 단어 분할을 실행하여, 각 텍스트에 상기 경계 정보를 부여하는 해석부와,
    상기 해석부에 의해 상기 경계 정보가 부여된 텍스트로부터 사전에 등록하는 단어를 선택하는 선택부와,
    상기 선택부에 의해 선택된 단어를 상기 사전에 등록하는 등록부를 컴퓨터에 실행시키는 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체.
KR1020137030410A 2012-02-28 2012-09-03 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 KR101379128B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261604266P 2012-02-28 2012-02-28
US61/604,266 2012-02-28
PCT/JP2012/072350 WO2013128684A1 (ja) 2012-02-28 2012-09-03 辞書生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
KR20130137048A true KR20130137048A (ko) 2013-12-13
KR101379128B1 KR101379128B1 (ko) 2014-03-27

Family

ID=49081915

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137030410A KR101379128B1 (ko) 2012-02-28 2012-09-03 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체

Country Status (5)

Country Link
JP (1) JP5373998B1 (ko)
KR (1) KR101379128B1 (ko)
CN (1) CN103608805B (ko)
TW (1) TWI452475B (ko)
WO (1) WO2013128684A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701133B (zh) * 2014-11-28 2021-03-30 方正国际软件(北京)有限公司 一种地址输入的方法和设备
JP6813776B2 (ja) * 2016-10-27 2021-01-13 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法及びプログラム
JP6707483B2 (ja) * 2017-03-09 2020-06-10 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
CN108391446B (zh) * 2017-06-20 2022-02-22 埃森哲环球解决方案有限公司 基于机器学习算法对针对数据分类器的训练语料库的自动提取
JP2019049873A (ja) * 2017-09-11 2019-03-28 株式会社Screenホールディングス 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
CN109033183B (zh) * 2018-06-27 2021-06-25 清远墨墨教育科技有限公司 一种可编辑的云词库的解析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3777456B2 (ja) * 1996-04-23 2006-05-24 日本電信電話株式会社 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
CN1086821C (zh) * 1998-08-13 2002-06-26 英业达股份有限公司 汉语语句切分的方法及其系统
JP2002351870A (ja) * 2001-05-29 2002-12-06 Communication Research Laboratory 形態素の解析方法
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
JP5073349B2 (ja) * 2007-04-05 2012-11-14 ヤフー株式会社 専門用語抽出装置、方法及びプログラム

Also Published As

Publication number Publication date
TWI452475B (zh) 2014-09-11
CN103608805B (zh) 2016-09-07
JPWO2013128684A1 (ja) 2015-07-30
CN103608805A (zh) 2014-02-26
JP5373998B1 (ja) 2013-12-18
KR101379128B1 (ko) 2014-03-27
WO2013128684A1 (ja) 2013-09-06
TW201335776A (zh) 2013-09-01

Similar Documents

Publication Publication Date Title
KR102431549B1 (ko) 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
US20080294982A1 (en) Providing relevant text auto-completions
JP5605583B2 (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
CN110851590A (zh) 一种通过敏感词检测与非法内容识别进行文本分类的方法
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN106294736A (zh) 基于关键词频率的文本特征提取方法
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
Barari et al. CloniZER spell checker adaptive language independent spell checker
Jain et al. Automatic question tagging using k-nearest neighbors and random forest
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
CN111814781A (zh) 用于对图像块识别结果进行校正的方法、设备和存储介质
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
CN115495636A (zh) 网页搜索方法、装置及存储介质
QasemiZadeh et al. Adaptive language independent spell checking using intelligent traverse on a tree
CN105426551A (zh) 文言文搜索方法和装置
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Hertel Neural language models for spelling correction
Abu Hawas et al. Rule-based approach for Arabic root extraction: new rules to directly extract roots of Arabic words
Colton Text classification using Python

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170310

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180309

Year of fee payment: 5