KR20050058189A - 정보 추출을 위한 일반화된 스트링 패턴의 학습 및 사용 - Google Patents
정보 추출을 위한 일반화된 스트링 패턴의 학습 및 사용 Download PDFInfo
- Publication number
- KR20050058189A KR20050058189A KR1020040093894A KR20040093894A KR20050058189A KR 20050058189 A KR20050058189 A KR 20050058189A KR 1020040093894 A KR1020040093894 A KR 1020040093894A KR 20040093894 A KR20040093894 A KR 20040093894A KR 20050058189 A KR20050058189 A KR 20050058189A
- Authority
- KR
- South Korea
- Prior art keywords
- patterns
- pattern
- generalized
- generalized extraction
- extraction
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명은 정보 소스로부터의 정보 추출에 관한 것이다. 추출 동안에, 정보 소스 내의 스트링이 액세스된다. 정보 소스 내의 이들 스트링은 워드 및 와일드카드를 포함하는 일반화된 추출 패턴과 매칭된다. 와일드카드는 개별 스트링을 개별 일반화된 추출 패턴에 매칭시키기 위해 개별 스트링 내의 적어도 하나의 워드가 스킵될 수 있다는 것을 나타낸다.
Description
본 발명은 정보 추출에 관한 것이다. 더욱 구체적으로, 본 발명은 정보 추출을 실행하기 위한 시스템 및 방법에 관한 것이다.
다량의 정보를 포함하는 데이터베이스, 웹 페이지 및 문서가 다수 존재한다. 이와 같이 존재하는 정보가 대량으로 되어감에 따라, 특정 주제에 속하는 관련 정보를 수집하기 위해 많은 방법이 사용되어 왔다. 정보 추출이란 이러한 정보 소스들로부터 유용한 정보를 추출하는 기술을 일컫는 것이다. 일반적으로, 정보 추출 시스템은 추출 패턴(또는 추출 규칙)에 기초하여 정보를 추출한다.
신뢰성있는 추출 패턴을 수동으로 작성하고 개발하는 것은 어렵고 시간 소모적이다. 그 결과, 주석달린 예로부터 추출 패턴을 자동으로 학습하기 위해 많은 노력을 해왔다. 일부 자동 학습 시스템은, 문장을 구문론적으로 파싱하고, 그 파싱으로부터 문장 또는 구 패턴을 습득함으로써 자연 언어 패턴을 학습한다. 다른 방식은 구문 및 의미 제약을 사용하여 패턴을 발견한다. 그러나, 이들 방식은 개발하는 데에 대체로 비용이 많이 든다. 다른 방식은 특정 정보쌍에 관한 정보를 추출하기 위해 연속된 피상적인 스트링 패턴을 사용한다. 이러한 연속 패턴은 소량의 추출될 정보를 커버할 뿐이므로, 신뢰성있는 추출을 위한 다량의 정보의 충분한 일반화를 제공하지 못한다.
상술된 문제를 해결하기 위해 다수의 상이한 방법들이 연구되어 왔다. 정보 추출에 사용될 패턴을 정확하고 효율적으로 학습하는 시스템 및 방법은, 여기에 개시된 것 및/또는 그 외의 문제들을 해결하여, 더욱 신뢰성있고 비용 효율적인 정보 추출 시스템을 제공할 것이다.
본 발명은 정보 소스로부터의 정보 추출에 관한 것이다. 추출 동안에, 정보 소스 내의 스트링이 액세스된다. 정보 소스 내의 이러한 스트링은 워드(word) 및 와일드카드(wildcard)를 포함하는 일반화된 추출 패턴과 매칭된다. 와일드카드는, 개별 스트링을 개별 일반화된 추출 패턴에 매칭시키기 위해 개별 스트링 내의 적어도 하나의 워드가 스킵(skip)될 수 있다는 것을 나타낸다.
본 발명의 다른 양상은 정보 소스로부터 정보를 추출하는 컴퓨터 판독가능 매체이다. 매체는 워드, 및 적어도 하나의 선택 워드에 대한 위치의 표시를 포함하는 일반화된 추출 패턴의 세트를 갖는 데이터 구조를 포함한다. 매체는 또한 정보 소스 내의 스트링을 일반화된 추출 패턴과 매칭시키기 위해 일반화된 추출 패턴의 세트를 사용하는 추출 모듈을 포함한다.
본 발명의 또 다른 양상은 정보 소스로부터 정보 추출에 사용될 패턴을 생성하는 방법이다. 이 방법은 주제에 대응하는 적어도 2개의 요소를 포함하는 스트링의 세트를 설정하는 단계를 포함한다. 스트링의 세트에 대응하는 일반화된 추출 패턴의 세트가 생성된다. 일반화된 추출 패턴은 적어도 2개의 요소, 워드 및 적어도 하나의 선택 워드의 위치 표시를 포함한다.
정보 소스로부터 정보 추출에 사용될 패턴을 생성하는 다른 방법은 본 발명에 관련된다. 이 방법은 주제에 대응하는 적어도 2개의 요소를 포함하는 스트링의 세트를 설정하고, 워드 및 적어도 2개의 요소를 포함하는 스트링 세트 내의 연속 패턴을 식별한다. 일반화된 추출 패턴의 세트는 식별된 연속 패턴으로부터 생성된다. 일반화된 추출 패턴은 적어도 2개의 요소, 워드 및 와일드카드를 포함한다. 와일드카드는 연속 패턴의 조합을 표현한다.
본 발명은 정보 추출에 관한 것이다. 본 명세서에서는 정보 추출을 위한 패턴의 개발과 관련하여 설명되지만, 본 발명은 그 외 다른 유형의 정보 처리에도 적용될 수 있다. 본 발명을 더 상세하게 설명하기 전에, 본 발명이 사용될 수 있는 예시적인 환경의 일 실시예에 대해 설명하겠다.
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 일례를 도시한 것이다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일례일 뿐이며, 본 발명의 사용 또는 기능의 범위에 제한을 가하기 위한 것은 아니다. 컴퓨팅 환경(100)은 예시적인 동작 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 조합에 관하여 임의의 종속성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.
본 발명은 많은 다른 범용 또는 전용 컴퓨팅 시스템 환경 또는 구성에서 동작될 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서 기반의 시스템, 셋탑 박스, 프로그램가능한 소비자 전자제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기의 시스템 또는 장치 중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이것에 제한되지 않는다.
본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령어들의 일반적인 문맥으로 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다. 프로그램 및 모듈에 의해 수행된 태스크는 도면을 참조하여 이하 설명된다. 본 분야의 숙련된 기술자들은 소정 형태의 컴퓨터 판독가능 매체 상에 기입될 수 있는 프로세서 실행가능 명령어들로서 상세한 설명 및 도면을 구현할 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있지만, 이에 제한되는 것은 아니다. 시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 제어기를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 메자닌(Mezzanine) 버스로도 알려진 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 제한되는 것은 아니다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용가능한 매체 또는 매체들일 수 있으며, 휘발성 및 비휘발성 매체의 분리형 및 비분리형 매체 양자 모두를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성의 분리형 및 비분리형 매체 양자 모두를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데에 사용될 수 있는 임의의 기타 매체를 포함하지만, 이에 제한되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내에 정보를 인코딩하는 방식으로 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 제한되지 않는다. 상술한 것들 중의 임의의 조합은 또한 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고/있거나 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서(제한하고자 하는 것은 아님), 도 1은 운영 체계(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있다.
컴퓨터(110)는 또한 다른 분리형/비분리형의 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 비휘발성 자기 매체에 대한 판독 및 기록을 행하는 하드 디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)에 대한 판독 및 기록을 행하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광학 디스크(156)에 대한 판독 및 기록을 행하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 동작 환경에서 사용될 수 있는 다른 분리형/비분리형의 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD, 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만, 이에 제한되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체계(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 운영 체계(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 운영 체계(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)는 적어도 다른 복사본임을 나타내기 위하여 다른 번호를 부여하였다.
사용자는 마우스, 트랙볼 또는 터치 패드라 불리우는 포인팅 장치(161), 키보드(162) 및 마이크로폰(163)과 같은 입력 장치를 통해 컴퓨터(110) 내로 커맨드 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 주로 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해서도 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 전반의 컴퓨터 네트워크, 인트라넷 및 인터넷에서 일반적인 것이다.
LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서(제한하고자 하는 것은 아님), 도 1은 원격 컴퓨터(180)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다는 것을 알 수 있을 것이다.
도 2는 데이터베이스(202)로부터 정보를 추출하고 추출된 정보(204)의 출력을 제공하는 추출 모듈(200)을 도시하고 있다. 후술되는 바와 같이, 추출 모듈(200)은 트레이닝 또는 테스트 코퍼스(corpus)로부터 학습한 추출 패턴에 기초하여 동작한다. 본 분야에 숙련된 기술자들이 알고 있는 바와 같이, 추출 모듈(200)은 추출 패턴을 포함하고/하거나, 추출을 실행하기 위한 패턴을 갖고 있는 데이터 구조에 액세스할 수 있다. 추출 패턴은 추출 동안에 데이터베이스(202) 내의 스트링에 매칭된다. 본 발명의 예시적인 실시예에서, 추출 패턴은 트레이닝 코퍼스에 기초하여 생성된 워드, 요소 및 와일드카드를 포함한다. 여기에서 사용되는 바와 같이, 스트링은 일련의 워드를 포함하고, 워드는 영어, 독일어, 중국어 및 일본어를 포함하는 상이한 언어로 이루어질 수 있다. 요소는 특정 주제에 관련된 정보를 포함하는 변수이고, 와일드카드는 스트링 내의 워드가 스킵될 수 있다는 것, 및/또는 매칭 동안의 선택 워드에 대한 위치를 나타내는 표시이다. 데이터베이스(202)는 여러가지 상이한 정보 소스일 수 있다. 예를 들어, 데이터베이스(202)는 문서들의 모음, 뉴스 그룹 기사들, 고객 피드백 데이터의 모음, 및/또는 임의의 다른 유형의 정보일 수 있고, 로컬 시스템 상에 저장되거나 또는 인터넷과 같은 WAN을 통해 저장될 수 있다. 정보는 텍스트 형태, 또는 예를 들어 텍스트로 변환될 수 있는 음성 데이터를 포함하는 기타 형태로 될 수 있다. 추출된 정보(204)는 특정 주제에 관련된 다수의 문서로부터의 발췌본으로서 데이터베이스(202) 내의 데이터를 더욱 잘 분석하기 위해 검토 또는 추가 처리될 수 있다.
정보 추출은 특정 주제에 관련된 정보를 추출하는 것과 관련된다. 추출된 정보는 그 주제에 속하는 관련된 요소들의 쌍, 트리플렛(triplet) 등을 포함할 수 있다. 예를 들어, 제품 배포 정보를 추출할 때, 요소들은 회사 요소 및 제품 요소를 포함할 수 있다. 주제가 책에 관한 것이면, 요소들은 책 제목 및 작가 정보를 포함할 수 있다. 그외 다른 관련 요소들은 발명가와 발명 정보, 질문과 대답 쌍 등을 포함할 수 있다. 일반적으로, 주제와 연관된 하나 이상의 요소들은 "앵커(anchor)"로 칭해질 수 있으며, 이것은 일반적으로 스트링 내의 정보가 특정 주제와 연관된다는 것을 나타낼 것이다. 예를 들어, 한 제품은 제품 배포 정보에 관련된 회사/제품 쌍의 한 앵커일 수 있다. 본 발명의 한 양상은 추출을 위한 요소들을 포함하는 패턴의 생성에 관한 것이다.
도 3은 추출 모듈(200)에 의해 사용될 패턴을 개발하기 위한 다양한 모듈의 흐름도이다. 모듈은 패턴 생성 모듈(210) 및 패턴 순위화 모듈(212)을 포함한다. 패턴 생성 모듈(210)은 포지티브 예의 코퍼스(positive example corpus)(214)에 기초하여 패턴을 개발한다. 포지티브 예의 코퍼스는 추출될 정보의 주제에 관련된 요소들을 포함하는 텍스트의 스트링을 포함한다. 코퍼스(214) 내의 포지티브 예를 사용하여, 연속 패턴이 모듈(210)에 의해 생성된다. 부수적으로, 패턴 생성 모듈(210)은 패턴의 조합을 표현하기 위해 와일드카드를 사용할 수 있다. 결과적으로, 모듈(210)에 의해 생성된 패턴(들)(참조번호 216으로 표시됨)은 일반화된 스트링을 포함하는 조합을 나타낸다.
아래는 예시적인 코퍼스(214)의 일부를 형성하는 예시적인 트레이닝 사례(instance)들이다. 사례들은 각각 <company> 및 <product> 태그가 달린 회사 및 제품 요소를 포함한다. 코퍼스(214) 내의 포지티브 트레이닝 사례들은 다음과 같다:
<company> Microsoft Corp. </company> today announced the
immediate availability of <product> Microsoft Internet Explorer Plus
</product>, the eagerly awaited retail version of Internet Explorer
4.0.
<company> Microsoft Corp. </company> today announced the
availability of <product> Microsoft Visual J++ 6.0 Technology Preview
2</product>, a beta release of the next version of the industry's most
widely used development system for Java.
<company> Microsoft Corp. </company> today announced the
immediate, free availability of <product> Microsoft Visual InterDev 6.0
March pre-release </product>, a preview of the new version of the
leading team-based Web development system for rapidly building data-
driven Web applications.
포지티브 트레이닝 사례들이 주어지면, 주제에 관련된 요소들을 포함하는 연속 패턴들이 식별될 수 있다. 예를 들어, 다음 3개의 패턴은 상기 사례들로부터 생성된 연속 패턴을 나타내는데, 여기에서 변수 <company> 및 <product>가 특정 회사 및 제품 정보를 대체한다.
<company> today announced the immediate availability of
<product>,
<company> today announced the availability of <product>,
<company> today announced the immediate, free availability of
<product>.
이들 연속 패턴이 주어지면, 와일드카드를 포함하는 연속 패턴의 요소들을 표현하는 일반화된 추출 패턴은, 다음과 같이 모듈(200)에 의해 개발될 수 있다.
<company> today announced the {\w+3} availability of <product>.
여기에서, 와일드카드 {\w+3}은 "the"와 "availability" 사이에서 3개까지의 워드가 스킵될 수 있다는 것을 나타낸다. 상기 일반화된 추출 패턴은 각각의 연속 패턴을 "커버"한다. 즉, 각각의 연속 패턴은 일반화된 추출 패턴에 의해 표현될 수 있다. 와일드카드를 갖는 일반화된 추출 패턴을 사용하면, 워드 "immediate worldwide"를 포함하는 추가의 연속 패턴을 필요로 하지 않고 워드 "immediate worldwide"를 스킵할 수 있기 때문에, 다음 문장으로부터 제품 정보 "Microsoft Office 60 Minute Intranet Kit Version 2.0"이 추출될 수 있다.
<company> Microsoft Corporation </company> today announced the
immediate worldwide availability of Microsoft Office 60 Minute Intranet
Kit Version 2.0, downloadable for free (connect-time charges may apply)
from the Office intranet Web site located at
http://www.microsoft.com/office/intranet/.
패턴 생성 모듈(210)은 와일드카드를 포함하는 코퍼스(214)로부터 생성된 순위화되지 않은 패턴(216)의 출력을 상술한 것과 같은 패턴 순위화 모듈(212)에 제공한다. 패턴 순위화 모듈(212)은 포지티브 및 네가티브 예의 코퍼스(218)를 사용하여 패턴 생성 모듈(210)로부터 수신된 패턴을 순위화한다. 네가티브 예는 한 쌍 중의 하나의 요소는 포함하지만, 제2 요소, 예를 들어 상술된 앵커는 포함하지 않는다. 예를 들어, 아래의 문장은 회사 정보를 포함하지만 특정 제품을 포함하지 않고 제품 배포에 관련되지 않기 때문에 네가티브 예이다.
<company> Microsoft Corp. </company> today announced the
availability of an expanded selection of Web-based training through its
independent training providers.
패턴 생성 모듈(210)로부터 얻은 패턴은 다수의 상이한 방법을 사용하여 패턴 순위화 모듈(212)에 의해 순위화될 수 있다. 한 방법에서, 특정 패턴 P의 정밀도는 코퍼스(218)로부터 추출한 정확한 사례의 수를 패턴 P를 사용하여 코퍼스(218)로부터 추출한 사례의 수로 나눔으로써 계산될 수 있다. 더 높은 정밀도 값을 갖는 패턴은 패턴 순위화 모듈(212)에 의해 더 높게 순위화된다. 부수적으로, 패턴은 대응하는 패턴이 매칭할 수 있는 모든 포지티브 사례에 매칭되는 경우에 제거될 수 있다. 그 다음, 더 낮은 정밀도 값을 갖는 패턴이 제거될 수 있다.
순위화된 패턴(220)은 추출 모듈(200)을 사용하는 추출을 위한 기반을 형성한다. 그러면, 포지티브 및/또는 네가티브 예(222)는 정확하고 유용한 추출 정보(204)를 제공하는 데에 있어서의 추출 모듈(200)의 성능을 평가하기 위해 사용될 수 있다. 추출 동안에, 더 높은 순위를 갖는 패턴이 데이터베이스(202) 내의 스트링들을 매칭시키는 데에 먼저 사용될 수 있다. 일 실시예에서, 매칭은 좌에서 우의 순서로 실행된다. 예를 들어, 패턴 "x \w+ y \w+"에서, x의 존재가 매칭된 다음에, y의 임의의 존재가 매칭된다.
도 4는 추출 모듈(200)에 의해 사용될 패턴을 생성하고 순위화하는 방법(250)을 도시한 것이다. 방법(250)은 아프리오리(Apriori) 알고리즘과 같은 공지된 알고리즘에 기초한다. 아프리오리 알고리즘은 서브세트 및 연관된 수퍼세트가 유사한 속성을 공유하고 있으며, 서브세트와 수퍼세트의 조합이 서브세트 및 수퍼세트의 특성을 모두 포함하도록 표현될 수 있다는 것에 기초하여 만들어진 것이다. 다음과 같은 알고리즘은 일반화된 추출 패턴을 생성하기 위해 사용될 수 있는데, 이것은 방법(250)과 관련하여 더욱 상세하게 후술될 것이다. 아래 제공된 알고리즘에 있어서, S는 입력 스트링의 세트(즉, 포지티브 예의 코퍼스(214))이고, P1은 S 내의 워드의 세트이며, p1은 P1 내의 개별 워드이다. Pi 및 P(i-1)
은 알고리즘의 i번째 반복시의 패턴의 세트이고, pi 및 p(i-1)은 i번째 세트 내의 패턴을 나타낸다.
방법(250)은 입력 스트링의 세트가 설정되는 단계(252)에서 시작된다. 입력 스트링 세트는 도 3의 포지티브 예의 코퍼스(214)이다. 입력 스트링 세트는 원하는 정보 요소쌍의 두 부분이 포함되는 한 쌍의 요소들인 경우에 패턴을 포함한다. 입력 스트링 세트가 설정된 후에, 와일드카드를 포함하는 일반화된 추출 패턴이 단계(254)에서 생성된다. [또한 상기 알고리즘 내의 서브-알고리즘 find-generalized-extraction-patterns()인] 일반화된 추출 패턴의 생성은 도 5와 관련하여 더욱 상세하게 후술된다. 일반화된 추출 패턴은 워드 및 요소와, 그외 다른 워드가 패턴 내에 나타날 수 있다는 것을 나타내는 와일드카드를 포함한다.
그 다음, 일반화된 추출 패턴은 그들이 신뢰성있는 추출 후보를 나타내는 지의 여부를 판정하기 위해 평가될 수 있다. 단계(256)에서, 제약(constraint)들을 만족시키지 않는 패턴은 제거된다. 패턴 생성 모듈(210)에 의해 생성된 일반화된 추출 패턴을 제거하기 위해 다수의 상이한 제약들이 사용될 수 있다. 하나의 제약은 와일드카드가 앵커 직전 또는 직후에 배치될 수 없는 "경계 제약"으로 칭해진다. 이 제약은 앵커 정보가 어디에서 시작하고 끝나는지 판정하기가 어려운 패턴을 제거하는 것을 돕는다. 예를 들어, 다음의 일반화된 추출 패턴은 제거될 수 있다:
<company> today announced the immediate availability {\w+3}
<product>
상기 일반화된 추출 패턴은,
Microsoft Corp. today announced the immedate availability of Internet
Explorer for no-charge download from the Internet.
에 있어서, 스트링 "of Internet Explorer for no-charge download from the Internet"이 제품인 것으로 잘못 판정할 수 있다.
다른 제약은 "범위(distant) 제약"이다. 범위 제약은 와일드카드에 의해 스킵될 수 있는 워드의 수를 트레이닝 데이터에 기초하여 스킵되는 워드의 가장 큰 수 이하로 제한한다. 예를 들어, 스킵될 워드의 양을 제한하지 않는 다음 패턴은 사용될 수 없을 것이다.
<company> {\w+} today announced {\w+} deliver <product>.
상기 패턴은,
Microsoft Corp. and Policy Management Systems Corp. (PMSC) today
announced a plan in which the two companies will work together to
deliver enterprise and electronic-commerce solutions based on the
Microsoft Windows NT Server operating system and the BackOffice family
of products.
에 있어서, "enterprise and electronic-commerce solutions based on the Microsoft Windows NT Server operating system and the BackOffice family of products"를 제품 정보인 것으로 잘못 추출할 수 있다.
"아일랜드(island) 제약"이라고 불리우는 다른 제약은 "고립형 기능 워드(isolated function word)"를 금지한다. 고립형 기능 워드는 일반적으로, 추출될 정보에 관련된 특정 내용을 포함하지 않고 와일드카드에 의해 둘러싸인 "the", "a" 및 "an"과 같은 관사이다. 다음 패턴은 아일랜드 제약을 만족시키지 않는다:
<company> {\w+8} the {\w+13} of the <product>, the first
상기 패턴은,
Microsoft Corp. today provided attendees of the Consumer
Electronics Show in Las Vegas with a demonstration of the Microsoft
Entertainment Pack for the Windows CE operating system, the first game
product to be released for the Windows CE-based handheld PC platform.
에 있어서, "Microsoft Entertainment Pack for the Windows CE operating system"을 배포에 관련되지 않은 제품 정보로서 잘못 추출할 수 있다.
단계(258)에서, 빈도수(frequency) 임계치를 만족시키지 않는 패턴은 제거된다. 결과적으로, 흔하게 사용되지 않는 패턴은 이 단계에서 제거된다. 단계(260)에서, 앵커를 포함하지 않는 패턴이 제거된다. 예를 들어, 제품과 관련 회사명을 함께 포함하지 않는 패턴은 정보 추출을 위한 패턴으로 포함되지 않는다. 이들 패턴이 주어지면, 패턴은 단계(262)에서 순위화된다. 상술된 바와 같이, 다수의 상이한 순위화 방법이 패턴을 순위화하기 위해 사용될 수 있다. 패턴이 너무 낮은 순위를 가지면, 그 패턴은 제거될 수 있다.
도 5는 일반화된 추출 패턴을 생성하는 방법(280)을 도시한 것이다. 아래의 알고리즘은 이들 패턴을 생성하기 위해 사용될 수 있고, 상술된 알고리즘에 대한 서브-알고리즘이다. 동일한 변수가 아래의 알고리즘에 적용된다.
방법(280)의 단계(282)에서, 연속 패턴은 포지티브 예의 코퍼스(214) 내의 포지티브 사례들로부터 식별된다. 이 단계는 상기 서브-알고리즘의 3 내지 5행에 해당한다. 연속 패턴은 추출될 주제에 관련된 요소들, 예를 들어 회사 및 제품을 포함한다. 한 방법에서, 입력 스트링이 주어지면, 유사한 속성을 공유하는 스트링의 서브세트 및 수퍼세트를 결합함으로써, 패턴들이 귀납적으로 생성될 수 있다. 연속 패턴이 식별된 후, 방법(280)은 단계(284)로 진행하며, 이 단계(824)에서 연속 패턴들을 조합하고, 연속 패턴을 커버하도록 일반화된 추출 패턴을 표현함으로써, 와일드카드 위치 및 길이가 식별된다. 이 단계는 상기 서브-알고리즘의 6 내지 8행에 해당한다. 다음에, 와일드카드를 갖는 일반화된 추출 패턴이 단계(286)에서 출력된다. 그 다음, 일반화된 추출 패턴은 패턴을 제거하고 순위화하기 위한 방법(250)과 관련하여 위에서 설명된 바와 같이 더 분석된다.
상술된 본 발명을 구현함으로써, 패턴의 조합을 나타내고 더욱 신뢰성있는 정보 추출 시스템을 제공하는 일반화된 추출 패턴이 개발될 수 있다. 일반화된 추출 패턴은, 매칭 동안에 워드가 스킵될 수 있다는 것을 나타내며 패턴들의 조합이 표현될 수 있게 하는 와일드카드 및/또는 선택 워드를 위한 위치들을 포함할 수 있다. 추출동안 일반화된 패턴을 사용하면, 정보 소스 내의 매칭 스트링을 식별하기 위해 다양한 스트링의 매칭을 행할 수 있다.
본 발명은 특정 실시예와 관련하여 설명되었지만, 본 분야에 숙련된 기술자들은 본 발명의 취지 및 범위를 벗어나지 않고서 형태 및 상세가 변경될 수 있다는 것을 알 수 있을 것이다.
도 1은 예시적인 컴퓨팅 시스템 환경을 도시한 도면.
도 2는 정보 추출의 흐름도.
도 3은 정보 추출을 위한 패턴을 생성하고 순위화하는 흐름도.
도 4는 일반화된 추출 패턴을 생성하고 순위화하는 방법.
도 5는 일반화된 추출 패턴을 생성하는 방법.
<도면의 주요 부분에 대한 부호의 설명>
100 : 컴퓨팅 시스템 환경
110 : 컴퓨터
120 : 프로세싱 유닛
130 : 시스템 메모리
200 : 추출 모듈
202 : 데이터베이스
204 : 추출된 정보
210 : 패턴 생성 모듈
212 : 패턴 순위화 모듈
Claims (24)
- 정보 소스로부터 정보를 추출하기 위한 컴퓨터 구현 방법에 있어서,상기 정보 소스 내의 스트링에 액세스하는 단계; 및상기 정보 소스 내의 스트링들을 일반화된 추출 패턴들과 비교하고, 적어도 하나의 일반화된 추출 패턴에 매칭되는 상기 정보 소스 내의 스트링을 식별하는 단계를 포함하고,상기 일반화된 추출 패턴은 워드 및 와일드카드를 포함하고, 상기 와일드카드는 개별 스트링을 개별 일반화된 추출 패턴에 매칭시키기 위해 상기 개별 스트링 내의 적어도 하나의 워드가 스킵될 수 있다는 것을 나타내는 컴퓨터 구현 방법.
- 제1항에 있어서,매칭되는 것으로 식별된 상기 정보 소스 내의 스트링들로부터 적어도 2개의 요소를 추출하는 단계를 더 포함하고, 상기 적어도 2개의 요소는 대응하는 일반화된 추출 패턴 내의 적어도 2개의 대응하는 요소에 기초하고 있는 컴퓨터 구현 방법.
- 제2항에 있어서,각각의 일반화된 추출 패턴 내의 대응하는 요소들 중의 적어도 하나의 요소에 대하여, 상기 대응하는 요소들 중의 상기 적어도 하나의 요소와 와일드카드 사이에 적어도 하나의 워드가 배치되는 컴퓨터 구현 방법.
- 제1항에 있어서,상기 와일드카드는 스킵될 수 있는 워드의 수를 표시하는 컴퓨터 구현 방법.
- 정보 소스로부터 정보를 추출하기 위한 컴퓨터 판독가능 매체에 있어서,워드, 및 적어도 하나의 선택 워드에 대한 위치의 표시(indication)를 포함하는 일반화된 추출 패턴의 세트를 포함하는 데이터 구조; 및상기 일반화된 추출 패턴의 세트를 사용하여 상기 정보 소스 내의 스트링을 일반화된 추출 패턴과 매칭시키는 추출 모듈을 포함하는 컴퓨터 판독가능 매체.
- 제5항에 있어서,상기 일반화된 추출 패턴은 주제에 관련된 적어도 2개의 요소를 더 포함하는 컴퓨터 판독가능 매체.
- 제6항에 있어서,상기 일반화된 추출 패턴에 대해, 상기 요소들 중의 적어도 하나의 요소와 상기 표시 사이에 적어도 하나의 워드가 배치된 컴퓨터 판독가능 매체.
- 제5항에 있어서,상기 표시는 정보 추출 동안에 스킵될 수 있는 워드의 개수를 포함하는 컴퓨터 판독가능 매체.
- 정보 소스로부터 정보 추출에 사용될 패턴을 생성하기 위한 방법에 있어서,주제에 대응하는 적어도 2개의 요소를 포함하는 스트링의 세트를 설정하는 단계; 및상기 스트링의 세트에 대응하는 일반화된 추출 패턴의 세트를 생성하는 단계를 포함하고,상기 일반화된 추출 패턴은 적어도 2개의 요소, 워드, 및 적어도 하나의 선택 워드에 대한 위치의 표시를 포함하는 방법.
- 제9항에 있어서,상기 일반화된 추출 패턴의 세트로부터, 상기 스트링 세트 내에서의 빈도수 임계치를 만족시키지 않는 패턴들을 제거하는 단계를 더 포함하는 방법.
- 제9항에 있어서,상기 일반화된 추출 패턴의 세트로부터, 상기 일반화된 추출 패턴 내의 상기 적어도 2개의 요소 중의 한 요소에 인접한 표시를 포함하는 패턴들을 제거하는 단계를 더 포함하는 방법.
- 제9항에 있어서,상기 일반화된 추출 패턴의 세트로부터, 상기 표시에 의해 스킵될 워드의 수가 임계치보다 큰 패턴들을 제거하는 단계를 더 포함하는 방법.
- 제9항에 있어서,상기 일반화된 추출 패턴 세트 내의 일반화된 추출 패턴들을 순위화(ranking)하는 단계를 더 포함하는 방법.
- 제13항에 있어서,상기 순위화하는 단계는 각각의 일반화된 추출 패턴에 대한 정밀도 점수를 계산하는 단계를 더 포함하는 방법.
- 제13항에 있어서,상기 일반화된 추출 패턴의 세트로부터, 순위화 임계치를 만족시키지 않는 패턴들을 제거하는 단계를 더 포함하는 방법.
- 제9항에 있어서,특정 표시가 스킵할 워드의 개수를 결정하는 단계를 더 포함하는 방법.
- 정보 소스로부터 정보 추출에 사용될 패턴을 생성하는 방법에 있어서,주제에 대응하는 적어도 2개의 요소를 포함하는 스트링의 세트를 설정하는 단계;상기 스트링 세트 내에서 워드 및 적어도 2개의 요소를 포함하는 연속 패턴들을 식별하는 단계; 및식별된 연속 패턴로부터 일반화된 추출 패턴의 세트를 생성하는 단계를 포함하고,상기 일반화된 추출 패턴은 적어도 2개의 요소, 워드 및 와일드카드를 포함하고, 상기 와일드카드는 연속 패턴들의 조합을 표현하는 방법.
- 제17항에 있어서,상기 일반화된 추출 패턴의 세트로부터, 상기 스트링 세트 내에서의 빈도수 임계치를 만족시키지 않는 패턴들을 제거하는 단계를 더 포함하는 방법.
- 제17항에 있어서,상기 일반화된 추출 패턴의 세트로부터, 상기 일반화된 추출 패턴 내의 상기 적어도 2개의 요소 중의 한 요소에 인접한 와일드카드를 포함하는 패턴들을 제거하는 단계를 더 포함하는 방법.
- 제17항에 있어서,상기 일반화된 추출 패턴의 세트로부터, 상기 와일드카드에 의해 스킵될 워드의 수가 임계치보다 큰 패턴들을 제거하는 단계를 더 포함하는 방법.
- 제17항에 있어서,상기 일반화된 추출 패턴의 세트 내의 일반화된 추출 패턴들을 순위화하는 단계를 더 포함하는 방법.
- 제21항에 있어서,상기 순위화하는 단계는 각각의 일반화된 추출 패턴에 대한 정밀도 점수를 계산하는 단계를 더 포함하는 방법.
- 제21항에 있어서,상기 일반화된 추출 패턴의 세트로부터, 순위화 임계치를 만족시키지 않는 패턴들을 제거하는 단계를 더 포함하는 방법.
- 제17항에 있어서,특정 와일드카드가 스킵할 워드의 개수를 결정하는 단계를 더 포함하는 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/733,541 US7299228B2 (en) | 2003-12-11 | 2003-12-11 | Learning and using generalized string patterns for information extraction |
US10/733,541 | 2003-12-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050058189A true KR20050058189A (ko) | 2005-06-16 |
Family
ID=34523068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040093894A KR20050058189A (ko) | 2003-12-11 | 2004-11-17 | 정보 추출을 위한 일반화된 스트링 패턴의 학습 및 사용 |
Country Status (11)
Country | Link |
---|---|
US (1) | US7299228B2 (ko) |
EP (1) | EP1542138A1 (ko) |
JP (1) | JP2005174336A (ko) |
KR (1) | KR20050058189A (ko) |
CN (1) | CN1627300A (ko) |
AU (1) | AU2004229097A1 (ko) |
BR (1) | BRPI0404954A (ko) |
CA (1) | CA2487606A1 (ko) |
MX (1) | MXPA04011788A (ko) |
RU (1) | RU2004132977A (ko) |
TW (1) | TW200527229A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101586258B1 (ko) | 2014-09-30 | 2016-01-18 | 경북대학교 산학협력단 | 링크드 데이터 생성을 위한 패턴 충돌 해소 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3962382B2 (ja) * | 2004-02-20 | 2007-08-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 表現抽出装置、表現抽出方法、プログラム及び記録媒体 |
US7630968B2 (en) * | 2005-02-24 | 2009-12-08 | Kaboodle, Inc. | Extracting information from formatted sources |
US7606797B2 (en) * | 2005-02-24 | 2009-10-20 | Kaboodle, Inc. | Reverse value attribute extraction |
JP4645242B2 (ja) * | 2005-03-14 | 2011-03-09 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
WO2008151466A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
US8275803B2 (en) | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
US8332394B2 (en) * | 2008-05-23 | 2012-12-11 | International Business Machines Corporation | System and method for providing question and answers with deferred type evaluation |
CN102138141B (zh) * | 2008-09-05 | 2013-06-05 | 日本电信电话株式会社 | 近似比对装置、近似比对方法、程序及记录介质 |
US8447632B2 (en) * | 2009-05-29 | 2013-05-21 | Hyperquest, Inc. | Automation of auditing claims |
US8073718B2 (en) | 2009-05-29 | 2011-12-06 | Hyperquest, Inc. | Automation of auditing claims |
US8346577B2 (en) | 2009-05-29 | 2013-01-01 | Hyperquest, Inc. | Automation of auditing claims |
US8255205B2 (en) | 2009-05-29 | 2012-08-28 | Hyperquest, Inc. | Automation of auditing claims |
US8892550B2 (en) | 2010-09-24 | 2014-11-18 | International Business Machines Corporation | Source expansion for information retrieval and information extraction |
RU2498401C2 (ru) * | 2012-02-14 | 2013-11-10 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Способ обнаружения текстовых объектов |
US10614725B2 (en) | 2012-09-11 | 2020-04-07 | International Business Machines Corporation | Generating secondary questions in an introspective question answering system |
US9262938B2 (en) | 2013-03-15 | 2016-02-16 | International Business Machines Corporation | Combining different type coercion components for deferred type evaluation |
JP6201041B2 (ja) * | 2013-05-30 | 2017-09-20 | エンパイア テクノロジー ディベロップメント エルエルシー | 多人数同時参加型オンラインロールプレイングゲームをコントロールすること |
US9626594B2 (en) * | 2015-01-21 | 2017-04-18 | Xerox Corporation | Method and system to perform text-to-image queries with wildcards |
US10062208B2 (en) | 2015-04-09 | 2018-08-28 | Cinemoi North America, LLC | Systems and methods to provide interactive virtual environments |
US11729120B2 (en) * | 2017-03-16 | 2023-08-15 | Microsoft Technology Licensing, Llc | Generating responses in automated chatting |
US10620945B2 (en) * | 2017-12-21 | 2020-04-14 | Fujitsu Limited | API specification generation |
JP6605105B1 (ja) * | 2018-10-15 | 2019-11-13 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
US11023095B2 (en) | 2019-07-12 | 2021-06-01 | Cinemoi North America, LLC | Providing a first person view in a virtual world using a lens |
US10817576B1 (en) * | 2019-08-07 | 2020-10-27 | SparkBeyond Ltd. | Systems and methods for searching an unstructured dataset with a query |
JP7229144B2 (ja) * | 2019-10-11 | 2023-02-27 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5606690A (en) * | 1993-08-20 | 1997-02-25 | Canon Inc. | Non-literal textual search using fuzzy finite non-deterministic automata |
US6785417B1 (en) * | 2000-08-22 | 2004-08-31 | Microsoft Corp | Method and system for searching for words in ink word documents |
-
2003
- 2003-12-11 US US10/733,541 patent/US7299228B2/en not_active Expired - Fee Related
-
2004
- 2004-10-29 TW TW093133116A patent/TW200527229A/zh unknown
- 2004-11-09 EP EP04026563A patent/EP1542138A1/en not_active Withdrawn
- 2004-11-10 BR BR0404954-3A patent/BRPI0404954A/pt not_active Application Discontinuation
- 2004-11-10 CA CA002487606A patent/CA2487606A1/en not_active Abandoned
- 2004-11-11 RU RU2004132977/09A patent/RU2004132977A/ru not_active Application Discontinuation
- 2004-11-15 AU AU2004229097A patent/AU2004229097A1/en not_active Abandoned
- 2004-11-17 KR KR1020040093894A patent/KR20050058189A/ko not_active Application Discontinuation
- 2004-11-26 MX MXPA04011788A patent/MXPA04011788A/es unknown
- 2004-12-07 JP JP2004354479A patent/JP2005174336A/ja not_active Withdrawn
- 2004-12-10 CN CNA2004101022625A patent/CN1627300A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101586258B1 (ko) | 2014-09-30 | 2016-01-18 | 경북대학교 산학협력단 | 링크드 데이터 생성을 위한 패턴 충돌 해소 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
MXPA04011788A (es) | 2005-07-05 |
AU2004229097A1 (en) | 2005-06-30 |
US20050131896A1 (en) | 2005-06-16 |
BRPI0404954A (pt) | 2005-08-30 |
CA2487606A1 (en) | 2005-06-11 |
US7299228B2 (en) | 2007-11-20 |
TW200527229A (en) | 2005-08-16 |
RU2004132977A (ru) | 2006-04-27 |
CN1627300A (zh) | 2005-06-15 |
JP2005174336A (ja) | 2005-06-30 |
EP1542138A1 (en) | 2005-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7299228B2 (en) | Learning and using generalized string patterns for information extraction | |
CA2483217C (en) | System for rating constructed responses based on concepts and a model answer | |
US8595245B2 (en) | Reference resolution for text enrichment and normalization in mining mixed data | |
De Belder et al. | Text simplification for children | |
US8799776B2 (en) | Semantic processor for recognition of whole-part relations in natural language documents | |
Bos et al. | An annotated corpus for the analysis of VP ellipsis | |
US20150127323A1 (en) | Refining inference rules with temporal event clustering | |
US9697099B2 (en) | Real-time or frequent ingestion by running pipeline in order of effectiveness | |
Casalnuovo et al. | Studying the difference between natural and programming language corpora | |
US10430713B2 (en) | Predicting and enhancing document ingestion time | |
EP1590724A2 (en) | System and method for semantic software analysis | |
Ferreira et al. | Improving NLTK for processing Portuguese | |
Bakari et al. | A novel semantic and logical-based approach integrating RTE technique in the Arabic question–answering | |
Testa et al. | We Understand Elliptical Sentences, and Language Models should Too: A New Dataset for Studying Ellipsis and its Interaction with Thematic Fit | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5228451B2 (ja) | 文書検索装置 | |
Litvak et al. | Multilingual Text Analysis: Challenges, Models, and Approaches | |
McShane et al. | Semantically rich human-aided machine annotation | |
Kuboň | Problems of robust parsing of Czech | |
Srivastava et al. | Different German and English coreference resolution models for multi-domain content curation scenarios | |
Duma | RDFa Editor for Ontological Annotation | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
Ferilli et al. | On Frequency-Based Approaches to Learning Stopwords and the Reliability of Existing Resources—A Study on Italian Language | |
Sedlácek et al. | Automatic Processing of Czech Inflectional and Derivative Morphology | |
Ehsan et al. | Using Local Text Similarity in Pairwise Document Analysis for Monolingual Plagiarism Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |