KR20100072388A - 대역어 추출 장치 및 그 방법 - Google Patents

대역어 추출 장치 및 그 방법 Download PDF

Info

Publication number
KR20100072388A
KR20100072388A KR1020080130781A KR20080130781A KR20100072388A KR 20100072388 A KR20100072388 A KR 20100072388A KR 1020080130781 A KR1020080130781 A KR 1020080130781A KR 20080130781 A KR20080130781 A KR 20080130781A KR 20100072388 A KR20100072388 A KR 20100072388A
Authority
KR
South Korea
Prior art keywords
band
word
news
extracted
web
Prior art date
Application number
KR1020080130781A
Other languages
English (en)
Inventor
박은진
김영길
최승권
김창현
서영애
양성일
이기영
권오욱
노윤형
윤창호
김운
박상규
오영순
황금하
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080130781A priority Critical patent/KR20100072388A/ko
Publication of KR20100072388A publication Critical patent/KR20100072388A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 대역어 추출 기법에 관한 것으로, 이를 위하여 본 발명은, 빈도가 높은 순서대로 전문 번역가가 직접 대역어를 포함하는 해당 대역쌍을 입력하거나, 혹은 병렬 말뭉치를 이용하여 대역어를 추정하는 종래 방법과는 달리, 수집된 웹 뉴스를 이용하여 괄호 기반 및 인용 기호 기반으로 문장 분리, 불용어 제거, 좌우 단어쌍 추출 및 정렬, LCS 알고리즘을 통해 단어 경계 추출을 수행하고, 대역어를 기준으로 정렬된 단어쌍의 출현 빈도에 따라 한영 대역쌍을 추출함으로써, 추출된 한영 대역쌍을 대역 사전에 효과적으로 반영할 수 있어 신조어 또는 외래어에 대한 대역 사전을 쉽게 구축할 수 있는 것이다.
자동 번역 시스템, 대역 사전

Description

대역어 추출 장치 및 그 방법{PAGINAL TRANSLATION WORD EXTRACTION APPARATUS AND ITS METHOD}
본 발명은 대역어 추출 기법에 관한 것으로, 더욱 상세하게는 웹 신문에 대한 자동 번역 시스템에서 임의의 용어에 대한 대역어를 추출하는데 적합한 대역어 추출 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-03, 과제명: 응용 특화 한중영 자동번역 기술개발].
잘 알려진 바와 같이, 웹 신문 등과 같은 각종 기사에서 일반 독자들이 이해하기에 모호한 용어, 신조어 등과 같은 용어의 경우 예를 들면, 괄호, 인용 기호 등을 이용하여 해당 용어를 설명한다.
이러한 용어들 중에 외래어, 신조어 등의 경우 해당 영어 단어를 예를 들면, 괄호 등을 이용하여 표기함으로써, 일반 독자들의 이해를 돕고 있으며, 이러한 외래어와 신조어는 다수의 신문 기사에서 빈번히 언급될 수 있다. 특히, 번역 사전에 등록되어 있지 않은 신조어의 경우 해당 용어가 특정 시점(예를 들면, 기술 용어에 대한 논문 발표 시점 등)에 자주 사용된다.
한편, 자동 번역 시스템에서 사용되는 대역 사전은 임의의 한국어 원문에서 동일한 뜻을 가진 대역쌍을 저장해 둔 사전을 의미하는 것으로, 예를 들면, 한국어 원문의 "사전"은 영어로 번역하면 "dictionary"라는 단어가 되고, 이러한 단어를 대역어라고 하며, 대역 사전에서는 "사전-dictionary"라는 대역쌍으로 저장된다.
그리고, 웹 문서에 대한 자동 번역 시스템에서 중요한 요소인 대역 사전은 번역 시스템의 성능에 직접적인 영향이 있는데, 웹 뉴스, 웹 기사 등에는 새로운 용어, 고유 명사, 전문 용어, 복합 명사 등과 같은 용어들이 자주 사용되고, 이러한 용어들은 대역 사전에 등록되어 있지 않은 경우가 많이 발생하며, 일반적으로 자동 번역 시스템에서는 이러한 용어를 고유 명사로 취급하여 예를 들면, 발음 표기 규칙 등에 따라 대역어를 생성하기 때문에, 이러한 대역어는 자연스럽지 못한 문장으로 번역될 수 있으며, 그 의미도 불확실하게 될 수 있다.
상술한 바와 같은 자동 번역 시스템에서 사용되는 한글-영어 대역 사전은 웹에서 번역 대상이 되는 문서를 수집하고, 수집된 문서에서 명사를 추출한 후에, 빈도가 높은 순서대로 전문 번역가가 직접 대역어를 포함하는 해당 대역쌍을 입력하여 구축하거나, 혹은 병렬 말뭉치를 이용하여 대역어를 추정하고, 이를 전문 번역 가가 직접 검토하여 그 대역쌍을 사전에 등록하는 방식으로 구축하기 때문에 대역 사전을 구축하는데 시간과 비용이 많이 소요되는 문제점이 있었다.
이에 따라, 본 발명은 웹 뉴스를 수집한 후, 수집된 웹 뉴스에서 괄호 및 인용 기호 내의 신조어 또는 외래어에 대한 대역어를 추출함으로써, 추출된 대역어를 이용하여 대역 사전을 구축할 수 있는 대역어 추출 장치 및 그 방법을 제공하고자 한다.
일 관점에서 본 발명은, 실시간으로 RSS(really simple syndication) 뉴스 리스트를 수집하여 그에 대응하는 웹 뉴스를 추출하는 웹 뉴스 수집부와, 상기 추출된 웹 뉴스에서 괄호 및 인용 기호를 기반으로 문장을 분리하고, LCS(longest common substring) 알고리즘을 통해 상기 괄호에 대응하는 단어 경계를 추출한 후에, 상기 추출된 단어 경계에 따라 대역쌍을 추출하는 대역어 추출부를 포함하는 대역어 추출 장치를 제공한다.
다른 관점에서 본 발명은, 실시간으로 RSS(really simple syndication) 뉴스 리스트를 수집하여 그에 대응하는 웹 뉴스를 추출하는 단계와, 상기 추출된 웹 뉴스에서 괄호 및 인용 기호 기반으로 문장을 분리하는 단계와, 상기 분리된 문장에 대해 LCS(longest common substring) 알고리즘을 이용하여 단어 경계를 추출하는 단계와, 상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 대역쌍을 추출하는 단계와, 상기 추출된 대역쌍에 대한 필터링을 수행한 후에, 대역 사전 에 반영하는 단계를 포함하는 대역어 추출 방법을 제공한다.
본 발명은, 빈도가 높은 순서대로 전문 번역가가 직접 대역어를 포함하는 해당 대역쌍을 입력하거나, 혹은 병렬 말뭉치를 이용하여 대역어를 추정하는 종래 방법과는 달리, 웹 뉴스를 실시간으로 수집하고, 수집된 웹 뉴스에 대해 괄호 및 인용 기호를 기반으로 문장을 분리한 후에, 불용어 제거, 단어쌍 정렬, LCS 알고리즘을 통해 검출된 단어 경계에 따라 괄호 안의 대역어를 기반으로 정렬시켜 대역쌍을 추출하며, 이러한 대역쌍에 대한 필터링 및 오류 검사를 수행함으로써, 신조어 또는 외래어에 대응하는 대역어를 효과적으로 추출할 수 있으며, 추출된 대역어를 포함하는 대역쌍을 대역 사전에 반영할 수 있다.
본 발명은, 중복 기사를 제거한 웹 뉴스를 이용하여 괄호 기반 및 인용 기호 기반으로 문장 분리, 불용어 제거, 좌우 단어쌍 추출 및 정렬, LCS 알고리즘을 통해 단어 경계 추출을 수행하고, 대역어를 기준으로 정렬된 단어쌍의 출현 빈도에 따라 한영 대역쌍 추출하여 이를 대역 사전에 반영한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.
도 1은 본 발명의 실시 예에 따라 수집된 웹 뉴스에서 신조어 또는 외래어에 대응하는 대역쌍을 추출하는 대역어 추출 장치의 블록 구성도로서, 웹 뉴스 수집부(102), 대역어 추출부(104), 용어 사전 데이터베이스(106), 한영 대역 사전 데이터베이스(108) 등을 포함한다. 이하에서는, 한글을 영어로 번역하는 자동 번역 시스템에서 대역어를 추출하는 것으로 하여 설명하지만, 반드시 이에 국한되는 것은 아님은 물론이다.
도 1을 참조하면, 웹 뉴스 수집부(102)는 다수의 신문사들이 자신의 홈페이지, 대형 포털 사이트 등을 통해 실시간으로 제공되는 웹 뉴스에 대한 RSS(really simple syndication, 이하 ‘RSS’라 함) 뉴스 리스트를 수집하고, 수집된 RSS 뉴스 리스트에서 웹 뉴스 URL(uniform resource locator, 이하 "URL"이라 함) 목록을 추출하며, 추출된 웹 뉴스 URL 목록을 통해 중복되지 않은 웹 뉴스를 수집하고, 수집된 웹 뉴스에 대해 HTML 태그(hyper text markup language tag, 이하 "HTML 태그"함)를 제거한 웹 뉴스를 추출한다.
다음에, 대역어 추출부(104)는 추출된 웹 뉴스에서 중복 기사를 제거한 후, 괄호 기반 및 인용 기호 기반으로 문장을 분리하고, 괄호 내의 불용어를 제거하며, 괄호 내 좌우 단어쌍을 추출하여 정렬하고, LCS(longest common substring, 이하 "LCS"라 함) 알고리즘을 통해 괄호에 대응하는 단어 경계를 추출한 후에, 괄호 내의 대역어를 기준으로 추출된 단어쌍을 정렬하고, 그 출현 빈도에 따라 한영 대역쌍을 추출하며, 추출된 한영 대역쌍에 대해 용어 사전 데이터베이스(106) 및 한영 대역 사전 데이터베이스(108)를 참조하여 대역쌍의 중복 여부에 따라 필터링한 후에, 해당 한영 대역쌍에 대한 오류를 검사하여 한영 대역 사전 데이터베이스(108)에 반영한다.
한편, 용어 사전 데이터베이스(106)는 신규 용어, 고유 명사, 전문 용어, 복합 명사 등과 같은 용어가 데이터베이스화되어 저장된 것이며, 한영 대역 사전 데이터베이스(108)는 한글에 대응하는 영어 대역어가 한영 대역쌍으로 데이터베이스화되어 저장된 것으로, 이러한 용어들과 한영 대역쌍들은 필요에 따라 추출되어 대역어 추출부(104)로 제공된다.
다음에, 상술한 바와 같은 구성을 갖는 대역어 추출 장치에서 다수의 신문사들의 홈페이지 또는 대형 포털 사이트에서 웹 뉴스에 대한 RSS 뉴스 리스트를 수집하고, 수집된 RSS 뉴스 리스트에서 웹 뉴스 URL 목록을 추출하며, 추출된 웹 뉴스 URL 목록을 통해 중복되지 않은 웹 뉴스를 수집하고, 수집된 웹 뉴스에 대해 HTML 태그를 제거한 웹 뉴스를 추출하는 웹 뉴스 수집부에 대해 설명한다.
도 2는 본 발명의 실시 예에 따라 대역어를 추출하기 위한 웹 뉴스를 수집하는 웹 뉴스 수집부의 블록 구성도로서, 웹 뉴스 수집부(102)는 RSS 크롤러(really simple syndication crawler, 202), 링크 파서기(link parser, 204), 뉴스 크롤러(news crawler, 206), HTML 파서기(hyper text markup language parser, 208) 등을 포함할 수 있다.
도 2를 참조하면, RSS 크롤러(202)는 다수의 신문사가 자신의 홈페이지, 대형 포털 사이트 등을 통해 제공하는 웹 페이지를 포함하는 RSS 뉴스 리스트를 수집 한다. 여기에서, RSS 뉴스 리스트는 예를 들면, 해당 웹 사이트의 RSS 서비스 페이지 등에서 검출할 수 있으며, 수집된 RSS 뉴스 리스트는 기 설정된 시간(예를 들면, 6시간 등) 간격으로 갱신될 수 있고, 중복된 RSS 뉴스 리스트는 제거될 수 있다.
그리고, 링크 파서기(204)는 RSS 크롤러(202)를 통해 수집된 RSS 뉴스 리스트에서 웹 뉴스 URL 목록을 추출한다. 여기에서, 웹 뉴스 URL 목록은 RSS 뉴스 리스트에 포함된 웹 페이지로부터 추출될 수 있다.
다음에, 뉴스 크롤러(206)는 링크 파서기(204)를 통해 추출된 웹 뉴스 URL 목록에 개시되어 있는 웹 뉴스를 수집한다. 여기에서, 수집되는 웹 뉴스는 기존에 수집된 웹 뉴스와 중복되지 않도록 수집될 수 있다.
또한, HTML 파서기(208)는 수집된 웹 뉴스의 기사에서 HTML 태그를 제거한 웹 뉴스를 추출한다. 여기에서 추출된 웹 뉴스는 예를 들면, 한글, 영어 등을 포함하는 뉴스 기사를 포함할 수 있다.
다음에, 상술한 바와 같은 구성을 갖는 대역어 추출 장치에서 중복 기사를 제거한 웹 뉴스를 이용하여 괄호 기반 및 인용 기호 기반으로 문장 분리, 불용어 제거, 좌우 단어쌍 추출 및 정렬, LCS 알고리즘을 통해 단어 경계 추출을 수행하고, 대역어를 기준으로 정렬된 단어쌍의 출현 빈도에 따라 한영 대역쌍 추출하며, 추출된 한영 대역쌍에 대한 필터링을 수행한 후에, 대역 사전에 반영하는 대역어 추출부에 대해 설명한다.
도 3은 본 발명의 실시 예에 따라 수집된 웹 뉴스에서 신조어 또는 외래어에 대응하는 대역쌍을 추출하는 대역어 추출부의 블록 구성도로서, 용어 추출기(term extractior, 302), 신규 단어 필터(unknown word filter, 304), 신규 용어 감수기(term extractor workbench, 306) 등을 포함할 수 있다.
도 3을 참조하면, 용어 추출기(302)는 웹 뉴스에서 중복 기사를 제거한 후, 괄호 기반 및 인용 기호 기반으로 문장을 분리하고, 괄호 내의 불용어를 제거하며, 괄호 내 좌우 단어쌍을 추출 및 정렬하고, LCS 알고리즘을 통해 괄호에 대응하는 단어 경계를 추출한 후에, 괄호 내의 대역어를 기준으로 추출된 대역쌍을 정렬하고, 그 출현 빈도에 따라 한영 대역쌍을 추출한다.
여기에서, 용어 추출기(302)는 웹 뉴스에서 중복된 기사가 있는 경우 문장 전체가 신조어로 추출되기 때문에 중복된 기사를 모두 제거하고, 닫힘 괄호 ")", 인용 기호(" ")를 기준으로 적어도 하나의 문장을 분리하며, 분리된 문장에서 괄호 또는 인용 기호 내에 표기된 웹 주소, 도량형 단위(예를 들면, ㎕, ㎣, ㎛, ㎟, ㎎ 등), 통계 비율(예를 들면, #, % 등), 한글-한글 단어쌍 등과 같은 불용어를 제거할 수 있다.
또한, 용어 추출기(302)는 괄호 내 좌우 단어쌍을 정렬하는데, 예를 들면, "ETRI ( 한국 전자 통신 연구원 )" 등과 같은 단어쌍을 추출하여 "한국 전자 통신 연구원-ETRI" 등과 같이 좌우로 정렬하고, LCS 알고리즘을 이용하여 괄호 앞 단어 경계를 추출한 후에, 이러한 괄호 앞 단어 경계에 따라 추출된 대역쌍을 괄호 내의 대역어를 기준으로 정렬하고, 출현 빈도를 기준으로 출현 빈도가 높은 순위에 따라 한영 대역쌍을 추출할 수 있다.
그리고, 신규 단어 필터(304)는 추출된 한영 대역쌍에 대해 용어 사전 데이터베이스(106) 및 한영 대역 사전 데이터베이스(108)를 참조하여 해당 한영 대역쌍의 존재 여부를 체크한 후에, 해당 한영 대역쌍이 존재할 경우에는 해당 한영 대역쌍을 제거한다.
다음에, 신규 용어 감수기(306)는 신규 단어 필터(304)를 통해 해당 한영 대역쌍이 존재하지 않은 신규 용어일 경우 해당 한영 대역쌍에 대해 그래픽 인터페이스(GUI : graphic user interface) 등을 통한 사용자로부터의 입력에 따라 오류를 검사한 후에, 해당 한영 대역쌍을 한영 대역 사전 데이터베이스(108)에 반영한다.
다음에, 상술한 바와 같은 구성을 갖는 대역어 추출 장치에서 웹 뉴스를 수집하고, 수집된 웹 뉴스에서 중복 기사를 제거하며, 그 웹 뉴스에서 괄호 기반 및 인용 기호 기반으로 문장을 분리한 후에, LCS 알고리즘을 통해 단어 경계를 추출하고, 대역어를 기준으로 정렬된 단어쌍의 출현 빈도에 따라 한영 대역쌍 추출하며, 추출된 한영 대역쌍에 대한 필터링을 수행한 후에, 대역 사전에 반영하는 과정에 대해 설명한다.
도 4는 본 발명의 일 실시 예에 따라 수집된 웹 뉴스에서 신조어 또는 외래어에 대응하는 대역쌍을 추출하는 과정을 도시한 플로우차트이다.
도 4를 참조하면, 웹 뉴스 수집부(102)의 RSS 크롤러(202)에서는 신문사 홈페이지, 대형 포털 사이트 등을 통해 제공하는 RSS 뉴스 리스트를 수집한다(단계402). 여기에서, 수집된 RSS 뉴스 리스트는 기 설정된 시간(예를 들면, 6시간 등) 간격으로 갱신될 수 있고, 중복된 RSS 뉴스 리스트는 제거될 수 있다.
그리고, 웹 뉴스 수집부(102)의 링크 파서기(204)에서는 수집된 RSS 뉴스 리스트에에 포함된 웹 페이지로부터 웹 뉴스 URL 목록을 추출한다(단계404).
다음에, 웹 뉴스 수집부(102)의 뉴스 크롤러(206)에서는 추출된 웹 뉴스 URL 목록에 개시되어 있는 웹 뉴스를 기존에 수집된 웹 뉴스와의 중복 여부에 따라 중복된 웹 뉴스를 제외하여 수집한다(단계406).
또한, 웹 뉴스 수집부(102)의 HTML 파서기(208)에서는 수집된 웹 뉴스의 기사에서 HTML 태그를 제거한 웹 뉴스를 추출한다(단계408).
한편, 대역어 추출부(104)의 용어 추출기(302)에서는 웹 뉴스에서 중복 기사를 제거한 후, 괄호 기반 및 인용 기호 기반으로 문장을 분리하고, 괄호 및 인용 기호 내의 불용어를 제거하며, 괄호 내 좌우 단어쌍을 추출 및 정렬하고, LCS 알고리즘을 통해 괄호에 대응하는 단어 경계를 추출한 후에, 괄호 내의 대역어를 기준으로 추출된 대역쌍을 정렬하고, 그 출현 빈도에 따라 한영 대역쌍을 추출한다(단계410).
그리고, 대역어 추출부(104)의 신규 단어 필터(304)에서는 추출된 한영 대역쌍에 대해 용어 사전 데이터베이스(106) 및 한영 대역 사전 데이터베이스(108)를 참조하여 해당 한영 대역쌍이 존재하는지를 체크한다(단계412).
상기 단계(412)에서의 체크 결과, 해당 한영 대역쌍이 존재할 경우 해당 한영 대역쌍을 제거한다(단계414)
한편, 상기 단계(412)에서의 체크 결과, 해당 한영 대역쌍이 존재하지 않을 경우(즉, 신규 용어일 경우) 대역어 추출부(104)의 신규 용어 감수기(306)에서는 해당 한영 대역쌍에 대해 예를 들면, 그래픽 인터페이스 등을 통한 사용자로부터의 입력에 따라 오류를 검사한다(단계416).
이어서, 대역어 추출부(104)의 신규 용어 감수기(306)에서는 오류 검사를 완료한 해당 한영 대역쌍을 한영 대역 사전 데이터베이스(108)에 반영(적용)한다(단계418).
따라서, 본 발명에서는 웹 뉴스를 실시간으로 수집하고, 수집된 웹 뉴스에 대해 괄호 및 인용 기호를 기반으로 문장을 분리한 후에, 불용어 제거, 단어쌍 정렬, LCS 알고리즘을 통해 검출된 단어 경계에 따라 괄호 안의 대역어를 기반으로 대역쌍을 정렬시켜 한영 대역쌍을 추출하며, 이러한 한영 대역쌍에 대한 필터링 및 오류 검사를 수행함으로써, 신조어 또는 외래어에 대응하는 대역어를 효과적으로 추출할 수 있으며, 추출된 대역어를 포함하는 한영 대역쌍을 한영 대역 사전에 반영할 수 있다.
다음에, 상술한 바와 같이 중복 기사가 제거된 웹 뉴스를 이용하여 괄호 기반 및 인용 기호 기반으로 문장 분리, 불용어 제거, 좌우 단어쌍 추출 및 정렬, LCS 알고리즘을 통해 단어 경계 추출을 수행하고, 대역어를 기준으로 정렬된 단어쌍의 출현 빈도에 따라 한영 대역쌍 추출하는 과정에 대해 설명한다.
도 5는 본 발명의 다른 실시 예에 따라 괄호 및 인용 기호를 기준으로 신조어 또는 외래어에 대응하는 대역쌍을 추출하는 과정을 도시한 플로우차트이다.
도 5를 참조하면, 용어 추출기(302)에서는 웹 뉴스 수집부(102)의 HTML 파서기(208)로부터 웹 뉴스 기사가 입력되면(단계502), 입력된 웹 뉴스에서 중복된 기 사가 있는 경우 중복된 기사를 모두 제거한다(단계504).
그리고, 용어 추출기(302)에서는 닫힘 괄호 ")", 인용 기호(" ")를 기준으로 적어도 하나의 문장을 분리한다(단계506). 예를 들면, "통신 장비 전문업체 오소트론(대표 이경국)은 자체 개발한 2.4GHz 첩 스펙트럼 확산(Chirp-Spread-Spectrum, CSS) 기술이 지난달 말 IEEE 표준화 위원회 심의에서 물리 계층의 새 표준으로 최종 승인됐다고 발표했다."라는 문장에서 닫힘 괄호 ")"를 기준으로 "통신 장비 전문업체 오소트론(대표 이경국)"이 하나의 문장으로 분리되고, "은 자체 개발한 2.4GHz 첩 스펙트럼 확산(Chirp-Spread-Spectrum, CSS)"가 두 번째 문장으로 분리되며, "기술이 지난달 말 IEEE 표준화 위원회 심의에서 물리 계층의 새 표준으로 최종 승인됐다고 발표했다."가 세 번째 문장으로 분리될 수 있으며, 이러한 문장들 중에서 세 번째 문장의 경우 문장 내에 괄호가 없기 때문에 삭제할 수 있다.
다음에, 용어 추출기(302)에서는 분리된 문장에서 괄호 내에 표기된 웹 주소, 도량형 단위(예를 들면, ㎕, ㎣, ㎛, ㎟, ㎎ 등), 통계 비율(예를 들면, #, % 등), 한글-한글 단어쌍 등과 같은 불용어를 제거한다(단계508).
또한, 용어 추출기(302)에서는 괄호 내 좌우 단어쌍을 정렬한다(단계510). 예를 들면, "ETRI ( 한국 전자 통신 연구원 )" 등과 같은 단어쌍을 추출하여 "한국 전자 통신 연구원-ETRI" 등과 같이 좌우로 정렬할 수 있다.
그리고, 용어 추출기(302)에서는 LCS 알고리즘을 이용하여 괄호 앞 단어 경계를 추출한다(단계512).
예를 들면, "(1) ... KRG는_국내기업들의_전사자원관리(ERP), (2) ... 중견 기업을_대상으로_한_전사자원관리(ERP), (3) ... 중국에서_전사자원관리(ERP), (4) ... 성장을_거듭해왔던_전사자원관리(ERP)"의 문장이 있을 경우 LCS 알고리즘을 (1,2), (1,3), (1,4), (2,3), (2,4), (3,4)의 순으로 적용하면, "전사자원관리(ERP)"가 추출될 수 있다.
또한, 용어 추출기(302)에서는 추출된 괄호 앞 단어 경계에 따라 추출된 대역쌍(예를 들면, 전사자원관리(ERP) 등)을 괄호 내의 대역어(예를 들면, ERP 등)를 기준으로 정렬한다(단계514).
이어서, 용어 추출기(302)에서는 출현 빈도를 기준으로 출현 빈도가 높은 순위에 따라 한영 대역쌍(예를 들면, 전사자원관리-ERP 등)을 추출한다(단계516).
따라서, 중복 기사를 제거한 웹 뉴스를 이용하여 괄호 기반 및 인용 기호 기반으로 문장 분리, 불용어 제거, 좌우 단어쌍 추출 및 정렬, LCS 알고리즘을 통해 단어 경계 추출을 수행하고, 대역어를 기준으로 정렬된 단어쌍의 출현 빈도에 따라 효과적으로 한영 대역쌍 추출할 수 있다.
이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.
도 1은 본 발명의 실시 예에 따라 수집된 웹 뉴스에서 신조어 또는 외래어에 대응하는 대역쌍을 추출하는 대역어 추출 장치의 블록 구성도,
도 2는 본 발명의 실시 예에 따라 대역어를 추출하기 위한 웹 뉴스를 수집하는 웹 뉴스 수집부의 블록 구성도,
도 3은 본 발명의 실시 예에 따라 수집된 웹 뉴스에서 신조어 또는 외래어에 대응하는 대역쌍을 추출하는 대역어 추출부의 블록 구성도,
도 4는 본 발명의 일 실시 예에 따라 수집된 웹 뉴스에서 신조어 또는 외래어에 대응하는 대역쌍을 추출하는 과정을 도시한 플로우차트,
도 5는 본 발명의 다른 실시 예에 따라 괄호 및 인용 기호를 기준으로 신조어 또는 외래어에 대응하는 대역쌍을 추출하는 과정을 도시한 플로우차트.
<도면의 주요부분에 대한 부호의 설명>
102 : 웹 뉴스 수집부 104 : 대역어 추출부
106 : 용어 사전 데이터베이스 108 : 한영 대역 사전 데이터베이스
202 : RSS 크롤러 204 : 링크 파서기
206 : 뉴스 크롤러 208 : HTML 파서기
302 : 용어 추출기 304 : 신규 단어 필터
306 : 신규 용어 감수기

Claims (12)

  1. 실시간으로 RSS(really simple syndication) 뉴스 리스트를 수집하여 그에 대응하는 웹 뉴스를 추출하는 웹 뉴스 수집부와,
    상기 추출된 웹 뉴스에서 괄호 및 인용 기호를 기반으로 문장을 분리하고, LCS(longest common substring) 알고리즘을 통해 상기 괄호에 대응하는 단어 경계를 추출한 후에, 상기 추출된 단어 경계에 따라 대역쌍을 추출하는 대역어 추출부
    를 포함하는 대역어 추출 장치.
  2. 제 1 항에 있어서,
    상기 웹 뉴스 수집부는,
    상기 RSS 뉴스 리스트를 수집하는 RSS 크롤러와,
    상기 수집된 RSS 뉴스 리스트에서 웹 뉴스 URL 목록을 추출하는 링크 파서기와,
    상기 추출된 웹 뉴스 URL 목록에서 상기 웹 뉴스를 수집하는 뉴스 크롤러와,
    상기 수집된 웹 뉴스에서 HTML 태그를 제거하는 HTML 파서기
    를 포함하는 대역어 추출 장치.
  3. 제 2 항에 있어서,
    상기 RSS 뉴스 리스트는, 기 설정된 시간 간격으로 갱신되고, 중복될 경우 제거하는 대역어 추출 장치.
  4. 제 1 항에 있어서,
    상기 대역어 추출부는,
    상기 추출된 웹 뉴스 기사에서 중복 기사를 제거하고, 상기 문장을 분리한 후에, 상기 괄호 내의 불용어를 제거하며, 상기 괄호 내 좌우 단어쌍을 추출 및 정렬하고, 상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 정렬하고, 그 출현 빈도에 따라 상기 대역쌍을 추출하는 용어 추출기와,
    상기 추출된 대역쌍이 용어 사전 데이터베이스 및 대역 사전 데이터베이스에 존재하는지의 여부에 따라 상기 대역쌍을 선택 삭제하는 신규 단어 필터와,
    상기 대역쌍이 존재하지 않은 경우, 상기 대역쌍에 대한 오류 검사를 수행한 후에, 상기 대역 사전 데이터베이스에 반영하는 신규 용어 감수기
    를 포함하는 대역어 추출 장치.
  5. 제 4 항에 있어서,
    상기 용어 추출기는, 웹 주소, 도량형 단위, 통계 비율 및 한글-한글 단어쌍 을 포함하는 상기 불용어를 제거하는 대역어 추출 장치.
  6. 제 4 항에 있어서,
    상기 신규 단어 필터는, 상기 대역쌍이 상기 용어 사전 데이터베이스 또는 대역 사전 데이터베이스에 존재할 경우 상기 대역쌍을 삭제하는 대역어 추출 장치.
  7. 실시간으로 RSS(really simple syndication) 뉴스 리스트를 수집하여 그에 대응하는 웹 뉴스를 추출하는 단계와,
    상기 추출된 웹 뉴스에서 괄호 및 인용 기호 기반으로 문장을 분리하는 단계와,
    상기 분리된 문장에 대해 LCS(longest common substring) 알고리즘을 이용하여 단어 경계를 추출하는 단계와,
    상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 대역쌍을 추출하는 단계와,
    상기 추출된 대역쌍에 대한 필터링을 수행한 후에, 대역 사전에 반영하는 단계
    를 포함하는 대역어 추출 방법.
  8. 제 7 항에 있어서,
    상기 웹 뉴스를 추출하는 단계는,
    상기 RSS 뉴스 리스트를 수집하는 단계와,
    수집된 상기 RSS 뉴스 리스트에서 웹 뉴스 URL 목록을 추출하는 단계와,
    상기 추출된 웹 뉴스 URL 목록에서 상기 웹 뉴스를 수집하는 단계와,
    상기 수집된 웹 뉴스에서 HTML 태그를 제거하는 단계
    를 포함하는 대역어 추출 방법.
  9. 제 7 항에 있어서,
    상기 단어 경계를 추출하는 단계는,
    상기 분리된 문장에서 상기 괄호 내의 불용어를 제거하는 단계와,
    상기 괄호 내 좌우 단어쌍을 추출 및 정렬하는 단계와,
    상기 괄호에 따른 상기 단어 경계를 추출하는 단계
    를 포함하는 대역어 추출 방법.
  10. 제 7 항에 있어서,
    상기 대역쌍을 추출하는 단계는,
    상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 정렬하는 단계와,
    상기 대역어를 기준으로 정렬한 후에, 그 출현 빈도에 따라 상기 대역쌍을 추출하는 단계
    를 포함하는 대역어 추출 방법.
  11. 제 7 항에 있어서,
    상기 대역 사전에 반영하는 단계는,
    상기 추출된 대역쌍이 용어 사전 및 대역 사전에 존재하는지의 여부에 따라 상기 대역쌍을 선택 삭제하는 단계와,
    상기 대역쌍이 존재하지 않은 경우, 상기 대역쌍에 대한 오류 검사를 수행한 후에, 상기 대역 사전에 반영하는 단계
    를 포함하는 대역어 추출 방법.
  12. 제 11 항에 있어서,
    상기 대역쌍을 선택 삭제하는 단계는, 상기 대역쌍이 상기 용어 사전 또는 대역 사전에 존재할 경우 상기 대역쌍을 삭제하는 대역어 추출 방법.
KR1020080130781A 2008-12-22 2008-12-22 대역어 추출 장치 및 그 방법 KR20100072388A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080130781A KR20100072388A (ko) 2008-12-22 2008-12-22 대역어 추출 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080130781A KR20100072388A (ko) 2008-12-22 2008-12-22 대역어 추출 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20100072388A true KR20100072388A (ko) 2010-07-01

Family

ID=42635579

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080130781A KR20100072388A (ko) 2008-12-22 2008-12-22 대역어 추출 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20100072388A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399933A (zh) * 2013-08-08 2013-11-20 人民搜索网络股份公司 一种抓取网络平面媒体的网页内容的方法及系统
CN108647202A (zh) * 2018-04-11 2018-10-12 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399933A (zh) * 2013-08-08 2013-11-20 人民搜索网络股份公司 一种抓取网络平面媒体的网页内容的方法及系统
CN103399933B (zh) * 2013-08-08 2017-01-18 人民搜索网络股份公司 一种抓取网络平面媒体的网页内容的方法及系统
CN108647202A (zh) * 2018-04-11 2018-10-12 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108647202B (zh) * 2018-04-11 2022-09-06 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Shaalan et al. NERA: Named entity recognition for Arabic
KR100961717B1 (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
Faaß et al. Sdewac–a corpus of parsable sentences from the web
Zhang et al. Automatic acquisition of Chinese–English parallel corpus from the web
Guerrouj et al. Tidier: an identifier splitting approach using speech recognition techniques
US20130103695A1 (en) Machine translation detection in web-scraped parallel corpora
CN100550021C (zh) 资源文件的校验方法和系统
WO2007143914A1 (fr) Procédé, dispositif et système de saisie pour la création d&#39;une base de données de fréquence de mots basée sur des informations issues du web
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
Sinha Stepwise mining of multi-word expressions in Hindi
CN109857956A (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN102043808A (zh) 利用网页结构抽取双语词条的方法及设备
CN106960058A (zh) 一种网页结构变更检测方法及系统
CN108090104A (zh) 用于获取网页信息的方法和装置
CN110297961A (zh) 一种政策信息的快速采集与优化提取方法
Al-Kabi Towards improving Khoja rule-based Arabic stemmer
CN113157860A (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
Lopez Automatic extraction and resolution of bibliographical references in patent documents
CN109766552B (zh) 一种基于公告信息的指代消解方法及装置
CN111177401A (zh) 一种电网自由文本知识抽取方法
KR101735438B1 (ko) 실시간 번역 지식 자동 추출/검증 방법 및 그 장치
JP2010224984A5 (ko)
KR20100072388A (ko) 대역어 추출 장치 및 그 방법
EP2122504B1 (en) A method of extracting sections of a data stream
Toivonen et al. Translating cross-lingual spelling variants using transformation rules

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination