KR20240000721A - 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체 - Google Patents

다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체 Download PDF

Info

Publication number
KR20240000721A
KR20240000721A KR1020220077222A KR20220077222A KR20240000721A KR 20240000721 A KR20240000721 A KR 20240000721A KR 1020220077222 A KR1020220077222 A KR 1020220077222A KR 20220077222 A KR20220077222 A KR 20220077222A KR 20240000721 A KR20240000721 A KR 20240000721A
Authority
KR
South Korea
Prior art keywords
word
word data
wordnet
native language
keywords
Prior art date
Application number
KR1020220077222A
Other languages
English (en)
Inventor
조인호
윤희웅
손기준
Original Assignee
주식회사 오피니언라이브
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 오피니언라이브 filed Critical 주식회사 오피니언라이브
Priority to KR1020220077222A priority Critical patent/KR20240000721A/ko
Publication of KR20240000721A publication Critical patent/KR20240000721A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법은, 단어데이터 수집부가 기 구축 단어데이터 및 신규 추가 단어데이터를 포함하는 기초 자국어 단어데이터를 수집하여 워드 데이터베이스에 저장하는 (a)단계, 연산부가 상기 워드 데이터베이스에 저장된 상기 기초 자국어 단어데이터에 포함된 각 키워드를 기 설정된 기준 별로 분류하여 레이블링하는 (b)단계, 기계번역 처리부가 상기 (b)단계에 의해 레이블링된 상기 기초 자국어 단어데이터에 대해 선택된 언어 별 기계번역을 수행하여 하나 이상의 번역 단어데이터를 생성하고, 상기 워드 데이터베이스에 저장하는 (c)단계, 상기 연산부가 상기 (c)단계에 의해 생성된 하나 이상의 상기 번역 단어데이터에 포함된 각 키워드 중에서, 기 설정된 기준에 따라 현지 상용 키워드로의 대체가 필요한 것으로 판단되는 키워드를 선별하는 (d)단계 및 상기 연산부가 상기 (d)단계에 의해 선별된 키워드에 대해, 입력받은 현지 상용 키워드를 대체하여 변환하는 (e)단계를 포함한다.

Description

다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체{WordNet Service Building Method for Multilanguage Word Semantic Relation and Storage Medium Having the Same}
본 발명은 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체에 관한 것으로서, 보다 상세하게는 한국어로 작성된 텍스트의 텍스트마이닝 정확도를 향상시키고, 다양한 언어권 별 특성을 갖추어 다국어 문서의 지능형 정보검색 및 기계번역 후처리 등에 활용이 가능한 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체에 관한 것이다.
최근에는 급속한 사회의 변화와 기술의 발전으로 인해 새로운 어휘의 발생량이 증가하고 있으며, 더 나아가 다양한 축약, 신조어, 은어 등의 사용이 증가하고 있다.
즉 비정형데이터의 급격한 증가에 따라 대용량 비정형데이터 처리를 위한 형태소 사전의 중요성이 크게 증가하고 있으며, 또한 인공지능, 챗봇 등의 기술 발전으로 텍스트마이닝의 중요도 역시 증가하고 있어 언어의 분석 정확도 향상을 위한 기술 발전 필요성이 높아지고 있는 상황이다.
이와 같이 대용량 비정형 데이터 처리를 위한 형태소 사전의 중요성은 지속해서 증가하고 있고 사용자의 의도에 정확하게 부합하고 단어의 누락 없는 형태소 분석의 필요성이 대두되고 있다.
더불어 최근에는 정보통신기술의 발전과 함께 글로벌 여론이 빠르게 확산하고 있어 글로벌 여론 분석을 위한 다국어 연동 사전의 필요성 역시 증가하고 있으며, 글로벌 이슈에 대한 산/학/관의 분석 수요도 역시 증가하고 있어 국가 간 비교나 해외 여론 파악을 위하여 다국어로 구성된 데이터의 분석 필요한 시점이다.
종래의 분석 기법에 의해 작성된 다국어 문서는 언어권 별로 분석되고 있으며, 현지 언어를 모르는 경우에는 분석 이후 결과물에 대해 도출된 결과의 해석이 어려운 경우가 발생하는 경우가 많았다.
뿐만 아니라, 언어의 해석을 위해 한국어로 기계번역을 수행할 경우, 문화에 따른 맥락 차이로 오역의 가능성이 매우 크다는 문제가 있다.
따라서 이와 같은 문제점들을 해결하기 위한 방법이 요구된다.
한국공개특허 제10-2019-0130636호
본 발명은 상술한 종래 기술의 문제점을 해결하기 위하여 안출된 발명으로서, 사회 변화에 따른 신조어, 개체명 등을 추가 구축하고 공개함으로써 형태소 분석 및 텍스트마이닝 분야의 분석 정확도 제고와 다국어 문서 요약 및 다국어 정보검색, 문맥에 맞는 기계번역 등의 분야에 활용할 수 있는 언어권 별 특성을 적용한 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법을 제공하기 위한 목적을 가진다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기한 목적을 달성하기 위한 본 발명의 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법은, 단어데이터 수집부가 기 구축 단어데이터 및 신규 추가 단어데이터를 포함하는 기초 자국어 단어데이터를 수집하여 워드 데이터베이스에 저장하는 (a)단계, 연산부가 상기 워드 데이터베이스에 저장된 상기 기초 자국어 단어데이터에 포함된 각 키워드를 기 설정된 기준 별로 분류하여 레이블링하는 (b)단계, 기계번역 처리부가 상기 (b)단계에 의해 레이블링된 상기 기초 자국어 단어데이터에 대해 선택된 언어 별 기계번역을 수행하여 하나 이상의 번역 단어데이터를 생성하고, 상기 워드 데이터베이스에 저장하는 (c)단계, 상기 연산부가 상기 (c)단계에 의해 생성된 하나 이상의 상기 번역 단어데이터에 포함된 각 키워드 중에서, 기 설정된 기준에 따라 현지 상용 키워드로의 대체가 필요한 것으로 판단되는 키워드를 선별하는 (d)단계 및 상기 연산부가 상기 (d)단계에 의해 선별된 키워드에 대해, 입력받은 현지 상용 키워드를 대체하여 변환하는 (e)단계를 포함한다.
이때 상기 (a)단계 및 상기 (b)단계 사이에는, 상기 연산부가 상기 워드 데이터베이스에 저장된 상기 기초 자국어 단어데이터에 대해 데이터 전처리를 수행하는 (ex1)단계가 더 포함될 수 있다.
그리고 상기 (ex1)단계는, 상기 기초 자국어 단어데이터에 포함된 각 키워드를 뉴스 분야, 기술 분야 또는 학술논문 분야 중 어느 하나의 분야로 분류하는 (ex1-1)단계, 상기 (ex1-1)단계를 통해 분류된 키워드가 속한 분야의 종류에 따라 형태소 분석을 진행하는 (ex1-2)단계, 상기 (ex1-2)단계에 의해 형태소 분석이 이루어진 각 키워드에 대해 중복을 제거하는 (ex1-3)단계 및 상기 (ex1-3)단계에 의해 중복 제거된 각 키워드에 대해, 미리 구축된 불용어 데이터베이스를 활용하여 불용어를 제거하는 (ex1-4)단계를 포함할 수 있다.
또한 상기 (b)단계는, 상기 기초 자국어 단어데이터에 포함된 각 키워드의 구조를 기 설정된 품사 조합 기준으로 분석하는 (b-1)단계, 상기 기초 자국어 단어데이터에 포함된 각 키워드를 기 설정된 카테고리 기준으로 분류하는 (b-2)단계 및 상기 (b-1)단계 및 상기 (b-2)단계의 기준에 따라 상기 기초 자국어 단어데이터에 포함된 각 키워드를 레이블링하는 (b-3)단계를 포함할 수 있다.
더불어 상기 (b)단계 및 상기 (c)단계 사이에는, 신뢰도 검증부가 상기 (b)단계에 의해 레이블링이 이루어진 상기 기초 자국어 단어데이터에 대해 검증을 수행하는 (ex2)단계가 더 포함될 수 있다.
그리고 상기 (ex2)단계는, 상기 기초 자국어 단어데이터에서 랜덤으로 n개의 키워드를 랜덤 샘플링하는 (ex2-1)단계, 상기 (ex2-1)단계에 의해 랜덤 샘플링된 n개의 키워드에 대해, 사전 코딩을 복수 회 수행하는 (ex2-2)단계 및 상기 (ex2-2)단계에 의해 복수 회 수행된 사전 코딩 결과에 대해 신뢰도를 측정하는 (ex2-3)단계를 포함할 수 있다.
한편 상기 (e)단계는, 상기 (d)단계에 의해 선별된 키워드가 직관적 동의어로 대체 가능한지의 여부를 판단하는 (e-1)단계, 상기 (e-1)단계의 판단 결과 상기 (d)단계에 의해 선별된 키워드가 직관적 동의어로 대체 가능한 경우, 직역된 현지 상용 키워드를 입력받아 대체하여 변환하는 (e-2)단계 및 상기 (e-1)단계의 판단 결과 상기 (d)단계에 의해 선별된 키워드가 직관적 동의어로 대체 불가능한 경우, 기 설정된 대체기준에 의거하여 제시된 현지 상용 키워드를 입력받아 대체하여 변환하는 (e-3)단계를 포함할 수 있다.
또한 상기 (e)단계 이후에는, 웹 서비스 제공부가 상기 기초 자국어 단어데이터 및 상기 (e)단계에 의해 현지 상용 키워드가 변환된 상기 번역 단어데이터의 조회가 가능한 검색 인터페이스를 온라인 서비스를 매개로 사용자에게 제공하는 (f)단계가 더 포함될 수 있다.
상기한 과제를 해결하기 위한 본 발명의 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체는, 한국어로 작성된 텍스트의 텍스트마이닝 정확도를 향상시키고, 다양한 언어권 별 특성을 갖추어 다국어 문서의 지능형 정보검색 및 기계번역 후처리 등에 범용적으로 활용이 가능하다는 장점이 있다.
특히 본 발명은 다국어 워드넷 서비스를 구축함에 따라 다국어 번역 과정에서 도출된 지침을 기반으로 국내 WordNet 개발 시 가이드라인 제공및 표준화 방향을 제시하여 타 기관이나 연구자들의 개발 과정에서 발생할 수 있는 문제점에 대한 해결책을 제시할 수 있다.
또한 본 발명은 전 세계의 실시간 뉴스에 대한 접근성을 높이고, 전 국민이 해외 이슈를 용이하게 확인하고 및 트렌드를 쉽게 접할 기회를 창출할 수 있도록 한다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법을 수행하기 위한 각 구성을 나타낸 도면;
도 2는 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법의 전체 과정을 나타낸 도면;
도 3은 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 기초 자국어 단어데이터에 대해 데이터 전처리를 수행하는 (ex1)단계의 세부 과정을 나타낸 도면;
도 4는 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 기초 자국어 단어데이터에 포함된 각 단어를 기 설정된 기준 별로 분류하여 레이블링하는 (b)단계의 세부 과정을 나타낸 도면;
도 5는 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 레이블링이 이루어진 기초 자국어 단어데이터에 대해 검증을 수행하는 (ex2)단계의 세부 과정을 나타낸 도면; 및
도 6은 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 현지 상용 단어를 대체하여 변환하는 (e)단계의 세부 과정을 나타낸 도면;
도 7 내지 도 9는 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 온라인 서비스를 매개로 사용자에게 제공되는 검색 인터페이스의 예시를 나타낸 도면이다.
이하 본 발명의 목적이 구체적으로 실현될 수 있는 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 설명한다. 본 실시예를 설명함에 있어서, 동일 구성에 대해서는 동일 명칭 및 동일 부호가 사용되며 이에 따른 부가적인 설명은 생략하기로 한다.
본 발명에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법은 저장매체에 저장된 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축용 프로그램이 설치된 관리서버를 통해 수행되는 것으로서, 관리서버에 설치되어 관리서버의 프로세서에 의해 구동될 수 있다.
또한 이에 의해 구동된 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축용 프로그램은 디스플레이 모듈 등 영상 출력장치를 통해 출력될 수 있으며, 시각화된 그래픽 유저 인터페이스를 통해 사용자에게 가시적인 정보를 제공할 수 있다.
특히 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축용 프로그램이 저장된 저장매체는 이동식 디스크나 통신망을 이용하여 관리서버에 설치될 수 있으며, 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축용 프로그램은 관리서버가 다양한 기능적 수단으로 운용되도록 할 수 있다.
즉 본 발명은 소프트웨어에 의한 정보 처리가 하드웨어를 통해 구체적으로 실현된다.
도 1은 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법을 수행하기 위한 각 구성을 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법을 수행하기 위한 시스템은, 단어데이터 수집부(10)(10), 워드 데이터베이스(20)(20), 연산부(30)(30), 기계번역 처리부(40)(40)를 포함한다.
단어데이터 수집부(10)(10)는 기초 자국어 단어데이터를 다양한 데이터베이스 및 온라인 서비스 중 적어도 어느 하나를 대상으로 하여 수집하며, 워드 데이터베이스(20)(20)는 이와 같은 단어데이터 수집부(10)(10)에 의해 수집된 기초 자국어 단어데이터를 저장하도록 구비된다.
그리고 연산부(30)(30)는 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법의 수행 과정에서 다양한 분석 및 데이터 처리를 수행하며, 기계번역 처리부(40)(40)는 특성 언어의 텍스트를 다른 국가의 언어의 텍스트로 자동 번역을 수행한다.
이하에서는 이상과 같은 구성요소들을 통해 관리서버를 통해 실행되는 본 발명의 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법의 알고리즘에 대해 자세히 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법의 전체 과정을 나타낸 도면이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법은, 단어데이터 수집부(10)가 기 구축 단어데이터 및 신규 추가 단어데이터를 포함하는 기초 자국어 단어데이터를 수집하여 워드 데이터베이스(20)에 저장하는 (a)단계, 연산부(30)가 워드 데이터베이스(20)에 저장된 기초 자국어 단어데이터에 포함된 각 키워드를 기 설정된 기준 별로 분류하여 레이블링하는 (b)단계, 기계번역 처리부(40)가 (b)단계에 의해 레이블링된 기초 자국어 단어데이터에 대해 선택된 언어 별 기계번역을 수행하여 하나 이상의 번역 단어데이터를 생성하고, 워드 데이터베이스(20)에 저장하는 (c)단계, 연산부(30)가 (c)단계에 의해 생성된 하나 이상의 번역 단어데이터에 포함된 각 키워드 중에서, 기 설정된 기준에 따라 현지 상용 키워드로의 대체가 필요한 것으로 판단되는 키워드를 선별하는 (d)단계 및 연산부(30)가 (d)단계에 의해 선별된 키워드에 대해, 입력받은 현지 상용 키워드를 대체하여 변환하는 (e)단계를 포함한다.
여기서 본 실시예에서 (a)단계 및 (b)단계 사이에는, 연산부(30)가 워드 데이터베이스(20)에 저장된 기초 자국어 단어데이터에 대해 데이터 전처리를 수행하는 (ex1)단계가 더 포함될 수 있다.
또한 (b)단계 및 (c)단계 사이에는, 신뢰도 검증부가 (b)단계에 의해 레이블링이 이루어진 기초 자국어 단어데이터에 대해 검증을 수행하는 (ex2)단계가 더 포함될 수 있다.
더불어 (e)단계 이후에는, 웹 서비스 제공부가 기초 자국어 단어데이터 및 (e)단계에 의해 현지 상용 키워드가 변환된 번역 단어데이터의 조회가 가능한 검색 인터페이스를 온라인 서비스를 매개로 사용자에게 제공하는 (f)단계가 더 포함될 수 있다.
이들 각 단계에 대해 자세히 설명하면, 먼저 (a)단계는, 단어데이터 수집부(10)가 기초 자국어 단어데이터를 수집하여 워드 데이터베이스(20)에 저장하는 과정으로서, 기초 자국어 단어데이터는 기 구축 단어데이터 및 신규 추가 단어데이터를 포함한다.
기 구축 단어데이터는 워드 데이터베이스(20)에 미리 저장되어 있는 기존의 복수 개의 키워드를 포함하며, 신규 추가 단어데이터는 이와 같은 기 구축 단어데이터에 추가하여 새로 확보되는 다양한 복수 개의 키워드를 포함한다.
이때 신규 추가 단어데이터는 종래 존재하는 다양한 분야의 데이터베이스 및 온라인 서비스 중 적어도 어느 하나로부터 수집될 수 있으며, 예컨대 뉴스 분야, 기술 분야 및 학술논문 분야 중 어느 하나 이상에서 수집된 키워드들을 포함할 수 있다.
다음으로, 연산부(30)가 워드 데이터베이스(20)에 저장된 기초 자국어 단어데이터에 대해 데이터 전처리를 수행하는 (ex1)단계가 수행된다.
도 3은 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 기초 자국어 단어데이터에 대해 데이터 전처리를 수행하는 (ex1)단계의 세부 과정을 나타낸 도면이다.
도 3에 도시된 바와 같이, (ex1)단계는 세부적으로 (ex1-1)단계 내지 (ex1-3)단계를 포함할 수 있다.
(ex1-1)단계는, 기초 자국어 단어데이터에 포함된 각 키워드를 뉴스 분야, 기술 분야 또는 학술논문 분야 중 어느 하나의 분야로 분류하는 과정이다.
그리고 (ex1-2)단계는, (ex1-1)단계를 통해 분류된 키워드가 속한 분야의 종류에 따라 형태소 분석을 진행하는 과정이다.
예컨대 뉴스 분야에 속한 키워드 중에서, 주요 개체명(인물, 기관, 장소)에 관한 키워드는 형태소 분석 없이 그대로 활용할 수 있다. 다만, 개체명을 제외한 일반 키워드의 경우 후술할 오탈자 및 불용어 점검을 위해 형태소 분석을 진행할 수 있다.
또한 기술 분야에 속한 키워드는 형태소 분석 후 명사를 추출하고, 주요 개체명(인물, 기관, 장소)을 추출할 수 있으며, 학술논문 분야에 속한 키워드는 먼저 중복 제거 후 형태소 분석을 진행할 수 있다.
다음으로 (ex1-3)단계는, (ex1-2)단계에 의해 형태소 분석이 이루어진 각 키워드에 대해 중복을 제거하는 과정이며, (ex1-4)단계는 (ex1-3)단계에 의해 중복 제거된 각 키워드에 대해, 미리 구축된 불용어 데이터베이스를 활용하여 불용어를 제거하는 과정이다. 여기서 불용어 데이터베이스는 일정 기준에 따라 선정된 불용어들이 미리 입력 저장되어 있는 데이터베이스이며, 연산부(30)는 불용어 데이터베이스에 저장되어 있는 불용어와 (ex1-3)단계에 의해 중복 제거된 이후 남은 키워드를 비교하고, 서로 일치되는 경우 제거 연산을 수행할 수 있다.
이후에는, 연산부(30)가 워드 데이터베이스(20)에 저장된 기초 자국어 단어데이터에 포함된 각 키워드를 기 설정된 기준 별로 분류하여 레이블링하는 (b)단계가 수행된다.
도 4는 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 기초 자국어 단어데이터에 포함된 각 단어를 기 설정된 기준 별로 분류하여 레이블링하는 (b)단계의 세부 과정을 나타낸 도면이다.
도 4에 도시된 바와 같이, (b)단계는 세부적으로 (b-1)단계 내지 (b-3)단계를 포함한다.
(b-1)단계는, 기초 자국어 단어데이터에 포함된 각 키워드의 구조를 기 설정된 품사 조합 기준으로 분석하는 과정이다.
본 과정에서는 신규 키워드 도출 시 명사 및 복합명사를 추출하도록 하며, 또한 숫자 및 기존 형태소 분석 시에는 미등록어인 경우 신규 키워드 구성을 위해 형태소 분석 후 룰을 도출하여 적용할 수 있다.
(b-2)단계는, 기초 자국어 단어데이터에 포함된 각 키워드를 기 설정된 카테고리 기준으로 분류하는 과정이다.
본 과정에서는 기존에 미리 구축된 기 분류기준을 기준으로, 각 키워드를 기 분류기준의 대분류 및 소분류와 매칭을 진행하고, 각 카테고리 별로 분류하게 된다.
그리고 (b-3)단계는, 이와 같은 (b-1)단계 및 (b-2)단계의 기준에 따라 기초 자국어 단어데이터에 포함된 각 키워드를 레이블링하도록 한다.
다음으로, 신뢰도 검증부가 (b)단계에 의해 레이블링이 이루어진 기초 자국어 단어데이터에 대해 검증을 수행하는 (ex2)단계가 수행된다.
도 5는 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 레이블링이 이루어진 기초 자국어 단어데이터에 대해 검증을 수행하는 (ex2)단계의 세부 과정을 나타낸 도면이다.
도 5에 도시된 바와 같이, (ex2)단계는 세부적으로 (ex2-1)단계 내지 (ex2-3)단계를 포함한다.
(ex2-1)단계는, 기초 자국어 단어데이터에서 랜덤으로 n개의 키워드를 랜덤 샘플링하는 과정이다. 이때 랜덤 샘플링되는 키워드의 개수, 즉 n은 자연수 범위에서 설정에 따라 제한없이 가변될 수 있다.
그리고 (ex2-2)단계는 (ex2-1)단계에 의해 랜덤 샘플링된 n개의 키워드에 대해, 사전 코딩을 복수 회 수행하는 과정이다. 본 과정에서는 신뢰도 검증부에 의해 서로 별도로 이루어지는 사전 코딩이 2회 이상 진행될 수 있다.
또한 (ex2-3)단계에서는 (ex2-2)단계에 의해 복수 회 수행된 사전 코딩 결과에 대해 신뢰도를 측정하게 된다.
본 과정에서의 신뢰도 측정 방식은 제한없이 다양하게 이루어질 수 있으며, 본 실시예에서는 이하의 수학식 1을 통해 신뢰계수(α)를 측정하는 방식을 가진다.
이때 신뢰계수의 값의 범위는 1≥α≥0이며, α의 값이 1이면 코더 간의 완전한 일치를, 그리고 0이면 완전한 불일치를 나타낸다.
또한 본 실시예의 경우, 2회 수행된 사전 코딩 결과에 대해 다음과 같은 수학식 2를 적용하여 신뢰계수를 측정하였다.
이상과 같은 수식을 통해 사전 코딩 결과에 대해 신뢰도를 측정한 결과, 본 실시예에서 신뢰도는 0.851로 높게 나타났다. 다만, 보다 신뢰도 높은 결과를 산출하기 위하여, 사전 코딩 시 서로 별도로 이루어진 사전 코딩간에 차이가 발생한 키워드에 대하여, 확정된 코딩 결과를 입력하여 신뢰도 검증부를 통해 추가 코딩을 진행하였으며, 이와 같은 경우 신뢰도는 0.964로 나타났다.
다음으로, 기계번역 처리부(40)가 (b)단계에 의해 레이블링된 기초 자국어 단어데이터에 대해 선택된 언어 별 기계번역을 수행하여 하나 이상의 번역 단어데이터를 생성하고, 워드 데이터베이스(20)에 저장하는 (c)단계와, 연산부(30)가 (c)단계에 의해 생성된 하나 이상의 번역 단어데이터에 포함된 각 키워드 중에서, 기 설정된 기준에 따라 현지 상용 키워드로의 대체가 필요한 것으로 판단되는 키워드를 선별하는 (d)단계가 각각 수행된다.
(c)단계에서는, 이전의 과정을 통해 높은 신뢰도로 레이블링이 이루어진 기초 자국어 단어데이터에 대해 기계번역 처리부(40)가 선택된 다른 언어로 기계번역을 수행하여 워드 데이터베이스(20)에 저장하게 된다.
이때 기계번역 처리부(40)는 종래 구축된 기계번역 툴이 적용되거나, 또는 향후 개발될 기계번역 툴 등이 제한없이 적용될 수 있다. 또한 기계번역을 수행함에 따라 생성되는 번역 단어데이터는 영어, 일본어, 중국어 등 다양한 국가의 언어일 수 있다.
그리고 (d)단계에서는, 기 설정된 기준에 따라 현지 상용 키워드로의 대체가 필요한 것으로 판단되는 키워드를 별도로 선별하게 된다. 이는 한국어와 외국어의 언어적, 문화적 특성이 상이하여, 한국어 용어간 등가, 계층, 연관 관계와 외국어 용어간 관계가 다른 사례들이 다수 발견되기 때문이다.
다음으로, 연산부(30)가 (d)단계에 의해 선별된 키워드에 대해, 입력받은 현지 상용 키워드를 대체하여 변환하는 (e)단계가 수행된다.
도 6은 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 현지 상용 단어를 대체하여 변환하는 (e)단계의 세부 과정을 나타낸 도면이다.
도 6에 도시된 바와 같이, (e)단계는 세부적으로 (e-1)단계 내지 (e-3)단계를 포함한다.
(e-1)단계는 (d)단계에 의해 선별된 키워드가 직관적 동의어로 대체 가능한지의 여부를 판단하는 과정이다.
그리고 (e-2)단계에서는, 이와 같은 (e-1)단계의 판단 결과 (d)단계에 의해 선별된 키워드가 직관적 동의어로 대체 가능한 경우, 직역된 현지 상용 키워드를 입력받아 대체하여 변환하게 된다.
또한 (e-3)단계에서는, 이와 같은 (e-1)단계의 판단 결과 (d)단계에 의해 선별된 키워드가 직관적 동의어로 대체 불가능한 경우, 기 설정된 대체기준에 의거하여 제시된 현지 상용 키워드를 입력받아 대체하여 변환하게 된다. 이때 기 설정된 대체기준은 다양하게 수립될 수 있다.
예컨대, 한국어에는 단독인 용어가 외국어에서는 거의 같은 의미인 용어로 다수 존재하는 경우 또는 한국어로만 존재하는 의미의 용어와 관련된 유사동의어들의 경우, 정확히 시소러스의 직역된 어휘가 아니라도 해당 의미를 끌어내는 보도/기사를 검색해 내는 데 유용한 것으로 판단하여, 등가관계가 아닌 관련어로 간주하여 코딩할 수 있다.
또한 어느 한 개의 한글 용어가 일반 명사이나 영/중/일어에서 다수의 용어로 번역이 가능할 경우, 다수의 외국어 용어 간을 비교하여 상대적으로 빈도와 상용도가 높은 구어체 용어로 우선어 처리를 한 후, 다른 외국어 용어들은 관련어로 처리할 수 있다.
또는 비교가 불가할 정도로 빈도와 상용도가 높은 용어의 경우, 기 설정된 기준에 따라 연산부(30)가 우선어와 관련어로 구분하고, 2차 번역 시 비우선어로 수정할 수 있다.
한편 문장 내 번역이 아니어서 맥락을 고려한 의미 대응이 불가한 경우, 각국의 포털에서 검색해 직결되는 어휘가 사용된 것이 발견될 시, 이를 우선어로 번역하도록 할 수 있다.
다만, 해외에서 사용되거나 보도된 데이터가 즉각적으로 발견되지 않을 경우, 생물 종의 이름, 문화유산 등은 국제 수준 공인 학명으로, 전문 기기, 상품명이나 기관 또는 단체 등의 경우 공식적으로 해당 소속 기관의 공식 명칭으로 번역할 수 있다.
또한 중국어와 일본어의 경우일지라도 알파벳 약자나 줄임말이 더 상용일 때에는 우선어로 번역하고 약자가 아닌 전체 명칭을 관련어로 번역할 수 있다.
더불어 아주 유명하지는 않으나 관련어로 해외 포털에서 검색되는 고유 명사에 있어서, 중국어의 경우 한자어로 바로 번역하면 가능은 하지만 영어의 경우 소리 나는 대로 표기하는 것과 뜻을 풀어 번역하는 경우가 생길 수 있다. 더불어 일본어도 카타카나로 표기하는 등은 가능하지만, 부가 설명될 수 있는 일본어를 넣는 것이 필요할 것으로 판단할 수 있으며, 이에 파생되는 동의어가 가능할 경우 관련어 처리를 수행할 수 있으며, 불가피한 경우에는 한글 우선어를 외국어로 번역하지 않을 수 있다.
또한 중국어의 경우 품사 변화로 인한 순서 변경을 허용할 수 있으며, 영어, 일어는 공통으로 가능한 전치사나 연결사, 정관사 없이 번역할 수 있다. 이때 구절로 번역할 수밖에 없는 경우에는 전치사와 조사 등을 허용할 수 있다.
이와 같은 (e)단계 이후에는, 웹 서비스 제공부가 기초 자국어 단어데이터 및 (e)단계에 의해 현지 상용 키워드가 변환된 번역 단어데이터의 조회가 가능한 검색 인터페이스를 온라인 서비스를 매개로 사용자에게 제공하는 (f)단계가 수행된다.
본 단계서 제공되는 검색 인터페이스는 회원가입 후 검색 기능을 제공하며, 검색 시 기술 분야 결과를 제공할 수 있다. 또한 사용자가 온라인 서비스를 매개로 검색 인터페이스에 접속 시 검색어를 한국어, 영어, 일본어, 중국어 등의 언어권 별로 단어를 입력하도록 검색창을 제공할 수 있다.
도 7 내지 도 9는 본 발명의 일 실시예에 따른 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법에 있어서, 온라인 서비스를 매개로 사용자에게 제공되는 검색 인터페이스의 예시를 나타낸 도면이다.
도 7 내지 도 9에 도시된 바와 같이, 검색 인터페이스는 다양한 단말기에 구비되는 프로세서를 통해 실행되어 기 설정된 UI로 구현됨에 따라 가시적으로 사용자가 확인할 수 있도록 단말기의 디스플레이를 통해 제공될 수 있다.
이상과 같이 본 발명에 따른 바람직한 실시예를 살펴보았으며, 앞서 설명된 실시예 이외에도 본 발명이 그 취지나 범주에서 벗어남이 없이 다른 특정 형태로 구체화될 수 있다는 사실은 해당 기술에 통상의 지식을 가진 이들에게는 자명한 것이다. 그러므로, 상술된 실시예는 제한적인 것이 아니라 예시적인 것으로 여겨져야 하고, 이에 따라 본 발명은 상술한 설명에 한정되지 않고 첨부된 청구항의 범주 및 그 동등 범위 내에서 변경될 수도 있다.
10: 단어데이터 수집부
20: 워드 데이터베이스
30: 연산부
40: 기계번역 처리부

Claims (9)

  1. 단어데이터 수집부가 기 구축 단어데이터 및 신규 추가 단어데이터를 포함하는 기초 자국어 단어데이터를 수집하여 워드 데이터베이스에 저장하는 (a)단계;
    연산부가 상기 워드 데이터베이스에 저장된 상기 기초 자국어 단어데이터에 포함된 각 키워드를 기 설정된 기준 별로 분류하여 레이블링하는 (b)단계;
    기계번역 처리부가 상기 (b)단계에 의해 레이블링된 상기 기초 자국어 단어데이터에 대해 선택된 언어 별 기계번역을 수행하여 하나 이상의 번역 단어데이터를 생성하고, 상기 워드 데이터베이스에 저장하는 (c)단계;
    상기 연산부가 상기 (c)단계에 의해 생성된 하나 이상의 상기 번역 단어데이터에 포함된 각 키워드 중에서, 기 설정된 기준에 따라 현지 상용 키워드로의 대체가 필요한 것으로 판단되는 키워드를 선별하는 (d)단계; 및
    상기 연산부가 상기 (d)단계에 의해 선별된 키워드에 대해, 입력받은 현지 상용 키워드를 대체하여 변환하는 (e)단계;
    를 포함하는,
    다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법.
  2. 제1항에 있어서,
    상기 (a)단계 및 상기 (b)단계 사이에는,
    상기 연산부가 상기 워드 데이터베이스에 저장된 상기 기초 자국어 단어데이터에 대해 데이터 전처리를 수행하는 (ex1)단계가 더 포함되는,
    다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법.
  3. 제2항에 있어서,
    상기 (ex1)단계는,
    상기 기초 자국어 단어데이터에 포함된 각 키워드를 뉴스 분야, 기술 분야 또는 학술논문 분야 중 어느 하나의 분야로 분류하는 (ex1-1)단계;
    상기 (ex1-1)단계를 통해 분류된 키워드가 속한 분야의 종류에 따라 형태소 분석을 진행하는 (ex1-2)단계;
    상기 (ex1-2)단계에 의해 형태소 분석이 이루어진 각 키워드에 대해 중복을 제거하는 (ex1-3)단계; 및
    상기 (ex1-3)단계에 의해 중복 제거된 각 키워드에 대해, 미리 구축된 불용어 데이터베이스를 활용하여 불용어를 제거하는 (ex1-4)단계;
    를 포함하는,
    다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법.
  4. 제1항에 있어서,
    상기 (b)단계는,
    상기 기초 자국어 단어데이터에 포함된 각 키워드의 구조를 기 설정된 품사 조합 기준으로 분석하는 (b-1)단계;
    상기 기초 자국어 단어데이터에 포함된 각 키워드를 기 설정된 카테고리 기준으로 분류하는 (b-2)단계; 및
    상기 (b-1)단계 및 상기 (b-2)단계의 기준에 따라 상기 기초 자국어 단어데이터에 포함된 각 키워드를 레이블링하는 (b-3)단계;
    를 포함하는,
    다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법.
  5. 제1항에 있어서,
    상기 (b)단계 및 상기 (c)단계 사이에는,
    신뢰도 검증부가 상기 (b)단계에 의해 레이블링이 이루어진 상기 기초 자국어 단어데이터에 대해 검증을 수행하는 (ex2)단계가 더 포함되는,
    다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법.
  6. 제5항에 있어서,
    상기 (ex2)단계는,
    상기 기초 자국어 단어데이터에서 랜덤으로 n개의 키워드를 랜덤 샘플링하는 (ex2-1)단계;
    상기 (ex2-1)단계에 의해 랜덤 샘플링된 n개의 키워드에 대해, 사전 코딩을 복수 회 수행하는 (ex2-2)단계; 및
    상기 (ex2-2)단계에 의해 복수 회 수행된 사전 코딩 결과에 대해 신뢰도를 측정하는 (ex2-3)단계;
    를 포함하는,
    다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법.
  7. 제1항에 있어서,
    상기 (e)단계는,
    상기 (d)단계에 의해 선별된 키워드가 직관적 동의어로 대체 가능한지의 여부를 판단하는 (e-1)단계;
    상기 (e-1)단계의 판단 결과 상기 (d)단계에 의해 선별된 키워드가 직관적 동의어로 대체 가능한 경우, 직역된 현지 상용 키워드를 입력받아 대체하여 변환하는 (e-2)단계; 및
    상기 (e-1)단계의 판단 결과 상기 (d)단계에 의해 선별된 키워드가 직관적 동의어로 대체 불가능한 경우, 기 설정된 대체기준에 의거하여 제시된 현지 상용 키워드를 입력받아 대체하여 변환하는 (e-3)단계;
    를 포함하는,
    다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법.
  8. 제1항에 있어서,
    상기 (e)단계 이후에는,
    웹 서비스 제공부가 상기 기초 자국어 단어데이터 및 상기 (e)단계에 의해 현지 상용 키워드가 변환된 상기 번역 단어데이터의 조회가 가능한 검색 인터페이스를 온라인 서비스를 매개로 사용자에게 제공하는 (f)단계가 더 포함되는,
    다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법.
  9. 컴퓨터에 제1항 내지 제8항 중 어느 한 항의 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체.
KR1020220077222A 2022-06-24 2022-06-24 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체 KR20240000721A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220077222A KR20240000721A (ko) 2022-06-24 2022-06-24 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220077222A KR20240000721A (ko) 2022-06-24 2022-06-24 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체

Publications (1)

Publication Number Publication Date
KR20240000721A true KR20240000721A (ko) 2024-01-03

Family

ID=89539045

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220077222A KR20240000721A (ko) 2022-06-24 2022-06-24 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체

Country Status (1)

Country Link
KR (1) KR20240000721A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190130636A (ko) 2017-09-12 2019-11-22 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 기계번역 방법, 장치, 컴퓨터 기기 및 기억매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190130636A (ko) 2017-09-12 2019-11-22 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 기계번역 방법, 장치, 컴퓨터 기기 및 기억매체

Similar Documents

Publication Publication Date Title
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US8185377B2 (en) Diagnostic evaluation of machine translators
CN108763333A (zh) 一种基于社会媒体的事件图谱构建方法
Bhatia et al. Mining privacy goals from privacy policies using hybridized task recomposition
KR101524889B1 (ko) 간접 화법 내에서의 시맨틱 관계의 식별
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
AU2019265874B2 (en) Systems and methods for document deviation detection
CN111611399A (zh) 一种基于自然语言处理的资讯事件图谱化系统及方法
Neale et al. Leveraging lexical resources and constraint grammar for rule-based part-of-speech tagging in Welsh
Deléger et al. Translating medical terminologies through word alignment in parallel text corpora
Albarghothi et al. Automatic construction of e-government services ontology from Arabic webpages
Shah et al. Automated population of cyc: Extracting information about namedentities from the web
Khoo et al. Using statistical and contextual information to identify two‐and three‐character words in Chinese text
JP7167997B2 (ja) 文献検索方法および文献検索システム
Fudholi et al. Ontology-based information extraction for knowledge enrichment and validation
Graliński et al. Named entity recognition in machine anonymization
Khalil et al. Extracting Arabic composite names using genitive principles of Arabic grammar
KR20240000721A (ko) 다국어 워드 의미 관계 조회를 위한 워드넷 서비스 구축방법 및 이를 포함하는 저장매체
Zeng Exploration and study of multilingual thesauri automation construction for digital libraries in China
Saneifar et al. From terminology extraction to terminology validation: an approach adapted to log files
JP7312841B2 (ja) 法律分析装置、及び法律分析方法
Periñán-Pascual et al. A framework of analysis for the evaluation of automatic term extractors
Federmann et al. Multilingual terminology acquisition for ontology-based information extraction
Boizou et al. An online linguistic analyser for scottish gaelic