KR102639880B1 - 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법 - Google Patents

문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법 Download PDF

Info

Publication number
KR102639880B1
KR102639880B1 KR1020230101001A KR20230101001A KR102639880B1 KR 102639880 B1 KR102639880 B1 KR 102639880B1 KR 1020230101001 A KR1020230101001 A KR 1020230101001A KR 20230101001 A KR20230101001 A KR 20230101001A KR 102639880 B1 KR102639880 B1 KR 102639880B1
Authority
KR
South Korea
Prior art keywords
words
synonym
substitution
representative
word
Prior art date
Application number
KR1020230101001A
Other languages
English (en)
Inventor
황선희
고형석
이홍재
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020230101001A priority Critical patent/KR102639880B1/ko
Application granted granted Critical
Publication of KR102639880B1 publication Critical patent/KR102639880B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법에 관한 것으로, 인공지능을 활용하여 문서로부터 추출한 유사한 의미의 단어 중에서 빈도수가 가장 높은 단어를 대표어로 설정하고, 유사한 의미의 단어를 중심으로 바로 뒤에 오는 서술어를 세트로 구성하고, 각각의 단어 및 서술어 세트별로 계산하는 빈도 확률을 통해서 유의어로 판단된 단어를 대표어로 치환하여 관리할 수 있도록 하는 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법에 관한 것이다.

Description

문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법{AI BASED SYNONYM REPLACEMENT METHOD FOR MANAGING SYNONYMS IN DOCUMENTS AS REPRESENTATIVE WORDS}
본 발명은 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법에 관한 것으로, 더욱 상세하게는 인공지능을 활용하여 문서로부터 추출한 유사한 의미의 단어 중에서 빈도수가 가장 높은 단어를 대표어로 설정하고, 유사한 의미의 단어를 중심으로 바로 뒤에 오는 서술어를 세트로 구성하고, 각각의 단어 및 서술어 세트별로 계산하는 빈도 확률을 통해서 유의어로 판단된 단어를 대표어로 치환하여 관리할 수 있도록 하는 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법에 관한 것이다.
최근 들어 자연어 처리 분야가 각광받으면서 주어진 문서의 핵심 내용을 추출하거나, 요약하여 간결하고 이해하기 쉬운 형태로 제공하거나, 주제에 따른 분류 작업을 수행하는데 있어 인공지능(Artificial Intelligence)이 활발하게 사용되고 있다.
하지만, 문서로부터 내용 요약, 분류, 분석 및 통계 등을 처리하는 과정에서 여러 의미의 유의어로 분산되면 집계에 어려움이 발생하였고, 이로 인해 데이터 처리의 신뢰도가 저하될 수 있으며, 인공지능 모델을 생성하는데 필요한 학습 데이터를 생성하는 것도 쉽지 않다.
따라서 본 발명에서는 문서에서 추출한 비슷한 의미를 가지는 단어 중 어느 단어를 대표어로 결정하여 관리할 것인지를 자동으로 결정할 수 있는 방안을 제시하고자 한다.
특히, 본 발명은 문서에서 추출한 유사 의미의 단어 중 어느 하나를 대표어로 설정하고, 유사 의미의 단어를 중심으로 바로 뒤에 오는 서술어를 세트로 구성하고, 각각의 단어 및 서술어 세트별 빈도 확률 계산을 통해서 유의어로 판단된 단어를 대표어로 치환할 수 있도록 하는 방안을 제시하고자 한다.
다음으로 본 발명의 기술분야에 존재하는 선행발명에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행발명에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
먼저, 한국공개특허 제2023-0013140호(2023.01.26.)는 입력된 콘텐츠를 키워드 추출 규칙을 기반으로 분석하여 복수의 키워드를 추출하고, 이음동의어 또는 유사어에 해당하거나 일정 수준 이상의 유사도를 갖는 키워드끼리 유사 키워드로 분류한 후 각 키워드의 유사 키워드 개수와 키워드 추출 기준과의 매칭도를 기반으로 분류된 각 키워드에 가중치를 부여하며, 이를 기반으로 컨텐츠 검색을 지원하는 것을 특징으로 하는 키워드 추출 규칙 기반의 키워드 추출 장치, 방법 및 프로그램에 관한 선행발명이다.
또한, 한국공개특허 제2011-0125966호(2011.11.22.)는 유효 문장 그룹을 생성하고, 주어 기준 술어/목적어 빈도 추출하고 자질 벡터를 산출하여 유의어 그룹을 생성하고 유의어 그룹의 대표 단어를 생성하는 것을 특징으로 하는 문장 분석을 이용한 유의어 그룹 생성 방법 및 시스템에 관한 선행발명이다.
하지만, 본 발명은 문서에서 추출한 유사 의미의 단어를 중심으로 바로 뒤에 오는 서술어를 세트로 구성하고, 단어 및 서술어 세트별 빈도 확률 계산을 통해서 유의어로 판단된 단어를 대표어로 치환하여 관리하는 것으로서, 키워드 추출 규칙을 이용하여 콘텐츠에 관련된 키워드들을 자동으로 추출하여 대표 키워드로 설정하는 구성에 대해 제시하고 있는 상기 한국공개특허 제2023-0013140호, 및 문장 분석을 통해 상호 연관성이 큰 단어들을 추출하여 유의어 그룹을 생성하는 구성에 대해 제시하고 있는 상기 한국공개특허 제2011-0125966호와 비교해 볼 때, 현저한 구성상 차이점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 인공지능을 활용하여 문서로부터 추출한 유사한 의미의 단어 중에서 빈도수가 가장 높은 단어를 대표어로 설정하고, 유사한 의미의 단어를 중심으로 바로 뒤에 오는 서술어를 세트로 구성하고, 각각의 단어 및 서술어 세트별로 계산하는 빈도 확률을 참조하여 유의어로 판단된 단어를 대표어로 치환할 수 있는 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법을 제공하는 것을 목적으로 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
본 발명의 일 실시예에 따른 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법은, 인공지능 기반 유의어 치환장치에서, 주어진 문서에서 추출한 복수의 단어를 대상으로 선정한 적어도 하나 이상의 유의어 그룹별 대표어를 설정하는 대표어 관리 단계; 상기 선정한 유의어 그룹에 속하는 유의어를 중심으로 뒤에 오는 서술어를 결합한 치환대상 세트를 구성하는 치환대상 세트 구성 단계; 및 상기 구성한 치환대상 세트가 기 설정된 치환조건을 만족하면 해당 치환대상 세트의 유의어를 상기 설정한 대표어로 치환하는 유의어 치환 처리 단계;를 포함하며, 상기 문서 내에서 추출한 유사 의미의 단어들을 상기 설정한 대표어로 치환하여 관리할 수 있도록 지원하는 것을 특징으로 한다.
또한, 상기 대표어 관리 단계는, 주어진 문서를 문장 단위로 분리하는 문장 분리 단계; 상기 분리한 문장의 형태소 분석을 수행하여 복수의 단어를 추출하는 형태소 분석 단계; 상기 추출한 단어들 중 복수의 명사형 단어를 기 설정된 유의어 사전을 참조하여 적어도 하나 이상의 유의어 그룹으로 선정하는 유의어 그룹 선정 단계; 및 상기 선정한 유의어 그룹의 명사형 단어 중에서 다빈도의 명사형 단어를 해당 유의어 그룹의 대표어로 선택하는 대표어 선택 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법은, 상기 인공지능 기반 유의어 치환장치에서, 상기 형태소 분석 단계를 통해 추출된 복수의 명사형 단어간의 유사도 측정을 수행하는 유사도 측정 단계;를 더 포함하며, 상기 유사도 측정은, word2vec의 단어 임베딩 기법을 활용하여 상기 추출된 복수의 명사형 단어의 의미를 수치로 표현하는 것을 통해서 명사형 단어간의 유사도를 측정하는 것을 특징으로 한다.
또한, 상기 유의어 그룹 선정 단계는, 상기 형태소 분석 단계를 통해서 추출한 복수의 명사형 단어를 유의어 그룹으로 선정하는 과정에서, 상기 유사도 측정 단계에서 측정한 유사도 측정값과 기 설정된 임계값을 비교하고, 상기 비교한 결과 상기 유사도 측정값이 상기 임계값 이상인 명사형 단어를 유의어 그룹에 포함하는 것을 통해서, 상기 유의어 사전에 존재하지 않는 명사형 단어를 추가하는 것을 특징으로 한다.
또한, 상기 서술어는, 상기 형태소 분석 단계에서 수행한 형태소 분석 결과를 통해서 추출되는 동사 및 형용사형 단어인 것을 특징으로 한다.
또한, 상기 유의어 치환 처리 단계는, 상기 구성한 치환대상 세트별 빈도 확률을 계산하는 빈도 확률 계산 단계; 및 상기 계산한 치환대상 세트별 빈도 확률을 기 설정된 치환조건과 비교하고, 상기 비교한 결과 상기 빈도 확률이 상기 치환조건을 만족하는 치환대상 세트의 유의어를 상기 설정한 대표어로 치환하는 유의어 치환 단계;를 포함하며, 상기 치환조건은, 상기 빈도 확률이 소정 수치로 설정되는 임계값 이상인 조건으로서, 상기 임계값은 0.1로 설정되는 것을 특징으로 한다.
이상에서와 같이 본 발명의 인공지능을 활용한 대표어 관리를 위한 유의어 치환방법에 따르면, 문서에서 추출한 비슷한 의미를 가지는 단어 중 어느 단어를 대표어로 결정하여 관리할 것인지를 자동으로 결정함으로써, 다양한 유의어로 분산되지 않고 어느 하나의 대표어를 통해서 분석 및 통계 작업을 수행할 수 있는 효과가 있다.
또한, 본 발명은 명사형 단어와 서술어(동사 및 형용사형 단어)의 결합을 통해서 유의어의 치환 가능 여부를 계산 및 판단하고, 이를 토대로 유의어의 대표어 치환을 수행함으로써, 검색이나 문서 요약과 관련된 딥러닝 모델 생성에 사용할 학습 데이터의 구축이 용이한 효과가 있다.
다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법이 적용된 전체 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법이 적용되는 인공지능 기반 유의어 치환장치의 구성을 보다 상세하게 나타낸 블록도이다.
도 3은 도 2의 인공지능 기반 유의어 치환장치의 하드웨어 구조를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법의 동작과정을 상세하게 나타낸 순서도이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.
또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법이 적용된 전체 구성을 개략적으로 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명은 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환장치(100, 이하 인공지능 기반 유의어 치환장치라 함), 복수의 외부서버(200), 데이터베이스(300) 등을 포함하여 구성된다.
상기 인공지능 기반 유의어 치환장치(100)는 복수의 외부서버(200)로부터 수집한 문서 내에서 비슷한 의미를 가진 단어(즉 유의어)를 추출하고, 이를 어느 하나의 대표어로 치환하여 관리한다.
상기 네트워크는 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미한다.
상기 문서는 전자적으로 작성되거나 관리되는 것으로서, 예를 들어 내부 결재 서류, 업무 진행 상황들이 누적된 보고 서류 등을 포함할 수 있다. 다만, 이에 한정하지 않고, 상기 문서의 종류는 통상의 기술자에게 자명한 수준에서 다양하게 변형 가능하다.
이때 상기 문서는 각종 텍스트 등 자료가 포함된 문서들일 수 있고, 각종 행정 문서, 보고서, 논문 및 평가서 등 다양한 포맷일 수 있고, odt, pdf, ppt, pptx, xls, xlsx, doc, docx, hwp 및 hwpx 등 파일형식을 갖출 수 있으며, 데이터베이스(300) 상에 저장되어 있을 수 있다.
일 예로, 상기 인공지능 기반 유의어 치환장치(100)는 인공지능을 활용하여 상기 외부서버(200)로부터 수집한 문서에서 각 단어를 추출하고, 추출한 각 단어를 유사한 의미의 그룹으로 분리하여 적어도 하나 이상의 유의어 그룹을 선정한다.
이후, 상기 인공지능 기반 유의어 치환장치(100)는 상기 선정한 유의어 그룹 내의 단어들 중에서 빈도수가 가장 높은 단어를 대표어로 설정한다.
또한, 상기 인공지능 기반 유의어 치환장치(100)는 각 유의어 그룹에서 대표어를 설정한 다음, 해당 유의어 그룹 내의 유의어를 중심으로 바로 뒤에 오는 서술어를 세트로 구성하고, 각각의 단어 및 서술어 세트별 빈도 확률을 계산하여 사전에 설정한 임계수치 이상일 경우 유의어로 판단된 단어를 대표어로 치환한다.
이렇게 유사어를 대표어로 치환하여 관리하게 되면, 다양한 유의어로 분산되지 않고 어느 하나의 대표어로 용이하게 관리할 수 있으므로, 각종 문서의 분석 및 통계 작업을 수행할 때 편의성이 증대되며, 검색이나 문서 요약과 관련된 딥러닝 모델 생성에 사용할 학습 데이터의 구축을 손쉽게 수행할 수 있게 된다.
상기 외부서버(200)는 정부기관, 사설기관, 기업, 개인 등이 운영하는 서버이다. 즉, 문서를 보유 및 수집하거나, 데이터 처리를 통해 가공 정보를 산출하는 서버를 의미하는 것으로서, 상기 인공지능 기반 유의어 치환장치(100)에 각종 문서를 제공한다.
상기 데이터베이스(300)는 상기 외부 서버(200)로부터 제공받아 수집한 각종 문서는 물론, 상기 인공지능 기반 유의어 치환장치(100)에서 유의어 그룹을 선정할 때 사용하는 유의어 사전을 저장하고 있다. 이때 유의어 사전은 표준국어사전이다.
또한, 상기 데이터베이스(300)는 상기 인공지능 기반 유의어 치환장치(100)에서 처리한 각 문서별 유의어의 대표어 치환 결과를 저장하여 관리한다.
도 2는 본 발명의 일 실시예에 따른 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법이 적용되는 인공지능 기반 유의어 치환장치의 구성을 보다 상세하게 나타낸 블록도이다.
도 2에 도시된 바와 같이, 상기 인공지능 기반 유의어 치환장치(100)는 문서 수집부(110), 대표어 관리부(120), 치환대상 세트 구성부(130), 유의어 치환 처리부(140) 등을 포함하여 구성된다.
상기 문서 수집부(110)는 상기 외부서버(200)를 통해 온라인상에서 문서를 수집한다. 일 예로, 상기 문서 수집부(110)는 로봇 프로세스 자동화(Robot Process Automation)를 사용한 크롤링(crawling)을 통해서 문서를 실시간 또는 주기적으로 수집할 수 있다.
상기 대표어 관리부(120)는 상기 문서 수집부(110)로부터 제공되는 문서에서 복수의 단어를 추출하고, 상기 추출한 복수의 단어를 대상으로 적어도 하나 이상의 유의어 그룹을 선정하며, 각 유의어 그룹별 대표어를 설정하는 기능을 수행한다.
이때 상기 대표어 관리부(120)는 문장 분리부(121), 형태소 분석부(122), 유의어 그룹 선정부(123), 대표어 선택부(124), 유사도 측정부(125) 등을 포함하여 구성된다.
상기 문장 분리부(121)는 상기 문서 수집부(110)로부터 제공되는 문서를 문장 단위로 분리한다.
상기 형태소 분석부(122)는 상기 문장 분리부(121)에서 분리한 문장을 형태소 분석용 인공지능 모델에 입력하여 복수의 단어를 추출한다.
이때 각 문장의 형태소 분석을 통해서 추출되는 단어는 명사형(NNG) 단어가 가장 대표적이며, 그 이외에 동사(VV) 및 형용사(VA)형 서술어가 추출된다.
상기 유의어 그룹 선정부(123)는 상기 형태소 분석부(122)에서 추출한 단어들 중 복수의 명사형 단어를 대상으로 상기 데이터베이스(300)에 저장하여 관리중인 유의어 사전을 참조하여 적어도 하나 이상의 유의어 그룹을 선정한다.
상기 대표어 선택부(124)는 상기 유의어 그룹 선정부(123)에서 선정한 각 유의어 그룹별 명사형 단어 중에서 가장 빈도수가 높은 명사형 단어를 해당 유의어 그룹의 대표어로 선택한다.
상기 유사도 측정부(125)는 상기 형태소 분석부(122)를 통해 추출된 복수의 명사형 단어간의 유사도 측정을 수행한다.
이때 상기 유사도 측정은 word2vec의 단어 임베딩 기법을 사용한다. 즉, 상기 word2vec 방식을 통해서 상기 형태소 분석부(122)에서 추출된 복수의 명사형 단어의 의미를 수치로 표현하여 명사형 단어간의 유사도를 측정하는 것이다.
한편, 상기 대표어 관리부(120)는 각 문장에서 추출한 명사형 단어를 대상으로 상기 유의어 그룹 선정부(123)에서 유의어 그룹을 선정할 때, 유의어 사전에 의존하게 되면, 표준국어사전에 등록되어 있지 않은 단어를 유의어로 선정하는데 제약이 있을 수 있다.
일 예로, '행정안전부' 단어는 표준국어사전에 등록되어 있으므로 유의어 그룹으로 선정되는데 이상이 없지만, '행정안전부'의 줄임말인 '행안부'와 같은 단어는 표준국어사전에 등록되어 있지 않기 때문에 유의어 그룹으로 선정될 가능성이 거의 없다.
이러한 문제를 해결하기 위하여, 본 발명에서는 상기 형태소 분석부(122)를 통해서 추출한 복수의 명사형 단어를 상기 유의어 그룹 선정부(123)에서 유의어 그룹으로 선정하는 과정에서, 형태소 분석을 거쳐 도출된 각 단어간의 유사도 측정을 토대로 줄임말 등이 유의어 그룹 선정에 제외되지 않도록 한다.
보다 구체적으로, 상기 유사도 측정부(125)에서 측정한 유사도 측정값과 기 설정된 임계값을 비교하고, 상기 비교한 결과 상기 유사도 측정값이 상기 임계값 이상이면, 명사형 단어를 유의어 그룹에 포함하여 상기 유의어 사전에 존재하지 않는 명사형 단어를 추가한다.
상기 치환대상 세트 구성부(130)는 상기 유의어 그룹 선정부(123)에서 선정한 유의어 그룹에 속하는 유의어를 중심으로 뒤에 오는 서술어를 결합한 치환대상 세트를 구성한다.
상기 유의어 치환 처리부(140)는 상기 치환대상 세트 구성부(130)에서 구성한 치환대상 세트가 기 설정된 치환조건을 만족하면, 해당 치환대상 세트의 유의어를 상기 설정한 대표어로 치환한다.
이때 상기 유의어 치환 처리부(140)는 빈도 확률 계산부(141)와 유의어 치환부(142)로 구성된다.
상기 빈도 확률 계산부(141)는 상기 치환대상 세트 구성부(130)에서 구성한 각 치환대상 세트를 나열한 다음, 각 치환대상 세트별 빈도 확률을 계산한다.
상기 유의어 치환부(142)는 상기 빈도 확률 계산부(141)에서 계산한 치환대상 세트별 빈도 확률을 기 설정된 치환조건과 비교하고, 상기 비교한 결과 상기 빈도 확률이 상기 치환조건을 만족하면, 해당 치환대상 세트의 유의어를 상기 대표어 관리부(120)에서 설정한 대표어로 치환한다.
이때 상기 치환조건은 상기 빈도 확률이 소정 수치로 설정되는 임계값 이상인 조건이며, 본 발명에서는 0.1로 설정한다. 물론 이 수치는 사용환경에 따라 변경 가능하다.
한편, 유의어 그룹에 속하는 모든 유의어가 대표어로 치환되는 것은 아니다. 즉, 상기 치환대상 세트 구성부(130)에서 구성한 치환대상 세트 중 치환조건을 만족하는 일부 치환대상 세트의 유의어가 대표어로 치환되는 것이다.
일 예로, 대표어인 계란의 유의어로는 달걀, 계자, 계단 등이 있는데, 이를 통해서 '나는 오늘 아침에 계란을 먹었어'는 '나는 오늘 아침에 달걀을 먹었어'로 치환하는데 있어서 자연스럽지만 '나는 오늘 아침에 계단을 먹었어'로 치환하면 매우 어색하다. 물론 '계단'은 鷄(닭 계), 蛋(새알 단)으로 유의어가 맞지만 우리가 사용하는 빈도는 '달걀'이 더 높을 것이고, '계단'은 오르내리기 위해 사용하는 층계의 의미가 더 크다. 이에 따라 유의어 달걀은 빈도 확률이 임계값 이상으로 계산될 확률이 높으므로 대표어인 계란으로 치환될 확률이 높지만, 계단, 계자는 빈도 확률이 임계값 이하가 될 확률이 높으므로 대표어인 계란으로 치환하기 어려울 것이다.
도 3은 도 2의 인공지능 기반 유의어 치환장치의 하드웨어 구조를 나타낸 도면이다.
도 3에 도시한 것과 같이, 상기 인공지능 기반 유의어 치환장치(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.
상기 사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.
상기 데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다. 상기 네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.
상기 웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 상기 인공지능 기반 유의어 치환장치(100)를 사용할 수 있다.
상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.
컴퓨터 판독 가능한 기록매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.
또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.
다음에는, 이와 같이 구성된 본 발명에 따른 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법의 일 실시예를 도 4를 참조하여 상세하게 설명한다. 이때 본 발명의 방법에 따른 각 단계는 사용 환경이나 당업자에 의해 순서가 변경될 수 있다.
도 4는 본 발명의 일 실시예에 따른 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법의 동작과정을 상세하게 나타낸 순서도이다.
먼저 도 4에 도시된 바와 같이, 상기 인공지능 기반 유의어 치환장치(100)는 네트워크를 통해 상기 복수의 외부서버(200)로부터 각종 문서를 수집하는 단계를 수행한다(S100).
이어서, 상기 인공지능 기반 유의어 치환장치(100)는 상기 외부서버(200)로부터 수집한 문서를 문장 단위로 분리하는 단계를 수행하고(S200), 상기 분리한 문장을 형태소 분석용 인공지능 모델에 입력하여 해당 문장 내의 각 단어를 추출하는 단계를 수행한다(S300). 즉, 형태소 분석 과정을 통해서 문장으로부터 명사형 단어는 물론, 동사 및 형용사형 서술어를 추출하는 것이다.
또한, 상기 인공지능 기반 유의어 치환장치(100)는 상기 S300 단계의 형태소 분석을 통해서 추출한 복수의 단어 중 명사형 단어들을 유의어 사전을 참조하여 적어도 하나 이상의 유의어 그룹으로 선정하는 단계를 수행한다(S400).
여기서, 본 발명은 상기 S400 단계의 유의어 그룹 선정과정에서, 단순히 유의어 사전만을 사용하면 상기 S200 단계에서 분리한 문장의 모든 명사형 단어를 유의어 그룹으로 선정하기 어렵기 때문에, 상기 S300 단계의 형태소 분석을 통해 추출된 복수의 명사형 단어간의 유사도 측정을 수행하는 유사도 측정 단계를 추가로 수행하고, 그 결과를 토대로 유의어 사전에 등록되어 있지 않은 단어에 대해서도 유의어 그룹으로 선정할 수 있도록 한다.
이때 상기 유사도 측정으로 word2vec 방식을 사용하는 것은 상기 설명한 바와 같다.
이제, 상기 S400 단계를 통해 유의어 그룹을 선정한 이후, 상기 인공지능 기반 유의어 치환장치(100)는 적어도 하나 이상의 유의어 그룹별 대표어를 설정하는 대표어 관리 단계를 수행한다(S500).
이어서, 상기 인공지능 기반 유의어 치환장치(100)는 상기 S400 단계에서 선정한 유의어 그룹에 속하는 유의어를 중심으로 뒤에 오는 서술어를 결합한 치환대상 세트를 구성하는 치환대상 세트 구성 단계를 수행하고(S600), 상기 구성한 각 치환대상 세트별 빈도 확률을 계산하며(S700), 상기 계산한 각 치환대상 세트별 빈도 확률이 기 설정된 치환조건을 만족하는지의 여부를 판단한다(S800). 이때 상기 치환조건은 상기 빈도 확률이 소정 수치로 설정되는 임계값 이상인 조건이다.
상기 S800 단계에서 판단한 결과 각 치환대상 세트별 빈도 확률이 치환조건을 만족하면, 상기 인공지능 기반 유의어 치환장치(100)는 해당 치환대상 세트의 유의어를 상기 S500 단계에서 설정한 대표어로 치환하는 유의어 치환 처리 단계를 수행한다(S900).
이처럼, 본 발명은 문서에서 추출한 비슷한 의미를 가지는 단어 중 어느 단어를 대표어로 결정하여 관리할 것인지를 자동으로 결정할 수 있으므로, 다양한 유의어로 분산되지 않고 어느 하나의 대표어를 통해서 분석 및 통계 작업을 수행할 수 있다.
또한, 본 발명은 명사형 단어와 동사 및 형용사형 단어를 포함한 서술어의 결합을 통해서 유의어의 치환 가능 여부를 계산 및 판단하여 대표어 치환을 수행하기 때문에, 검색이나 문서 요약과 관련된 딥러닝 모델 생성에 사용할 학습 데이터의 구축이 용이하다.
첨부된 도면은 본 발명의 기술적 사상을 보다 명확하게 표현하기 위해, 본 발명의 기술적 사상과 관련성이 없거나 떨어지는 구성에 대해서는 간략하게 표현하거나 생략하였다.
상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명백한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.
100 : 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환장치
110 : 문서 수집부 120 : 대표어 관리부
121 : 문장 분리부 122 : 형태소 분석부
123 : 유의어 그룹 선정부 124 : 대표어 선택부
125 : 유사도 측정부 130 : 치환대상 세트 구성부
140 : 유의어 치환 처리부 141 : 빈도 확률 계산부
142 : 유의어 치환부 200 : 외부서버
300 : 데이터베이스

Claims (6)

  1. 인공지능 기반 유의어 치환장치에서 수행되는 것으로서,
    주어진 문서에서 추출한 복수의 단어를 대상으로 선정한 적어도 하나 이상의 유의어 그룹별 대표어를 설정하는 대표어 관리 단계;
    상기 선정한 유의어 그룹에 속하는 유의어를 중심으로 뒤에 오는 서술어를 결합한 치환대상 세트를 구성하는 치환대상 세트 구성 단계; 및
    상기 구성한 치환대상 세트가 기 설정된 치환조건을 만족하면 해당 치환대상 세트의 유의어를 상기 설정한 대표어로 치환하는 유의어 치환 처리 단계;를 포함하며,
    상기 대표어 관리 단계는,
    주어진 문서를 문장 단위로 분리하는 문장 분리 단계;
    상기 분리한 문장의 형태소 분석을 수행하여 복수의 단어를 추출하는 형태소 분석 단계;
    상기 주어진 문서로부터 추출한 단어들 중 복수의 명사형 단어를 기 설정된 유의어 사전을 참조하여 적어도 하나 이상의 유의어 그룹으로 선정하는 유의어 그룹 선정 단계;
    상기 선정한 유의어 그룹의 명사형 단어 중에서 다빈도의 명사형 단어를 해당 유의어 그룹의 대표어로 선택하는 대표어 선택 단계; 및
    word2vec의 단어 임베딩 기법을 활용하여, 상기 형태소 분석 단계를 통해 추출된 복수의 명사형 단어의 의미를 수치로 표현하는 것을 통해서 명사형 단어간의 유사도 측정을 수행하는 유사도 측정 단계;를 포함하며,
    상기 유의어 그룹 선정 단계는,
    상기 형태소 분석 단계를 통해서 추출한 복수의 명사형 단어를 유의어 그룹으로 선정하는 과정에서, 상기 유의어 사전에 등재되지 않은 줄임말을 포함한 명사형 단어가 유의어 그룹 선정에 제외되지 않도록, 상기 유사도 측정 단계에서 측정한 유사도 측정값과 기 설정된 임계값을 비교하고, 상기 비교한 결과 상기 유사도 측정값이 상기 임계값 이상인 명사형 단어를 유의어 그룹에 포함함으로써, 상기 유의어 사전에 존재하지 않는 명사형 단어를 추가하는 것을 더 포함하며,
    상기 유의어 치환 처리 단계는,
    상기 치환대상 세트 구성 단계를 통해 구성한 치환대상 세트별 빈도 확률을 계산하는 빈도 확률 계산 단계; 및
    상기 계산한 치환대상 세트별 빈도 확률을 기 설정된 치환조건과 비교하고, 상기 비교한 결과 상기 치환조건을 만족하는 일부 치환대상 세트의 유의어를 상기 설정한 대표어로 치환하는 유의어 치환 단계;를 포함하며,
    상기 치환조건은, 상기 빈도 확률이 소정 수치로 설정되는 임계값 이상인 조건이며,
    상기 문서 내에서 추출한 유사 의미의 단어들을 상기 설정한 대표어로 치환하여 관리할 수 있도록 지원하는 것을 특징으로 하는 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 청구항 1에 있어서,
    상기 서술어는,
    상기 형태소 분석 단계에서 수행한 형태소 분석 결과를 통해서 추출되는 동사 및 형용사형 단어인 것을 특징으로 하는 문서 내의 유의어를 대표어로 관리하기 위한 인공지능 기반 유의어 치환방법.
  6. 삭제
KR1020230101001A 2023-08-02 2023-08-02 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법 KR102639880B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230101001A KR102639880B1 (ko) 2023-08-02 2023-08-02 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230101001A KR102639880B1 (ko) 2023-08-02 2023-08-02 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법

Publications (1)

Publication Number Publication Date
KR102639880B1 true KR102639880B1 (ko) 2024-02-23

Family

ID=90041742

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230101001A KR102639880B1 (ko) 2023-08-02 2023-08-02 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법

Country Status (1)

Country Link
KR (1) KR102639880B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108894A (ja) * 2000-09-27 2002-04-12 Ricoh Co Ltd 文書分類装置、文書分類方法及び該方法を実行するための記録媒体
KR20070008994A (ko) * 2005-07-14 2007-01-18 주식회사 케이티 비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템및 그 방법
KR101451108B1 (ko) * 2013-10-31 2014-10-16 숭실대학교산학협력단 대체어 추출 방법 및 장치
KR20220126493A (ko) * 2021-03-09 2022-09-16 주식회사 마이데이터랩 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108894A (ja) * 2000-09-27 2002-04-12 Ricoh Co Ltd 文書分類装置、文書分類方法及び該方法を実行するための記録媒体
KR20070008994A (ko) * 2005-07-14 2007-01-18 주식회사 케이티 비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템및 그 방법
KR101451108B1 (ko) * 2013-10-31 2014-10-16 숭실대학교산학협력단 대체어 추출 방법 및 장치
KR20220126493A (ko) * 2021-03-09 2022-09-16 주식회사 마이데이터랩 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치

Similar Documents

Publication Publication Date Title
US10725836B2 (en) Intent-based organisation of APIs
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
Ghahremanlou et al. Geotagging twitter messages in crisis management
Vysotska et al. Method of similar textual content selection based on thematic information retrieval
KR20180058449A (ko) 워드 벡터를 이용한 시맨틱 검색 시스템 및 방법
KR20210143431A (ko) 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법
JP5836893B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
Ortegaray et al. Heat kernel analysis of syntactic structures
KR102540944B1 (ko) 메타데이터를 활용한 인공지능 기반 문서관리 및 통합 검색 지원 디지털 콘텐츠 시스템
KR102639880B1 (ko) 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법
KR102639873B1 (ko) 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치
CN115062135B (zh) 一种专利筛选方法与电子设备
KR102460438B1 (ko) 요약문과 키워드 추출을 위한 문서 정보처리 시스템 및 문서 정보처리 방법
KR102454261B1 (ko) 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법
KR102371224B1 (ko) 공항 및 항공 기술의 트렌드 분석 장치 및 방법
John et al. A personalised user preference and feature based semantic information retrieval system in semantic web search
Ma et al. Api prober–a tool for analyzing web api features and clustering web apis
KR102639858B1 (ko) 문서의 주제별 현황 정보 제공을 위한 인공지능 기반키워드 분류 및 대표 단어 사전 구축 시스템
Algiriyage et al. DEES: a real-time system for event extraction from disaster-related web text
KR102639876B1 (ko) 인공지능 기술을 활용한 주제별 유사 의미 키워드 분류사전 구축 방법
KR102599713B1 (ko) 문서 본문 내용을 기반으로 한 핵심 키워드 선정 시스템 및 그 방법
KR102640194B1 (ko) 딥러닝 분석으로 연관 키워드의 대표 단어를 치환하여문서의 현황 정보를 제공하는 방법
Kremer et al. Predicting cognitively salient modifiers of the constitutive parts of concepts
KR101078907B1 (ko) 문서 평가 시스템
KR102467307B1 (ko) 딥러닝 기반 문서 검색을 위한 정확도 계산 시스템 및 정확도 계산 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant