KR102639873B1 - 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치 - Google Patents
인공지능을 활용한 대표어 관리를 위한 유의어 치환장치 Download PDFInfo
- Publication number
- KR102639873B1 KR102639873B1 KR1020230100997A KR20230100997A KR102639873B1 KR 102639873 B1 KR102639873 B1 KR 102639873B1 KR 1020230100997 A KR1020230100997 A KR 1020230100997A KR 20230100997 A KR20230100997 A KR 20230100997A KR 102639873 B1 KR102639873 B1 KR 102639873B1
- Authority
- KR
- South Korea
- Prior art keywords
- words
- synonym
- representative
- word
- noun
- Prior art date
Links
- 238000006467 substitution reaction Methods 0.000 claims abstract description 42
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims description 29
- 238000005259 measurement Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 238000007726 management method Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000003412 degenerative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치에 관한 것으로, 문서 내의 유사의미의 단어를 하나의 대표어로 관리할 수 있도록 하는 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치에 관한 것이다.
Description
본 발명은 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치에 관한 것으로, 더욱 상세하게는 문서 내의 유사의미의 단어를 하나의 대표어로 관리할 수 있도록 하는 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치에 관한 것이다.
통신 및 기술의 발달로 인해서 각종 문서의 생성 및 이용이 늘어나고, 각종 문서에 대한 디지털 정보 변환 및 이에 대한 데이터 관리의 중요성이 증가하면서 공간 절약, 검색 효율성 및 데이터 통합 등의 관점에서 데이터 관리가 점차 중요해지고 있다.
특히, 최근 들어 자연어 처리 분야가 각광받으면서 주어진 문서의 핵심 내용을 추출하거나, 요약하여 간결하고 이해하기 쉬운 형태로 제공하거나, 주제에 따른 분류 작업을 수행하는데 있어 인공지능(Artificial Intelligence)이 활발하게 사용되고 있다.
그러나 주어진 문서를 통계 및 분석하는 과정에서, 여러 의미의 유의어로 분산되면 통계 및 분석 작업에 어려움이 발생하였고, 이로 인해 데이터 처리의 신뢰도가 저하될 수 있으며, 인공지능 모델을 생성하는데 필요한 학습 데이터를 생성하는 것도 쉽지 않다.
따라서 본 발명에서는 문서에서 추출한 비슷한 의미를 가지는 단어 중 어느 단어를 대표어로 결정하여 관리할 것인지를 자동으로 결정할 수 있는 방안을 제시하고자 한다.
특히, 본 발명은 문서에서 추출한 유사 의미의 단어 중 어느 하나를 대표어로 설정하고, 유사 의미의 단어를 중심으로 바로 뒤에 오는 서술어를 세트로 구성하고, 각각의 단어 및 서술어 세트별 빈도 확률 계산을 통해서 유의어로 판단된 단어를 대표어로 치환할 수 있도록 하는 방안을 제시하고자 한다.
다음으로 본 발명의 기술분야에 존재하는 선행발명에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행발명에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
먼저, 한국공개특허 제2023-0013140호(2023.01.26.)는 입력된 콘텐츠를 키워드 추출 규칙을 기반으로 분석하여 복수의 키워드를 추출하고, 이음동의어 또는 유사어에 해당하거나 일정 수준 이상의 유사도를 갖는 키워드끼리 유사 키워드로 분류한 후 각 키워드의 유사 키워드 개수와 키워드 추출 기준과의 매칭도를 기반으로 분류된 각 키워드에 가중치를 부여하며, 이를 기반으로 컨텐츠 검색을 지원하는 것을 특징으로 하는 키워드 추출 규칙 기반의 키워드 추출 장치, 방법 및 프로그램에 관한 선행발명이다.
또한, 한국공개특허 제2011-0125966호(2011.11.22.)는 유효 문장 그룹을 생성하고, 주어 기준 술어/목적어 빈도 추출하고 자질 벡터를 산출하여 유의어 그룹을 생성하고 유의어 그룹의 대표 단어를 생성하는 것을 특징으로 하는 문장 분석을 이용한 유의어 그룹 생성 방법 및 시스템에 관한 선행발명이다.
하지만, 본 발명은 문서에서 추출한 유사 의미의 단어를 중심으로 바로 뒤에 오는 서술어를 세트로 구성하고, 단어 및 서술어 세트별 빈도 확률 계산을 통해서 유의어로 판단된 단어를 대표어로 치환하여 관리하는 것으로서, 키워드 추출 규칙을 이용하여 콘텐츠에 관련된 키워드들을 자동으로 추출하여 대표 키워드로 설정하는 구성에 대해 제시하고 있는 상기 한국공개특허 제2023-0013140호, 및 문장 분석을 통해 상호 연관성이 큰 단어들을 추출하여 유의어 그룹을 생성하는 구성에 대해 제시하고 있는 상기 한국공개특허 제2011-0125966호와 비교해 볼 때, 현저한 구성상 차이점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 문서 내의 유사의미의 단어를 하나의 대표어로 관리할 수 있는 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치를 제공하는 것을 목적으로 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
본 발명의 일 실시예에 따른 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치는, 주어진 문서에서 추출한 복수의 단어를 대상으로 선정한 적어도 하나 이상의 유의어 그룹별 대표어를 설정하는 대표어 관리부; 상기 선정한 유의어 그룹에 속하는 유의어를 중심으로 뒤에 오는 서술어를 결합한 치환대상 세트를 구성하는 치환대상 세트 구성부; 및 상기 구성한 치환대상 세트가 기 설정된 치환조건을 만족하면 해당 치환대상 세트의 유의어를 상기 설정한 대표어로 치환하는 유의어 치환 처리부;를 포함하며, 상기 문서 내에서 추출한 유사 의미의 단어들을 상기 설정한 대표어로 치환하여 관리할 수 있도록 지원하는 것을 특징으로 한다.
또한, 상기 대표어 관리부는, 주어진 문서를 문장 단위로 분리하는 문장 분리부; 상기 분리한 문장의 형태소 분석을 수행하여 복수의 단어를 추출하는 형태소 분석부; 상기 추출한 단어들 중 복수의 명사형 단어를 기 설정된 유의어 사전을 참조하여 적어도 하나 이상의 유의어 그룹으로 선정하는 유의어 그룹 선정부; 및 상기 선정한 유의어 그룹의 명사형 단어 중에서 다빈도의 명사형 단어를 해당 유의어 그룹의 대표어로 선택하는 대표어 선택부;를 포함하는 것을 특징으로 한다.
또한, 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치는, 상기 형태소 분석부를 통해 추출된 복수의 명사형 단어간의 유사도 측정을 수행하는 유사도 측정부;를 더 포함하며, 상기 유사도 측정은, word2vec의 단어 임베딩 기법을 활용하여 상기 추출된 복수의 명사형 단어의 의미를 수치로 표현하는 것을 통해서 명사형 단어간의 유사도를 측정하는 것을 특징으로 한다.
또한, 상기 유의어 그룹 선정부는, 상기 형태소 분석부를 통해서 추출한 복수의 명사형 단어를 유의어 그룹으로 선정하는 과정에서, 상기 유사도 측정부에서 측정한 유사도 측정값과 기 설정된 임계값을 비교하고, 상기 비교한 결과 상기 유사도 측정값이 상기 임계값 이상인 명사형 단어를 유의어 그룹에 포함하는 것을 통해서, 상기 유의어 사전에 존재하지 않는 명사형 단어를 추가하는 것을 특징으로 한다.
또한, 상기 서술어는, 상기 형태소 분석부에서 수행한 형태소 분석 결과를 통해서 추출되는 동사 및 형용사형 단어인 것을 특징으로 한다.
또한, 상기 유의어 치환 처리부는, 상기 구성한 치환대상 세트별 빈도 확률을 계산하는 빈도 확률 계산부; 및 상기 계산한 치환대상 세트별 빈도 확률을 기 설정된 치환조건과 비교하고, 상기 비교한 결과 상기 빈도 확률이 상기 치환조건을 만족하는 치환대상 세트의 유의어를 상기 설정한 대표어로 치환하는 유의어 치환부;를 포함하며, 상기 치환조건은, 상기 빈도 확률이 소정 수치로 설정되는 임계값 이상인 조건으로서, 상기 임계값은 0.1로 설정되는 것을 특징으로 한다.
이상에서와 같이 본 발명의 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치에 따르면, 문서에서 추출한 단어들을 다양한 유의어로 분산하지 않고 어느 하나의 대표어로 관리하므로 분석 및 통계 작업을 용이하게 수행할 수 있는 효과가 있다.
또한, 대표어 관리를 통해서 검색이나 문서 요약과 관련된 딥러닝 모델 생성에 사용할 학습 데이터의 구축이 용이한 효과가 있다.
다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치를 포함한 전체 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치의 구성을 보다 상세하게 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치의 하드웨어 구조를 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치의 구성을 보다 상세하게 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치의 하드웨어 구조를 나타낸 도면이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.
또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치를 포함한 전체 구성을 개략적으로 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명은 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100), 복수의 외부서버(200), 데이터베이스(300) 등을 포함하여 구성된다.
상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)는 복수의 외부서버(200)로부터 수집한 문서 내에서 비슷한 의미를 가진 단어(즉 유의어)를 추출하고, 이를 어느 하나의 대표어로 치환하여 관리한다.
상기 네트워크는 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미한다.
상기 문서는 전자적으로 작성되거나 관리되는 것으로서, 예를 들어 내부 결재 서류, 업무 진행 상황들이 누적된 보고 서류 등을 포함할 수 있다. 다만, 이에 한정하지 않고, 상기 문서의 종류는 통상의 기술자에게 자명한 수준에서 다양하게 변형 가능하다.
이때 상기 문서는 각종 텍스트 등 자료가 포함된 문서들일 수 있고, 각종 행정 문서, 보고서, 논문 및 평가서 등 다양한 포맷일 수 있고, odt, pdf, ppt, pptx, xls, xlsx, doc, docx, hwp 및 hwpx 등 파일형식을 갖출 수 있으며, 데이터베이스(300) 상에 저장되어 있을 수 있다.
일 예로, 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)는 인공지능을 활용하여 상기 외부서버(200)로부터 수집한 문서에서 각 단어를 추출하고, 추출한 각 단어를 유사한 의미의 그룹으로 분리하여 적어도 하나 이상의 유의어 그룹을 선정한다.
이후, 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)는 상기 선정한 유의어 그룹 내의 단어들 중에서 빈도수가 가장 높은 단어를 대표어로 설정한다.
또한, 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)는 각 유의어 그룹에서 대표어를 설정한 다음, 해당 유의어 그룹 내의 유의어를 중심으로 바로 뒤에 오는 서술어를 세트로 구성하고, 각각의 단어 및 서술어 세트별 빈도 확률을 계산하여 사전에 설정한 임계수치 이상일 경우 유의어로 판단된 단어를 대표어로 치환한다.
이렇게 유사어를 대표어로 치환하여 관리하게 되면, 다양한 유의어로 분산되지 않고 어느 하나의 대표어로 용이하게 관리할 수 있으므로, 각종 문서의 분석 및 통계 작업을 수행할 때 편의성이 증대되며, 검색이나 문서 요약과 관련된 딥러닝 모델 생성에 사용할 학습 데이터의 구축을 손쉽게 수행할 수 있게 된다.
상기 외부서버(200)는 정부기관, 사설기관, 기업, 개인 등이 운영하는 서버이다. 즉, 문서를 보유 및 수집하거나, 데이터 처리를 통해 가공 정보를 산출하는 서버를 의미하는 것으로서, 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)에 각종 문서를 제공한다.
상기 데이터베이스(300)는 상기 외부 서버(200)로부터 제공받아 수집한 각종 문서는 물론, 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)에서 유의어 그룹을 선정할 때 사용하는 유의어 사전을 저장하고 있다. 이때 유의어 사전은 표준국어사전이다.
또한, 상기 데이터베이스(300)는 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)에서 처리한 각 문서별 유의어의 대표어 치환 결과를 저장하여 관리한다.
도 2는 본 발명의 일 실시예에 따른 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치의 구성을 보다 상세하게 나타낸 블록도이다.
도 2에 도시된 바와 같이, 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)는 문서 수집부(110), 대표어 관리부(120), 치환대상 세트 구성부(130), 유의어 치환 처리부(140) 등을 포함하여 구성된다.
상기 문서 수집부(110)는 상기 외부서버(200)를 통해 온라인상에서 문서를 수집한다. 일 예로, 상기 문서 수집부(110)는 로봇 프로세스 자동화(Robot Process Automation)를 사용한 크롤링(crawling)을 통해서 문서를 실시간 또는 주기적으로 수집할 수 있다.
상기 대표어 관리부(120)는 상기 문서 수집부(110)로부터 제공되는 문서에서 복수의 단어를 추출하고, 상기 추출한 복수의 단어를 대상으로 적어도 하나 이상의 유의어 그룹을 선정하며, 각 유의어 그룹별 대표어를 설정하는 기능을 수행한다.
이때 상기 대표어 관리부(120)는 문장 분리부(121), 형태소 분석부(122), 유의어 그룹 선정부(123), 대표어 선택부(124), 유사도 측정부(125) 등을 포함하여 구성된다.
상기 문장 분리부(121)는 상기 문서 수집부(110)로부터 제공되는 문서를 문장 단위로 분리한다.
상기 형태소 분석부(122)는 상기 문장 분리부(121)에서 분리한 문장을 형태소 분석용 인공지능 모델에 입력하여 복수의 단어를 추출한다.
이때 각 문장의 형태소 분석을 통해서 추출되는 단어는 명사형(NNG) 단어가 가장 대표적이며, 그 이외에 동사(VV) 및 형용사(VA)형 서술어가 추출된다.
상기 유의어 그룹 선정부(123)는 상기 형태소 분석부(122)에서 추출한 단어들 중 복수의 명사형 단어를 대상으로 상기 데이터베이스(300)에 저장하여 관리중인 유의어 사전을 참조하여 적어도 하나 이상의 유의어 그룹을 선정한다.
상기 대표어 선택부(124)는 상기 유의어 그룹 선정부(123)에서 선정한 각 유의어 그룹별 명사형 단어 중에서 가장 빈도수가 높은 명사형 단어를 해당 유의어 그룹의 대표어로 선택한다.
상기 유사도 측정부(125)는 상기 형태소 분석부(122)를 통해 추출된 복수의 명사형 단어간의 유사도 측정을 수행한다.
이때 상기 유사도 측정은 word2vec의 단어 임베딩 기법을 사용한다. 즉, 상기 word2vec 방식을 통해서 상기 형태소 분석부(122)에서 추출된 복수의 명사형 단어의 의미를 수치로 표현하여 명사형 단어간의 유사도를 측정하는 것이다.
한편, 상기 대표어 관리부(120)는 각 문장에서 추출한 명사형 단어를 대상으로 상기 유의어 그룹 선정부(123)에서 유의어 그룹을 선정할 때, 유의어 사전에 의존하게 되면, 표준국어사전에 등록되어 있지 않은 단어를 유의어로 선정하는데 제약이 있을 수 있다.
일 예로, '행정안전부' 단어는 표준국어사전에 등록되어 있으므로 유의어 그룹으로 선정되는데 이상이 없지만, '행정안전부'의 줄임말인 '행안부'와 같은 단어는 표준국어사전에 등록되어 있지 않기 때문에 유의어 그룹으로 선정될 가능성이 거의 없다.
이러한 문제를 해결하기 위하여, 본 발명에서는 상기 형태소 분석부(122)를 통해서 추출한 복수의 명사형 단어를 상기 유의어 그룹 선정부(123)에서 유의어 그룹으로 선정하는 과정에서, 형태소 분석을 거쳐 도출된 각 단어간의 유사도 측정을 토대로 줄임말 등이 유의어 그룹 선정에 제외되지 않도록 한다.
보다 구체적으로, 상기 유사도 측정부(125)에서 측정한 유사도 측정값과 기 설정된 임계값을 비교하고, 상기 비교한 결과 상기 유사도 측정값이 상기 임계값 이상이면, 명사형 단어를 유의어 그룹에 포함하여 상기 유의어 사전에 존재하지 않는 명사형 단어를 추가한다.
상기 치환대상 세트 구성부(130)는 상기 유의어 그룹 선정부(123)에서 선정한 유의어 그룹에 속하는 유의어를 중심으로 뒤에 오는 서술어를 결합한 치환대상 세트를 구성한다.
상기 유의어 치환 처리부(140)는 상기 치환대상 세트 구성부(130)에서 구성한 치환대상 세트가 기 설정된 치환조건을 만족하면, 해당 치환대상 세트의 유의어를 상기 설정한 대표어로 치환한다.
이때 상기 유의어 치환 처리부(140)는 빈도 확률 계산부(141)와 유의어 치환부(142)로 구성된다.
상기 빈도 확률 계산부(141)는 상기 치환대상 세트 구성부(130)에서 구성한 각 치환대상 세트를 나열한 다음, 각 치환대상 세트별 빈도 확률을 계산한다.
상기 유의어 치환부(142)는 상기 빈도 확률 계산부(141)에서 계산한 치환대상 세트별 빈도 확률을 기 설정된 치환조건과 비교하고, 상기 비교한 결과 상기 빈도 확률이 상기 치환조건을 만족하면, 해당 치환대상 세트의 유의어를 상기 대표어 관리부(120)에서 설정한 대표어로 치환한다.
이때 상기 치환조건은 상기 빈도 확률이 소정 수치로 설정되는 임계값 이상인 조건이며, 본 발명에서는 0.1로 설정한다. 물론 이 수치는 사용환경에 따라 변경 가능하다.
한편, 유의어 그룹에 속하는 모든 유의어가 대표어로 치환되는 것은 아니다. 즉, 상기 치환대상 세트 구성부(130)에서 구성한 치환대상 세트 중 치환조건을 만족하는 일부 치환대상 세트의 유의어가 대표어로 치환되는 것이다.
일 예로, 대표어인 계란의 유의어로는 달걀, 계자, 계단 등이 있는데, 이를 통해서 '나는 오늘 아침에 계란을 먹었어'는 '나는 오늘 아침에 달걀을 먹었어'로 치환하는데 있어서 자연스럽지만 '나는 오늘 아침에 계단을 먹었어'로 치환하면 매우 어색하다. 물론 '계단'은 鷄(닭 계), 蛋(새알 단)으로 유의어가 맞지만 우리가 사용하는 빈도는 '달걀'이 더 높을 것이고, '계단'은 오르내리기 위해 사용하는 층계의 의미가 더 크다. 이에 따라 유의어 달걀은 빈도 확률이 임계값 이상으로 계산될 확률이 높으므로 대표어인 계란으로 치환될 확률이 높지만, 계단, 계자는 빈도 확률이 임계값 이하가 될 확률이 높으므로 대표어인 계란으로 치환하기 어려울 것이다.
도 3은 본 발명의 일 실시예에 따른 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치의 하드웨어 구조를 나타낸 도면이다.
도 3에 도시한 것과 같이, 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.
상기 사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.
상기 데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다. 상기 네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.
상기 웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 상기 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치(100)를 사용할 수 있다.
상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.
컴퓨터 판독 가능한 기록매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.
또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.
이처럼, 본 발명은 문서에서 추출한 비슷한 의미를 가지는 단어 중 어느 단어를 대표어로 결정하여 관리할 것인지를 자동으로 결정할 수 있으므로, 다양한 유의어로 분산되지 않고 어느 하나의 대표어를 통해서 분석 및 통계 작업을 수행할 수 있다.
또한, 본 발명은 명사형 단어와 동사 및 형용사형 단어를 포함한 서술어의 결합을 통해서 유의어의 치환 가능 여부를 계산 및 판단하여 대표어 치환을 수행하기 때문에, 검색이나 문서 요약과 관련된 딥러닝 모델 생성에 사용할 학습 데이터의 구축이 용이하다.
첨부된 도면은 본 발명의 기술적 사상을 보다 명확하게 표현하기 위해, 본 발명의 기술적 사상과 관련성이 없거나 떨어지는 구성에 대해서는 간략하게 표현하거나 생략하였다.
상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명백한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.
100 : 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치
110 : 문서 수집부 120 : 대표어 관리부
121 : 문장 분리부 122 : 형태소 분석부
123 : 유의어 그룹 선정부 124 : 대표어 선택부
125 : 유사도 측정부 130 : 치환대상 세트 구성부
140 : 유의어 치환 처리부 141 : 빈도 확률 계산부
142 : 유의어 치환부 200 : 외부서버
300 : 데이터베이스
110 : 문서 수집부 120 : 대표어 관리부
121 : 문장 분리부 122 : 형태소 분석부
123 : 유의어 그룹 선정부 124 : 대표어 선택부
125 : 유사도 측정부 130 : 치환대상 세트 구성부
140 : 유의어 치환 처리부 141 : 빈도 확률 계산부
142 : 유의어 치환부 200 : 외부서버
300 : 데이터베이스
Claims (6)
- 주어진 문서에서 추출한 복수의 단어를 대상으로 선정한 적어도 하나 이상의 유의어 그룹별 대표어를 설정하는 대표어 관리부;
상기 선정한 유의어 그룹에 속하는 유의어를 중심으로 뒤에 오는 서술어를 결합한 치환대상 세트를 구성하는 치환대상 세트 구성부; 및
상기 구성한 치환대상 세트가 기 설정된 치환조건을 만족하면 해당 치환대상 세트의 유의어를 상기 설정한 대표어로 치환하는 유의어 치환 처리부;를 포함하며,
상기 대표어 관리부는,
주어진 문서를 문장 단위로 분리하는 문장 분리부;
상기 분리한 문장의 형태소 분석을 수행하여 복수의 단어를 추출하는 형태소 분석부;
상기 주어진 문서로부터 추출한 단어들 중 복수의 명사형 단어를 기 설정된 유의어 사전을 참조하여 적어도 하나 이상의 유의어 그룹으로 선정하는 유의어 그룹 선정부;
상기 선정한 유의어 그룹의 명사형 단어 중에서 다빈도의 명사형 단어를 해당 유의어 그룹의 대표어로 선택하는 대표어 선택부; 및
word2vec의 단어 임베딩 기법을 활용하여, 상기 형태소 분석부를 통해 추출된 복수의 명사형 단어의 의미를 수치로 표현하는 것을 통해서 명사형 단어간의 유사도 측정을 수행하는 유사도 측정부;를 포함하며,
상기 유의어 그룹 선정부는, 상기 형태소 분석부를 통해서 추출한 복수의 명사형 단어를 유의어 그룹으로 선정하는 과정에서, 상기 유의어 사전에 등재되지 않은 줄임말을 포함한 명사형 단어가 유의어 그룹 선정에 제외되지 않도록, 상기 유사도 측정부에서 측정한 유사도 측정값과 기 설정된 임계값을 비교하고, 상기 비교한 결과 상기 유사도 측정값이 상기 임계값 이상인 명사형 단어를 유의어 그룹에 포함함으로써, 상기 유의어 사전에 존재하지 않는 명사형 단어를 추가하는 것을 더 포함하며,
상기 문서 내에서 추출한 유사 의미의 단어들을 상기 설정한 대표어로 치환하여 관리할 수 있도록 지원하는 것을 특징으로 하는 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치.
- 삭제
- 삭제
- 삭제
- 청구항 1에 있어서,
상기 서술어는,
상기 형태소 분석부에서 수행한 형태소 분석 결과를 통해서 추출되는 동사 및 형용사형 단어인 것을 특징으로 하는 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치. - 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230100997A KR102639873B1 (ko) | 2023-08-02 | 2023-08-02 | 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230100997A KR102639873B1 (ko) | 2023-08-02 | 2023-08-02 | 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102639873B1 true KR102639873B1 (ko) | 2024-02-23 |
Family
ID=90041752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230100997A KR102639873B1 (ko) | 2023-08-02 | 2023-08-02 | 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102639873B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108894A (ja) * | 2000-09-27 | 2002-04-12 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び該方法を実行するための記録媒体 |
KR20070008994A (ko) * | 2005-07-14 | 2007-01-18 | 주식회사 케이티 | 비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템및 그 방법 |
KR101451108B1 (ko) * | 2013-10-31 | 2014-10-16 | 숭실대학교산학협력단 | 대체어 추출 방법 및 장치 |
KR20220126493A (ko) * | 2021-03-09 | 2022-09-16 | 주식회사 마이데이터랩 | 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치 |
-
2023
- 2023-08-02 KR KR1020230100997A patent/KR102639873B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108894A (ja) * | 2000-09-27 | 2002-04-12 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び該方法を実行するための記録媒体 |
KR20070008994A (ko) * | 2005-07-14 | 2007-01-18 | 주식회사 케이티 | 비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템및 그 방법 |
KR101451108B1 (ko) * | 2013-10-31 | 2014-10-16 | 숭실대학교산학협력단 | 대체어 추출 방법 및 장치 |
KR20220126493A (ko) * | 2021-03-09 | 2022-09-16 | 주식회사 마이데이터랩 | 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10725836B2 (en) | Intent-based organisation of APIs | |
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
CN111831802B (zh) | 一种基于lda主题模型的城市领域知识检测系统及方法 | |
EP2577521A2 (en) | Detection of junk in search result ranking | |
TW201826145A (zh) | 從中文語料庫提取知識的方法和系統 | |
KR102540944B1 (ko) | 메타데이터를 활용한 인공지능 기반 문서관리 및 통합 검색 지원 디지털 콘텐츠 시스템 | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
JP5836893B2 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
Kocich | Multilingual sentiment mapping using Twitter, Open Source tools, and dictionary based machine translation approach | |
Rasheed et al. | Building a text collection for Urdu information retrieval | |
CN116738065B (zh) | 一种企业搜索方法、装置、设备及存储介质 | |
KR102639873B1 (ko) | 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치 | |
KR102460438B1 (ko) | 요약문과 키워드 추출을 위한 문서 정보처리 시스템 및 문서 정보처리 방법 | |
KR102639880B1 (ko) | 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법 | |
Ma et al. | Api prober–a tool for analyzing web api features and clustering web apis | |
Algiriyage et al. | DEES: a real-time system for event extraction from disaster-related web text | |
CN113536772A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
KR102564470B1 (ko) | 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법 | |
KR102599713B1 (ko) | 문서 본문 내용을 기반으로 한 핵심 키워드 선정 시스템 및 그 방법 | |
KR102639858B1 (ko) | 문서의 주제별 현황 정보 제공을 위한 인공지능 기반키워드 분류 및 대표 단어 사전 구축 시스템 | |
JP2011086156A (ja) | 漏洩情報追跡システムおよび漏洩情報追跡プログラム | |
KR102639876B1 (ko) | 인공지능 기술을 활용한 주제별 유사 의미 키워드 분류사전 구축 방법 | |
KR102640194B1 (ko) | 딥러닝 분석으로 연관 키워드의 대표 단어를 치환하여문서의 현황 정보를 제공하는 방법 | |
KR102467307B1 (ko) | 딥러닝 기반 문서 검색을 위한 정확도 계산 시스템 및 정확도 계산 방법 | |
KR102687013B1 (ko) | 생성형 ai 기반 검색키워드 분석을 통한 지능형 문서 검색 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |