KR102019756B1 - 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법 - Google Patents

신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법 Download PDF

Info

Publication number
KR102019756B1
KR102019756B1 KR1020170031766A KR20170031766A KR102019756B1 KR 102019756 B1 KR102019756 B1 KR 102019756B1 KR 1020170031766 A KR1020170031766 A KR 1020170031766A KR 20170031766 A KR20170031766 A KR 20170031766A KR 102019756 B1 KR102019756 B1 KR 102019756B1
Authority
KR
South Korea
Prior art keywords
new word
dictionary
new
word
candidate
Prior art date
Application number
KR1020170031766A
Other languages
English (en)
Other versions
KR20180104899A (ko
Inventor
이충희
김현기
박상규
배경만
배용진
왕지현
이형직
임수종
임준호
장명길
최미란
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170031766A priority Critical patent/KR102019756B1/ko
Priority to US15/704,254 priority patent/US10691892B2/en
Publication of KR20180104899A publication Critical patent/KR20180104899A/ko
Application granted granted Critical
Publication of KR102019756B1 publication Critical patent/KR102019756B1/ko

Links

Images

Classifications

    • G06F17/277
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F17/2735
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements

Abstract

신조어 인식을 처리하는 언어 분석 장치 및 방법과, 이에 기반한 문맥 광고 지능화 장치 및 방법을 제공하되, 문맥 광고 지능화 시 광고하고자 하는 온라인 문서를 수집하고, 수집된 온라인 문서를 신조어 인식 처리에 기반하여 형태소 분석하는 언어 분석을 하고, 형태소 분석 결과에 기초하여 적어도 하나의 키워드를 추출하고, 기등록된 광고 대상들 중 추출된 키워드에 매칭된 광고 대상을 추출하며, 추출된 광고 대상 중 추출된 키워드와의 관련도가 가장 높은 광고 대상의 광고를 추천하며, 언어 분석 시 온라인 문서를 수집하고, 수집된 문서로부터 기설정된 신조어 추출 패턴 및 사전(dictionary)에 기반한 신조어 필터링을 통해, 신조어 패턴에 해당하며 신조어 불용어 사전에 등록되어 있지 않은 신조어 후보를 추출하고, 추출된 신조어 후보에 대해 형태소 분석을 통해 기설정된 품사에 해당하지 않으며 기저장된 형태소 사전에 등록되지 않은 신조어 후보를 검증하고, 검증의 결과에 기초하여 신조어 추출 패턴을 정제하고 검증된 신조어 후보를 신조어 불용어 사전에 업데이트하는 신조어 추출 개선을 하고, 검증의 결과에 기초하여 검증된 신조어 후보를 형태소 사전에 업데이트하는 형태소 분석 개선을 처리한다.

Description

신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법{ON-LINE CONTEXTUAL ADVERTISEMENT INTELLIGENCE APPARATUS AND METHOD BASED ON LANGUAGE ANALYSIS FOR AUTOMATICALLY RECOGNIZES ABOUT COINED WORD}
본 발명은 형태소 분석 결과에 따라 온라인 문맥 맞춤 광고를 처리하는 장치 및 그 방법에 관한 것이다.
형태소는 언어학에서 의미를 가진 최소 단위를 나타내며, 형태소 분석기는 텍스트를 문맥에 가장 알맞은 형태소 단위로 분석하는 기능을 수행한다. 일반적으로 형태소 분석기는 규칙 및 사전에 기반한 방법과 기계학습에 기반한 방법으로 구분될 수 있다.
이와 관련된 기술로서, “확률 기반 미등록 단어 분리 및 태깅(김보겸, 이재성, 2016)”에서는, 3단계 확률 기반 형태소 분석에서 신조어를 분리하고 태깅하기 위한 방법을 제시하였다. 구체적으로, “확률 기반 미등록 단어 분리 및 태깅”에서는 고유명사 및 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 이러한 방식에 따르면 신조어 패턴을 학습시켜 기존의 형태소 태깅 모델에 결합함으로써 신조어에 대해서는 태깅 성능을 높였지만, 일반적인 문서에 대해서는 도리어 부작용으로 작용해서 성능을 저하시키는 문제가 있다.
또 다른 관련 기술로서, 미국등록특허 제8275607호(발명의 명칭: SEMI-SUPERVISED PART-OF-SPEECH TAGGING)에서는, 사전에 기반해서 각 단어에 품사를 할당하고, 사전에 없는 단어들에 대해서는 주변 문맥 정보를 자질로 사용해서 베이지안 확률 값을 구해서 가장 알맞은 품사를 할당하는 방법이 개시되어 있다. 그러나 이 방법은 수작업으로 구축된 사전 및 학습셋(set)을 필요로 하므로 분야가 바뀌면 성능이 낮아지는 문제점을 가진다.
본 발명의 일 실시예는 형태소 분석 시 오분석될 확률이 높은 신조어를 자동으로 추출하고, 추출된 신조어를 기반으로 형태소 분석 성능을 개선하며, 개선된 형태소 분석기를 이용해서 온라인 문맥 맞춤 광고 기술을 개선하는 장치 및 그 방법을 제공하고자 한다.
또한, 본 발명의 일 실시예는 추출된 신조어 중에서 실제 형태소 분석 오류를 발생시키는 신조어만을 추출하기 위하여 형태소 분석 기반 자동 검증을 수행하고, 자동 검증을 통과한 신조어에 대해서 수동 검증을 수행하며, 수동 검증 결과를 기반으로 형태소 분석기 및 신조어 추출기의 성능을 개선시킨 형태소 분석기를 이용해서 신조어가 자주 등장하는 광고 분야의 문맥 맞춤 광고 기술을 개선시키는 장치 및 그 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 신조어 인식을 처리하는 언어 분석 장치는, 온라인 문서를 수집하는 문서 수집기; 수집된 문서로부터 기설정된 신조어 추출 패턴 및 사전(dictionary)에 기반한 신조어 필터링을 통해, 신조어 패턴에 해당하며 신조어 불용어 사전에 등록되어 있지 않은 신조어 후보를 추출하는 신조어 추출기; 상기 추출된 신조어 후보에 대해 형태소 분석을 통해 기설정된 품사에 해당하지 않으며 기저장된 형태소 사전에 등록되지 않은 신조어 후보를 검증하는 신조어 검증기; 상기 신조어 검증기의 검증 결과에 기초하여 신조어 추출 패턴을 정제하고 상기 검증된 신조어 후보를 상기 신조어 불용어 사전에 업데이트하는 신조어 추출 개선기; 및 상기 신조어 검증기의 검증 결과에 기초하여 상기 검증된 신조어 후보를 상기 형태소 사전에 업데이트하는 형태소 분석 개선기를 포함한다.
그리고 본 발명의 다른 측면에 따른 문맥 광고 지능화 장치는, 광고하고자 하는 온라인 문서를 수집하는 문서 수집기; 상기 수집된 온라인 문서를 상기 언어 분석 장치를 통해 형태소 분석하는 언어 분석기; 상기 형태소 분석 결과에 기초하여 적어도 하나의 키워드를 추출하는 키워드 추출기; 기등록된 광고 대상들 중 상기 추출된 키워드에 매칭된 광고 대상을 추출하는 광고 매칭기; 및 상기 추출된 광고 대상 중 상기 추출된 키워드와의 관련도가 가장 높은 광고 대상의 광고를 추천하는 광고 추천기를 포함한다.
또한, 본 발명의 또 다른 측면에 따른 신조어 인식을 처리하는 언어 분석 방법은, 온라인 문서를 수집하는 단계; 수집된 문서로부터 기설정된 신조어 추출 패턴 및 사전(dictionary)에 기반한 신조어 필터링을 통해, 신조어 패턴에 해당하며 신조어 불용어 사전에 등록되어 있지 않은 신조어 후보를 추출하는 단계; 상기 추출된 신조어 후보에 대해 형태소 분석을 통해 기설정된 품사에 해당하지 않으며 기저장된 형태소 사전에 등록되지 않은 신조어 후보를 검증하는 단계; 상기 검증의 결과에 기초하여 신조어 추출 패턴을 정제하고 상기 검증된 신조어 후보를 상기 신조어 불용어 사전에 업데이트하는 신조어 추출 개선 단계; 및 상기 검증의 결과에 기초하여 상기 검증된 신조어 후보를 상기 형태소 사전에 업데이트하는 형태소 분석 개선 단계를 포함한다.
또한, 본 발명의 또 다른 측면에 따른 신조어 인식을 처리하는 언어 분석 방법에 기반한 문맥 광고 지능화 방법은, 광고하고자 하는 온라인 문서를 수집하는 단계; 상기 수집된 온라인 문서를 신조어 인식 처리에 기반하여 형태소 분석하는 언어 분석 단계; 상기 형태소 분석 결과에 기초하여 적어도 하나의 키워드를 추출하는 단계; 기등록된 광고 대상들 중 상기 추출된 키워드에 매칭된 광고 대상을 추출하는 단계; 및 상기 추출된 광고 대상 중 상기 추출된 키워드와의 관련도가 가장 높은 광고 대상의 광고를 추천하는 단계를 포함한다. 이때, 상기 언어 분석 단계는, 온라인 문서를 수집하는 단계; 수집된 문서로부터 기설정된 신조어 추출 패턴 및 사전(dictionary)에 기반한 신조어 필터링을 통해, 신조어 패턴에 해당하며 신조어 불용어 사전에 등록되어 있지 않은 신조어 후보를 추출하는 단계; 상기 추출된 신조어 후보에 대해 형태소 분석을 통해 기설정된 품사에 해당하지 않으며 기저장된 형태소 사전에 등록되지 않은 신조어 후보를 검증하는 단계; 상기 검증의 결과에 기초하여 신조어 추출 패턴을 정제하고 상기 검증된 신조어 후보를 상기 신조어 불용어 사전에 업데이트하는 신조어 추출 개선 단계; 및 상기 검증의 결과에 기초하여 상기 검증된 신조어 후보를 상기 형태소 사전에 업데이트하는 형태소 분석 개선 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 신조어 추출 패턴에 기반해서 신조어를 추출하고, 추출된 신조어를 형태소 분석기를 사용해서 1차로 자동으로 검증하고 2차로 수동 검증을 처리한 결과를 형태소 사전 및 신조어 불용어 사전으로 자동으로 구축함으로써, 기존에 오분석되던 형태소가 정확히 분석되도록 하는 형태소 사전을 제공할 수 있으며, 신조어 추출 오류를 줄일 수 있는 신조어 불용어 사전을 제공하여 신조어 추출기 성능을 개선시킬 수 있다.
또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 사전과 학습데이터에 없는 신조어에 대해서 정확한 분석이 가능한 형태소 분석기를 제공하여, 신조어를 자동으로 추출하고, 추출된 신조어를 자동 및 수동으로 검증하고, 검증 결과를 이용해서 신조어 추출기와 형태소 분석기의 성능을 개선시킬 수 있다.
또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 광고 분야에서 문서 내용에 적합한 광고를 추천하기 위한 핵심적 기능인 형태소 분석 기술의 성능을 개선함으로써, 신제품 등의 신조어가 많이 나타나는 광고 분야에서 맞춤형 광고의 추천하는데 효과적이다.
도 1은 본 발명의 일 실시예에 따른 신조어 자동 인식을 위한 언어 분석 장치의 구성도이다.
도 2는 도 1에 도시된 신조어 추출기를 설명하기 위한 구성도이다.
도 3은 도 1에 도시된 신조어 검증기를 설명하기 위한 구성도이다.
도 4는 도 1에 도시된 신조어 추출 개선기를 설명하기 위한 구성도이다.
도 5는 도 1에 도시된 형태소 분석 개선기를 설명하기 위한 구성도이다.
도 6은 일반적인 문맥 맞춤형 광고 방식을 통한 오분석의 예를 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 문맥 광고 지능화 장치의 구성도이다.
도 8은 본 발명의 일 실시예에 따른 문맥 광고 지능화 장치에 도 1에 도시된 언어 분석 장치를 적용하는 방법을 설명하기 위한 구성도이다.
도 9는 본 발명의 일 실시예에 따른 문맥 광고 지능화 서비스 방법을 설명하기 위한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 본 발명을 명확하게 설명하기 위해 도면에서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 도면을 참고하여 설명하면서, 같은 명칭으로 나타낸 구성일지라도 도면에 따라 도면 번호가 달라질 수 있고, 도면 번호는 설명의 편의를 위해 기재된 것에 불과하고 해당 도면 번호에 의해 각 구성의 개념, 특징, 기능 또는 효과가 제한 해석되는 것은 아니다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)' 또는 ‘모듈’이란, 하드웨어 또는 소프트웨어에 의해 실현되는 유닛(unit), 양방을 이용하여 실현되는 유닛을 포함하며, 하나의 유닛이 둘 이상의 하드웨어를 이용하여 실현되어도 되고, 둘 이상의 유닛이 하나의 하드웨어에 의해 실현되어도 된다.
이하, 도 1 내지 도 5를 참조하여, 본 발명의 일 실시예에 따른 신조어 자동 추출에 기반한 형태소 분석 성능이 개선된 언어 분석 장치에 대해서 상세히 설명하도록 한다. 도 1 내지 도 5에서 설명하는 언어 분석 장치는 본 발명의 일 실시예에 따른 온라인 문맥 광고 지능화 장치에 포함된다.
참고로, 본 발명의 실시예에 따른 도 1 내지 도 5에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
도 1은 본 발명의 일 실시예에 따른 신조어 자동 인식을 위한 언어 분석 장치의 구성도이다.
그리고, 도 2는 도 1에 도시된 신조어 추출기를 설명하기 위한 구성도이고, 도 3은 도 1에 도시된 신조어 검증기를 설명하기 위한 구성도이고, 도 4는 도 1에 도시된 신조어 추출 개선기를 설명하기 위한 구성도이며, 도 5는 도 1에 도시된 형태소 분석 개선기를 설명하기 위한 구성도이다.
먼저, 도 1에 도시한 바와 같이, 언어 분석 장치(100)는 문서 수집기(110), 신조어 추출기(120), 신조어 검증기(130), 신조어 추출 개선기(140) 및 형태소 분석 개선기(150)를 포함한다.
문서 수집기(110)는 신조어를 추출할 대상 문서를 수집한다.
이러한 문서 수집기(110)의 문서 수집의 대상, 수집의 방식 및 수집 기술은 특정 대상, 방식 및 기술에 한정되지 않는다. 예를 들어, 문서 수집기(110)는 온라인 상의 텍스트 문서들에서 랜덤하게 문장들을 수집할 수 있으며, 임의의 사용자가 질문으로서 입력하는 문장을 수집하는 것도 가능하다.
신조어 추출기(120)는 문서 수집의 결과물인 문장들에서 출현한 신조어를 추출한다.
도 2를 참조하면, 신조어 추출기(120)는 첫 번째 단계로서 패턴 기반 신조어 추출 단계를 처리하고, 두 번째 단계로서 사전 기반 필터링 단계를 처리한다.
패턴 기반 신조어 추출 단계에서 처리되는 동작 및 절차는 다음과 같다.
신조어 추출을 위한 패턴은 신조어와 같이 사용되는 조사 및 어미 등의 “주변 단어”들에 기반해서 구성된다. 이러한, 신조어 추출 패턴은 다양한 방법으로 구성이 가능하며 한 가지 방법으로 특정되지 않는다.
본 발명의 일 실시예에서는 “조사” 기반으로 명사 신조어를 추출한다고 가정한다. 대부분의 명사는 조사와 같이 사용되므로, 각 어절을 끝에서부터 조사가 될 수 있는 부분을 제외하고 나머지를 명사로 추출해서 신조어 후보로 가정한다.
예를 들어, “무선분리형임이 강조된 애플의 이어폰 에어팟이 애플스토어에 상륙했다.”라는 문장이 수집된 경우, “조사”의 목록은 “이, 의, 에”이다. 이에 기초하여, 어절 별 신조어를 추출한 결과는 다음 표 1과 같다.
어절 조사 신조어 후보
무선분리형임이 무선분리형임
강조된 X X
애플의 애플
이어폰 X X
에어팟이 에어팟
애플스토어에 애플스토어
상륙했다. X X
위의 예제 문장에서, 신조어 후보로서 ‘무선분리형임’, ‘애플’, ‘에어팟’, ‘애플스토어’가 추출된다.
이상에서와 같은 패턴 기반 신조어 추출 단계에서 사용되는 신조어 패턴 데이터베이스(121)는 신조어 추출기(120)가 자체적으로 구비하고 있거나, 언어 분석 장치(100)내 별도의 저장 공간에 구비될 수 있다.
다음으로, 사전(dictionary) 기반 필터링 단계에서 처리되는 동작 및 절차는 다음과 같다.
사전 기반 신조어 추출 단계에서는, 앞서 패턴 기반 신조어 추출 단계에서 추출된 신조어 후보를 신조어 불용어 사전에 기반하여 필터링한다. 이때. 불용어 사전은 명사가 아니지만 명사로서 추출된 목록이다. 예를 들어, 불용어 사전에 포함된 불용어 중에 ‘무선분리형임’이 없다고 가정하면, 사전 기반 필터링 단계에서는 신조어 후보 중 필터링되는 것은 없다. 따라서, 최종 신조어 후보로 ‘무선분리형임’, ‘애플’, ‘에어팟’, ‘애플스토어’가 남게 된다.
이상에서와 같은 사전 기반 필터링 단계에서 사용되는 신조어 불용어 데이터베이스(도 2에서는 “신조어 불용어 1” 데이터베이스로 도시함, 122)는 신조어 추출기(120)가 자체적으로 구비하고 있거나, 언어분석 장치(100) 내 별도의 저장 공간에 구비될 수 있다.
다시 도 1로 돌아가서 신조어 검증기(130)는 신조어 추출기(120)를 통해 신조어로 추출된 단어들에 대해서 자동 및 수동으로 검증하는 기능을 수행한다. 도 3을 참조하면, 신조어 검증기(130)는 첫 번째 단계로서 사전 기반 자동 검증 단계를 처리하고, 두 번째 단계로서 형태소 분석 기반 자동 검증 단계를 처리하며, 세 번째 단계로서 수동 검증 단계를 처리한다.
먼저, 사전 기반 자동 검증 단계에서는, 앞서 신조어 추출기(120)를 통해 추출된 신조어를 형태소 사전(도 3에서는 “형태소 사전 1 데이터베이스”로 도시함, 131)에 기반하여 필터링한다. 형태소 사전은, 형태소 분석기에서 사용하는 사전으로서, 형태소 사전에 이미 등록된 단어 등은 신조어 후보에서 제외한다. 예를 들어, 형태소 사전에 ‘애플’이 이미 등록되어 있다고 가정하면, 신조어 후보 중에서 ‘애플’은 제외되고 ‘무선분리형임’, ‘에어팟’, 및 ‘애플스토어’만 남게 된다.
다음으로 형태소 분석 기반 자동 검증 단계에서는, 형태소 분석기(도 3에서는 “형태소 모델 데이터베이스”로 도시함, 132)에 기반해서 자동으로 검증한다. 이때, 신조어 후보가 추출된 원문 문장에 대해서 형태소 분석을 수행하며, 신조어 후보에 대한 형태소 분석 결과가 명사로 분석되면 검증 성공으로 판정하고, 명사가 아닌 다른 품사로 분석되면 검증 실패로 판정한다.
예를 들어, 신조어 후보를 추출한 예제 문장에 대한 형태소 분석 결과가 다음과 같다고 가정한다. 즉, 예제 문장이 “무선분리형임이 강조된 애플의 이어폰 에어팟이 애플스토어에 상륙했다.”인 경우, 이에 대한 형태소 분석 결과는 다음의 표 2와 같다.
어절 형태소 분석 결과
무선분리형임이 무선/noun+분리형/noun+이/vcp+ㅁ/etn+이/jks
강조된 강조/noun+되/xsv+ㄴ/etm
애플의 애플/noun+의/jkg
이어폰 이어폰/noun
에어팟이 에어/noun+팟이/noun
애플스토어에 애플스토어/noun+에/jkb
상륙했다. 상륙/noun+하/xsv+었/ep+다/ef+./s
표 2에서는 품사의 정의로서 noun(명사), vcp(서술격조사), etn(명사형 전성어미), jks(주격조사), xsv(동사 파생 접미사), etm(관형형 전성어미), jkg(관형격조사), jkb(부사격조사), ep(선어말어미), ef(종결어미), s(심볼)을 표시하였다.
또한, 신조어 후보 각각에 대한 자동 검증 결과는 다음의 표 3과 같다.
신조어 후보 형태소 분석 결과 검증 결과
무선분리형 무선/noun+분리형/noun+이/vcp+ㅁ/etn+이/jks Fail
에어팟 에어/noun+팟이/noun Fail
애플스토어 애플스토어/noun+에/jkb Pass
표 3에서와 같이, 신조어 후보 중 ‘무선분리형임’과 ‘에어팟’은 명사로 분석되지 않았기 때문에 검증 실패로 판정되며, ‘애플스토어’는 명사로 분석되었기 때문에 검증 성공으로 판정된다.
마지막으로 수동 검증 단계에서는, 앞선 자동 검증 단계들에서 실패한 신조어 후보를 수동으로 검증한다. 구체적으로, 신조어 후보에 대한 형태소 분석이 명사로 분석되어 검증에 성공한 경우는 형태소 분석 및 신조어 추출에 대한 2차 작업이 필요치 않으며, 이는 수동 검증에서 제외된다. 반면, 자동 검증에서 실패한 경우는 다음 표 4에서와 같이 2가지 경우로 분류될 수 있으며, 2 가지 경우 별로 상이한 처리 방법에 따라 수동 검증 처리된다.
구분 설명 처리 방법
Case1 신조어 명사 후보가 명사인 경우 형태소분석 성능 개선이 필요한 경우이며, 형태소분석 성능 개선을 위한 형태소 사전으로 사용하기 위해서 신조어 사전을 생성함
Case2 신조어 명사 후보가 명사가 아닌 경우 명사를 추출하는 신조어 추출기의 오류이며, 신조어 추출기 개선을 위해서 신조어 불용어 사전으로 생성함
예를 들어, 신조어 후보 중 ‘에어팟’은 Case1에 해당하므로 신조어 사전 데이터베이스(134)에 저장되고, ‘무선분리형임’은 Case2에 해당하므로 불용어 사전(도 3에서는, “신조어 불용어 2 데이터베이스”로 도시함, 133)에 저장된다.
다시 도 1로 돌아가서, 신조어 추출 개선기(140)는 앞서 신조어 검증기(130)에서 생성된 신조어 불용어 사전(즉, 도 3의 “신조어 불용어 2 데이터베이스”, 133)을 이용하여, 신조어 추출 패턴을 정제하고 불용어 사전을 확장한다.
구체적으로, 도 4를 참조하면, 신조어 추출 개선기(140)는 신조어 추출기(120)를 개선하는 동작으로서, 첫 번째로 불용어 기반 신조어 패턴 정제 단계를 처리하고, 두 번째로 불용어 사전 통합 단계를 처리한다.
먼저, 불용어 기반 신조어 패턴 정제 단계는, 그 대상으로서 앞선 수동 검증 단계에서 Case2에 해당되는 경우를 처리한다. 즉, 신조어 추출기(120)에서 명사 신조어로 추출하였지만 실제로는 명사가 아닌 경우이며, 이는 신조어 불용어 사전(즉, “신조어 불용어 2” 데이터베이스, 133)에 저장된다. 따라서 불용어 기반 신조어 패턴 정제 단계는 신조어 불용어 사전에 저장된 ‘무선분리형임’을 대상으로, 관련 패턴을 정제하여 비슷한 유형의 단어를 신조어 후보로 추출하지 않도록 한다. 이때, 신조어 추출 개선기(140)는 기존 신조어 추출 패턴 사전인 신조어 추출기(120)의 신조어 패턴 데이터베이스(121)를 수정하여 업데이트한다.
다음으로, 불용어 사전 통합 단계는, 명사 신조어가 확실히 아닌 것들은 신조어 추출기(120)에서 제외하기 위한 신조어 불용어 사전을 통합하는 단계이다. 이러한, 불용어 사전 통합 단계에서는, 기존의 신조어 불용어 사전인 신조어 추출기(120)의 신조어 불용어 사전(즉, 신조어 불용어 1 데이터베이스, 112)에, 신규 신조어 불용어 사전(즉, 신조어 불용어 2 데이터베이스, 133)의 내용을 추가한다. 예를 들어, ‘무선분리형임’이 신규 불용어로 추출되었으므로, 기존 사전인 신조어 불용어 1에 ‘무선분리형임’을 추가한다.
다시 도 1로 돌아가서, 형태소 분석 개선기(150)는 신조어 검증기(130)를 통해 생성된 신조어 사전(134)을 이용해서 형태소 사전을 생성함으로써 형태소 분석기 성능을 개선하는 기능을 수행한다.
도 5를 참조하면, 형태소 분석 개선기(150)는 첫 번째로 형태소 사전 생성 단계를 처리하고, 두 번째로 형태소 사전 통합 단계를 처리한다.
먼저 형태소 사전 생성 단계에서 그 처리 대상은 신조어 검증기(130)를 통한 수동 작업 단계에서 Case1에 해당되는 경우이다. 즉, 신조어 후보가 실제로 명사이지만 형태소 분석기에서 명사로 분석하지 못한 경우이며, 수동 검증 단계에서 신조어 사전에 저장된다. 이러한 형태소 사전 생성 단계에서는, 수동 검증 단계의 신조어 사전(134)에 저장된 ‘에어팟’을 형태소 사전(즉, 형태소 사전 1 데이터베이스, 131)으로 생성한다. 이때, 형태소 사전 1(131)은 형태소 분석기에서 사용하는 사전으로서, 등록된 단어를 정확하게 형태소 분석하기 위해서 사용한다. 형태소 사전 1(131)의 포맷은 형태소 분석기에 따라 다양하며, 한 가지 형태로 특정되지 않는다.
예를 들어, 신조어 검증기(130)를 통한 수동 작업 단계에서 Case1에 해당되는 대상은, 형태소 사전 1(131)에 다음 표 5와 같이 단어와 해당 품사가 매칭 저장될 수 있다.
에어팟 NOUN
다음으로, 형태소 사전 통합 단계는, 새로 생성된 형태소 사전(도 5에서는 “형태소 사전 2 데이터베이스”로 나타냄, 151)는 기존에 형태소 분석기에서 사용하던 형태소 사전 1(131)의 내용에 추가 통합되며, 예는 다음의 표 6과 같다.
삼성전자 NOUN
애플 NOUN
에어팟 NOUN
이상의 과정을 통해 생성된 형태소 사전 2(151)를 형태소 분석기에 사용함으로써 기존에 오분석되던 문장이 다음과 같이 정확하게 분석된다. 즉, 수집된 문장에서 “에어팟이”라는 어절은 “에어팟/noun+이/jks”로 분석된다.
한편, 본 발명의 일 실시예에 따른 언어 분석 장치(100)는 사전 또는 학습데이터에 나타나지 않은 신조어에 대해 정확한 형태소 분석이 되지 않는 문제를 해결하므로, 신조어가 많이 나타나는 광고 분야 등에서 사용될 수 있다. 광고 분야에서 중요한 기술인 문맥 맞춤 광고 기술은 뉴스 기사 등의 본문 내용에 적합한 광고를 추천하는 기술로서, 문맥 맞춤 광고 기술에서 형태소 분석 기술은 핵심적인 기능을 수행한다. 따라서, 본 발명의 일 실시예에 따른 언어 분석 장치(100)를 문맥 맞춤 광고 기술에 적용하여 맞춤 광고 추천 기능을 개선시킬 수 있다.
이하, 도 6 내지 도 9를 참조하여 본 발명의 일 실시예에 따른 문맥 광고 지능화 장치 및 그 지능화 서비스 방법에 대해서 상세히 설명하도록 한다.
도 6은 일반적인 문맥 맞춤형 광고 방식을 통한 오분석의 예를 설명하기 위한 도면이다.
도 6에서는 기존의 문맥 맞춤 광고 기술의 전체 흐름 및 신조어에 의한 형태소 분석이 제대로 처리되지 않아 오분석된 예를 도시하였다.
먼저, 문서가 수집된다(S610).
예를 들어, 수집된 문서가 자동차 관련 뉴스 기사의 일부인 것으로서, “니로는 전기모터를 시트 하단에 장착해 동급 최대의 적재공간을 구현했다.”라는 문장이 처리 대상인 것을 나타냈다.
다음으로, 언어 분석을 처리한다(S620).
이때, 단계 S620의 처리 결과로서, 수집된 문서 내용에 대해서 형태소 분석한 결과는 다음의 표 7과 같다.
<니:NP>로는 <전기모터:NNG>를 <시트:NNG> <하단:NNG>에 장착해 <동급:NNG> <최대:NNG>의 <적재공간:NNG>을 구현했다.
즉, “니로는”에서 “니”가 대명사(NP)로 분석되었다. 참고로, 표 7에서는 일반명사(NNG) 및 대명사(NP)의 예만 포함되었으나, 형태소 분석의 결과는 한정되지 않으며 일반적인 형태소 분석에서 사용되는 분류들을 모두 사용할 수 있다.
그런 다음, 언어 분석의 결과에 기초하여 키워드 추출을 처리한다(S630).
키워드 추출 단계에서는, 문서 내용에 적합한 광고를 추천하기 위한 핵심 키워드를 추출하되, 핵심 키워드로서 명사 등을 추출할 수 있다.
단계 S630의 처리 결과로서, 키워드 추출의 결과는 다음의 표 8과 같다.
니, 전기모터, 시트, 하단, 동급, 최대, 적재공간
한편, 광고주가 광고하고자 하는 광고 대상과 연관 키워드는 사전에 광고 DB로 저장되어 있으며, 앞선 키워드 추출 결과에 기초하여 광고 DB에 등록된 광고 대상 중 문서 내용에 적합한 광고 매칭을 처리한다(S640).
예를 들어, 광고 DB에는 차량 관련된 광고주들이 등록한 다양한 광고 대상이 저장되어 있으며, 도 6에서는 “현대자동차”와 관련하여 “니로, 제네시스, 그랜저, 소나타” 등의 광고 대상이 저장된 것을 나타냈다.
다음으로, 광고 매칭의 결과에 기초하여 광고 추천을 처리한다(S650).
광고 추천 처리는, 광고 매칭에서 선정된 광고들에 대해서 키워드 기반 순위화를 통해 문서 내용과의 적합도를 계산해서 최종적으로 가장 적합한 광고를 추천할 수 있다. 그러나 앞서 단계 S620에서 분석된 결과에 기초하여 추출된 키워드에서는 중요 광고 대상 키워드가 추출되지 않았다. 즉, 수집된 문장 내용에서는 자동차 모델인 ‘니로’가 중요한 키워드이나, 언어 분석 처리 단계에서의 형태소 분석시 대명사 ‘니’로 분석되어 광고 매칭에 실패한 경우이다.
이러한 문제를 해결하기 위하여, 본 발명의 일 실시예에 따른 문맥 광고 지능화 장치는 앞서 도 1 내지 도 5를 참조하여 설명한 언어 분석 장치(100)에 대응되는 언어 분석기를 포함한다.
도 7은 본 발명의 일 실시예에 따른 문맥 광고 지능화 장치의 구성도이다. 그리고 도 8은 본 발명의 일 실시예에 따른 문맥 광고 지능화 장치에 도 1에 도시된 언어 분석 장치를 적용하는 방법을 설명하기 위한 구성도이다.
도 7에 도시한 바와 같이, 문맥 광고 지능화 장치(700)는 문서 수집기(710), 언어분석기(720), 키워드 추출기(730), 광고 매칭기(740), 광고 DB(750) 및 광고 추천기(760)를 포함한다. 이때, 언어 분석기(720)의 문서 수집기(710), 언어분석기(720), 키워드 추출기(730), 광고 매칭기(740), 및 광고 추천기(760)는 각각 앞서 도 6에서 설명한 문맥 맞춤형 광고 추천 단계(S610~S650)에 대응하는 동작을 포함하는 처리를 수행할 수 있다. 다만, 언어 분석기(720)는 기존의 문맥 맞춤형 광고 추천 단계의 S620 단계에서와는 차별된 처리를 수행한다.
즉, 도 8에 도시한 바와 같이, 언어 분석기(720)는 문서 수집기(721), 신조어 추출기(722), 신조어 검증기(723), 신조어 추출 개선기(724) 및 형태소 분석 개선기(725)를 포함한다. 이때, 도 7의 언어 분석기(20)는 도 1에 도시된 언어 분석 장치(100)에 대응하며, 따라서 도 8에 도시된 문서 수집기(721), 신조어 추출기(722), 신조어 검증기(723), 신조어 추출 개선기(724) 및 형태소 분석 개선기(725)는 각각 도 1의 문서 수집기(110), 신조어 추출기(120), 신조어 검증기(130), 신조어 추출 개선기(140) 및 형태소 분석 개선기(150)에 대응한다.
도 7 및 도 8에서는 앞서 도 6에서 수집된 문장인 “니로는 전기모터를 시트 하단에 장착해 동급 최대의 적재공간을 구현했다.”에서 기존의 문맥 맞춤형 광고 기술에서는 처리하지 못하였던 “니로” 등이 신조어로서 형태소 사전으로 구축된 것을 나타냈다.
문서 수집기(710)는 다양한 문서를 수집할 수 있으며, 예를 들어 ‘니로’에 대해서 개선된 언어 분석을 처리하는 것을 설명하기 위하여 ‘니로’가 출현한 문서를 수집한 것을 설명하도록 한다.
언어 분석기(720)의 문서 수집기(721)는 사전에 다양한 문서를 수집하여 신조어 추출기(721)로 제공한 상태이다. 예를 들어, 문서 수집기(721)는 “친환경 브랜드 아이오닉과 니로를 내놨다.”라는 문장과 “니로가 아이오닉을 압도하고 좋은 신차임을 증명하였다”라는 문장을 수집하여 신조어 추출기(722)로 제공한다.
이에 따라, 신조어 추출기(722)에서는 조사인 ‘과, 을, 를’ 등을 기반으로 신조어로서 ‘아이오닉’, ‘니로’, ‘신차임’을 추출할 수 있다.
그리고 신조어 검증기(723)에서는 사전 및 형태소 분석을 통한 자동 검증과 수동 검증을 처리하여 ‘신차임’을 신조어 후보에서 제거하고, ‘아이오닉’과 ‘니로’만을 신조어로 남긴다.
다음으로 신조어 추출 개선기(724)는 신조어 검증기(723)를 통해 제거된 ‘신차임’을 불용어 사전으로 등록해서 신조어 추출기(722)의 성능을 개선한다. 또한, 형태소 분석 개선기(725)는 신조어 검증기(723)의 검증을 통과한 ‘아이오닉’과 ‘니로’를 명사로서 형태소 사전에 등록한다.
이에 따라, 도 7의 문맥 광고 지능화 장치(700)의 언어 분석기(720)는 수집된 문장에서 ‘니로’에 대해서 성능이 개선된 형태소 분석기를 사용하여, 다음의 표 9와 같은 형태소 분석 결과를 출력한다.
<니로:NNG>는 <전기모터:NNG>를 <시트:NNG> <하단:NNG>에 장착해 <동급:NNG> <최대:NNG>의 <적재공간:NNG>을 구현했다.
그리고 키워드 추출기(730)는 다음의 표 10과 같은 키워드를 추출한다.
니로, 전기모터, 시트, 하단, 동급, 최대, 적재공간
다음으로, 광고 매칭기(740)는 추출된 키워드에 기반하여 광고 DB(750)에 등록되어 있는 다양한 광고 대상 중 ‘니로’를 포함하고 있는 ‘현대자동차’를 광고 후보로서 추출한다.
그러면 광고 추천기(760)는 추천된 광고 후보 중 최종적으로 ‘현대자동차’를 문서에 적합한 광고로 추천한다.
도 9는 본 발명의 일 실시예에 따른 문맥 광고 지능화 서비스 방법을 설명하기 위한 순서도이다.
먼저, 관련된 광고를 게재하고자 하는 온라인 문서를 수집한다(S910).
다음으로, 수집된 온라인 문서의 내용을 신조어 자동 인식에 기반한 언어 분석 처리하여 형태소 분석을 처리한다(S920).
이때, 신조어 자동 인식에 기반한 언어 분석 처리 방식은, 먼저 다양한 온라인 문서를 수집하고(S921), 수집된 문서로부터 새로 출현한 신조어 후보들을 추출하며(S922), 추출된 신조어 후보들에 대해 신조어 검증을 처리한 후(S923), 신조어 검증 결과에서 신조어 후보가 명사인 경우 및 명사가 아닌 경우 별로 신조어 추출 패턴 정제 및 불용어 사전 확장을 처리하여 성능을 개선시키고(S924), 신조어 검증 결과를 통해 생성된 신조어를 형태소 사전에 추가하여 형태소 분석 성능을 개선시킨다(S925).
이러한 신조어 자동 인식에 기반한 언어 분석 처리 방식은 앞서 도 1 내지 도 5, 도 7 및 도 8을 통해 상세히 설명된 내용과 대응한다.
그런 다음, 신조어 자동 인식에 기반한 형태소 분석 처리 결과에 기초하여 키워드 추출을 처리한다(S930).
이때, 형태소 분석 처리 결과 중 명사(일반명사, 고유명사 등)인 단어를 키워드로서 추출할 수 있다.
다음으로, 추출된 키워드에 기반하여 사전에 등록된 광고 대상 중 후보를 검출한다(S940).
그런 다음, 검출된 후보 광고 대상에 대해 키워드 기반 순위화 등을 통해 문서 내용과의 적합도 및 관련도를 계산하여 최종 광고 대상을 설정하여 추천한다(S950).
이상에서 설명한 본 발명의 일 실시예에 따른 신조어 자동 인식을 위한 언어 분석 장치, 이에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독이 가능한 기록 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있으며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 언어 분석 장치
110: 문서 수집기
120: 신조어 추출기
130: 신조어 검증기
140: 신조어 추출 개선기
150: 형태소 분석 개선기

Claims (12)

  1. 신조어 인식을 처리하는 언어 분석 장치에 있어서,
    온라인 문서를 수집하는 문서 수집기;
    수집된 문서로부터 기설정된 신조어 추출 패턴 및 사전(dictionary)에 기반한 신조어 필터링을 통해, 신조어 패턴에 해당하며 신조어 불용어 사전에 등록되어 있지 않은 신조어 후보를 추출하는 신조어 추출기;
    상기 추출된 신조어 후보에 대해 형태소 분석을 통해 기설정된 품사에 해당하지 않으며 기저장된 형태소 사전에 등록되지 않은 신조어 후보를 검증하는 신조어 검증기;
    상기 신조어 검증기의 검증 결과에 기초하여 신조어 추출 패턴을 정제하고 상기 검증된 신조어 후보를 상기 신조어 불용어 사전에 업데이트하는 신조어 추출 개선기; 및
    상기 신조어 검증기의 검증 결과에 기초하여 상기 검증된 신조어 후보를 상기 형태소 사전에 업데이트하는 형태소 분석 개선기를 포함하되,
    상기 신조어 추출기는,
    패턴에 기반한 필터링을 통해, 상기 수집된 문서의 문장 내 어절 별로 기저장된 신조어 패턴 데이터베이스에 등록되지 않은 신조어 후보를 추출하고,
    사전에 기반한 필터링을 통해, 상기 패턴 기반 필터링의 결과로서 추출된 신조어 후보 중 기저장된 불용어 사전에 등록되지 않은 신조어 후보를 추출하는, 언어 분석 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 신조어 검증기는,
    상기 신조어 추출기를 통해 추출된 신조어 후보 중 기저장된 형태소 사전에 등록되지 않은 신조어 후보를 추출하고,
    상기 형태소 사전에 등록되지 않은 것으로 추출된 신조어 후보를 형태소 분석기를 통해 품사를 검증하고,
    상기 형태소 사전에 등록되지 않은 경우 및 기설정된 품사가 아닌 경우의 신조어 후보에 대해 각각 형태소 분석 성능 개선 및 신조어 추출기 성능 개선을 판단하는, 언어 분석 장치.
  4. 제 3 항에 있어서,
    상기 신조어 추출 개선기는,
    상기 신조어 후보를 형태소 분석한 결과 상기 신조어 추출기를 통해 분류된 품사와 상이한 품사인 것으로 검증되면, 상기 신조어 후보를 상기 신조어 불용어 사전에 업데이트하고, 상기 신조어 후보 관련 신조어 추출 패턴을 정제하는, 언어 분석 장치.
  5. 제 3 항에 있어서,
    상기 형태소 분석 개선기는,
    상기 신조어 후보를 형태소 분석한 결과 상기 신조어 추출기를 통해 분류된 품사와 동일한 품사인 것으로 검증되면, 상기 신조어 후보를 상기 형태소 사전에 업데이트하는, 언어 분석 장치.
  6. 청구항 1, 청구항 3 내지 청구항 5 중 어느 한 항의 언어 분석 장치를 포함하는 문맥 광고 지능화 장치에 있어서,
    광고하고자 하는 온라인 문서를 수집하는 문서 수집기;
    상기 수집된 온라인 문서를 상기 언어 분석 장치를 통해 형태소 분석하는 언어 분석기;
    상기 형태소 분석 결과에 기초하여 적어도 하나의 키워드를 추출하는 키워드 추출기;
    기등록된 광고 대상들 중 상기 추출된 키워드에 매칭된 광고 대상을 추출하는 광고 매칭기; 및
    상기 추출된 광고 대상 중 상기 추출된 키워드와의 관련도가 가장 높은 광고 대상의 광고를 추천하는 광고 추천기를 포함하는 문맥 광고 지능화 장치.
  7. 신조어 인식을 처리하는 언어 분석 장치를 통한 언어 분석 방법에 있어서,
    온라인 문서를 수집하는 단계;
    수집된 문서로부터 기설정된 신조어 추출 패턴 및 사전(dictionary)에 기반한 신조어 필터링을 통해, 신조어 패턴에 해당하며 신조어 불용어 사전에 등록되어 있지 않은 신조어 후보를 추출하는 단계;
    상기 추출된 신조어 후보에 대해 형태소 분석을 통해 기설정된 품사에 해당하지 않으며 기저장된 형태소 사전에 등록되지 않은 신조어 후보를 검증하는 단계;
    상기 검증의 결과에 기초하여 신조어 추출 패턴을 정제하고 상기 검증된 신조어 후보를 상기 신조어 불용어 사전에 업데이트하는 신조어 추출 개선 단계; 및
    상기 검증의 결과에 기초하여 상기 검증된 신조어 후보를 상기 형태소 사전에 업데이트하는 형태소 분석 개선 단계를 포함하되,
    상기 신조어 후보를 추출하는 단계는,
    패턴에 기반한 필터링을 통해, 상기 수집된 문서의 문장 내 어절 별로 기저장된 신조어 패턴 데이터베이스에 등록되지 않은 신조어 후보를 추출하고,
    사전에 기반한 필터링을 통해, 상기 패턴 기반 필터링의 결과로서 추출된 신조어 후보 중 기저장된 불용어 사전에 등록되지 않은 신조어 후보를 추출하는, 언어 분석 방법.
  8. 삭제
  9. 제 7 항에 있어서,
    상기 신조어 후보를 검증하는 단계는,
    상기 추출된 신조어 후보 중 기저장된 형태소 사전에 등록되지 않은 신조어 후보를 추출하고,
    상기 형태소 사전에 등록되지 않은 것으로 추출된 신조어 후보를 형태소 분석을 통해 품사를 검증하고,
    상기 형태소 사전에 등록되지 않은 경우 및 기설정된 품사가 아닌 경우의 신조어 후보에 대해 각각 형태소 분석 성능 개선 및 신조어 추출기 성능 개선을 판단하는, 언어 분석 방법.
  10. 제 9 항에 있어서,
    상기 신조어 추출 개선 단계는,
    상기 신조어 후보를 형태소 분석한 결과 상기 신조어 후보를 추출하는 단계를 통해 분류된 품사와 상이한 품사인 것으로 검증되면, 상기 신조어 후보를 상기 신조어 불용어 사전에 업데이트하고, 상기 신조어 후보 관련 신조어 추출 패턴을 정제하는, 언어 분석 방법.
  11. 제 9 항에 있어서,
    상기 형태소 분석 개선 단계는,
    상기 신조어 후보를 형태소 분석한 결과 상기 신조어 후보를 추출하는 단계를 통해 분류된 품사와 동일한 품사인 것으로 검증되면, 상기 신조어 후보를 상기 형태소 사전에 업데이트하는, 언어 분석 방법.
  12. 신조어 인식을 처리하는 언어 분석 방법에 기반한 문맥 광고 지능화 방법에 있어서,
    광고하고자 하는 온라인 문서를 수집하는 단계;
    상기 수집된 온라인 문서를 신조어 인식 처리에 기반하여 형태소 분석하는 언어 분석 단계;
    상기 형태소 분석 결과에 기초하여 적어도 하나의 키워드를 추출하는 단계;
    기등록된 광고 대상들 중 상기 추출된 키워드에 매칭된 광고 대상을 추출하는 단계; 및
    상기 추출된 광고 대상 중 상기 추출된 키워드와의 관련도가 가장 높은 광고 대상의 광고를 추천하는 단계를 포함하며,
    상기 언어 분석 단계는,
    온라인 문서를 수집하는 단계;
    수집된 문서로부터 기설정된 신조어 추출 패턴 및 사전(dictionary)에 기반한 신조어 필터링을 통해, 신조어 패턴에 해당하며 신조어 불용어 사전에 등록되어 있지 않은 신조어 후보를 추출하는 단계;
    상기 추출된 신조어 후보에 대해 형태소 분석을 통해 기설정된 품사에 해당하지 않으며 기저장된 형태소 사전에 등록되지 않은 신조어 후보를 검증하는 단계;
    상기 검증의 결과에 기초하여 신조어 추출 패턴을 정제하고 상기 검증된 신조어 후보를 상기 신조어 불용어 사전에 업데이트하는 신조어 추출 개선 단계; 및
    상기 검증의 결과에 기초하여 상기 검증된 신조어 후보를 상기 형태소 사전에 업데이트하는 형태소 분석 개선 단계를 포함하는, 문맥 광고 지능화 방법.
KR1020170031766A 2017-03-14 2017-03-14 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법 KR102019756B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170031766A KR102019756B1 (ko) 2017-03-14 2017-03-14 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법
US15/704,254 US10691892B2 (en) 2017-03-14 2017-09-14 Online contextual advertisement intellectualization apparatus and method based on language analysis for automatically recognizing coined word

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170031766A KR102019756B1 (ko) 2017-03-14 2017-03-14 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20180104899A KR20180104899A (ko) 2018-09-27
KR102019756B1 true KR102019756B1 (ko) 2019-09-10

Family

ID=63520126

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170031766A KR102019756B1 (ko) 2017-03-14 2017-03-14 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법

Country Status (2)

Country Link
US (1) US10691892B2 (ko)
KR (1) KR102019756B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220065980A (ko) 2020-11-13 2022-05-23 한국방송통신대학교 산학협력단 감성 분석장치 및 그 제어 방법 그리고 신조어 및 이모티콘 추출 장치
KR20220111823A (ko) 2021-02-02 2022-08-10 한국방송통신대학교 산학협력단 신조어 및 이모티콘 감성사전 구축장치 및 방법
KR20230068092A (ko) 2021-11-10 2023-05-17 동의대학교 산학협력단 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020422B (zh) * 2018-11-26 2020-08-04 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
KR20210052958A (ko) * 2019-11-01 2021-05-11 엘지전자 주식회사 인공 지능 서버
CN110928992B (zh) * 2019-11-21 2022-06-10 邝俊伟 文本搜索方法、装置、服务器及存储介质
CN111931020B (zh) * 2020-10-12 2021-01-29 北京世纪好未来教育科技有限公司 公式的标注方法、装置、设备及存储介质
US20220004701A1 (en) * 2021-06-22 2022-01-06 Samsung Electronics Co., Ltd. Electronic device and method for converting sentence based on a newly coined word

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
KR20020054254A (ko) * 2000-12-27 2002-07-06 오길록 사전구조를 이용한 한국어 형태소 분석방법
US7774333B2 (en) * 2003-08-21 2010-08-10 Idia Inc. System and method for associating queries and documents with contextual advertisements
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
KR100691400B1 (ko) * 2006-03-31 2007-03-12 엔에이치엔(주) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
KR100831037B1 (ko) * 2006-09-29 2008-05-20 한국전자통신연구원 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치
US8275607B2 (en) * 2007-12-12 2012-09-25 Microsoft Corporation Semi-supervised part-of-speech tagging
KR101040119B1 (ko) 2008-10-14 2011-06-09 한국전자통신연구원 콘텐츠 검색 장치 및 방법
KR101120038B1 (ko) * 2008-12-22 2012-03-23 한국전자통신연구원 신조어 선정 장치 및 그 방법
JP5250709B1 (ja) * 2012-03-12 2013-07-31 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP6147629B2 (ja) * 2013-09-24 2017-06-14 Kddi株式会社 ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
KR101581816B1 (ko) * 2014-10-14 2016-01-05 서강대학교산학협력단 기계학습을 이용한 음성인식방법
KR101526872B1 (ko) 2014-10-31 2015-06-17 주식회사 와이젬 문어체 변환단계를 포함하는 광고 제공방법
KR20160056983A (ko) 2014-11-12 2016-05-23 한국전자통신연구원 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법
JP6620538B2 (ja) * 2015-12-04 2019-12-18 富士通株式会社 学習プログラム、学習方法およびメールサーバ

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220065980A (ko) 2020-11-13 2022-05-23 한국방송통신대학교 산학협력단 감성 분석장치 및 그 제어 방법 그리고 신조어 및 이모티콘 추출 장치
KR20220111823A (ko) 2021-02-02 2022-08-10 한국방송통신대학교 산학협력단 신조어 및 이모티콘 감성사전 구축장치 및 방법
KR20230068092A (ko) 2021-11-10 2023-05-17 동의대학교 산학협력단 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템

Also Published As

Publication number Publication date
KR20180104899A (ko) 2018-09-27
US20180267957A1 (en) 2018-09-20
US10691892B2 (en) 2020-06-23

Similar Documents

Publication Publication Date Title
KR102019756B1 (ko) 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법
Cabrio et al. Five years of argument mining: A data-driven analysis.
CN108268619B (zh) 内容推荐方法及装置
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
KR102069698B1 (ko) 언어분석결과 업데이트 장치 및 방법
US20160203498A1 (en) System and method for identifying and scoring leads from social media
CN106649778B (zh) 基于深度问答的交互方法和装置
KR20160060247A (ko) 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
CN104503998A (zh) 针对用户查询句的类型识别方法及装置
US20170199929A1 (en) Automated Curation of Documents in a Corpus for a Cognitive Computing System
KR20190002202A (ko) 학습 기반의 비속어 탐지 장치 및 방법
CN110096599B (zh) 知识图谱的生成方法及装置
CN109408806A (zh) 一种基于英文语法规则的事件提取方法
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
Arnold et al. Automatic extraction of semantic relations from wikipedia
KR102083017B1 (ko) 플레이스의 소셜 리뷰 분석 방법 및 시스템
KR20030039575A (ko) 문서 요약 방법 및 시스템
CN111324705A (zh) 自适应性调整关连搜索词的系统及其方法
US9720896B1 (en) Synthesizing union tables from the web
CN109582968A (zh) 一种语料中的关键信息的提取方法及装置
Kavila et al. An automatic legal document summarization and search using hybrid system
JP2017182646A (ja) 情報処理装置、プログラム及び情報処理方法
KR20140059877A (ko) 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치
US20120265520A1 (en) Text processor and method of text processing
Mirroshandel et al. Enforcing subcategorization constraints in a parser using sub-parses recombining

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant