KR102069676B1

KR102069676B1 - 검색어에서 적어도 하나의 키워드를 추출하는 방법, 전자 장치 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR102069676B1
Application number: KR1020180014231A
Authority: KR
Inventors: 박희근
Original assignee: 현대카드 주식회사
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2020-01-23
Also published as: KR20190094738A

Abstract

검색어에서 적어도 하나의 키워드를 추출하는 전자 장치가 개시된다. 전자 장치는, 미리 학습된 실질 형태소 결정 알고리즘에 기초하여, 검색어에 포함된 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 상기 검색어의 각 음절에 태깅함으로써 생성되는 태깅 정보를 출력하는 머신-러닝 기반 모델을 저장하는 메모리, 외부 전자 장치와 통신을 수행하는 통신 회로, 상기 메모리 및 상기 통신 회로와 전기적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 통신 회로를 통해 상기 외부 전자 장치로부터 제1 검색어를 수신하고, 상기 머신-러닝 기반 모델에 상기 제1 검색어를 적용하여, 상기 복수의 태그 중 하나의 태그를 상기 제1 검색어의 각 음절에 태깅함으로써 생성되는 제1 태깅 정보를 획득하고, 상기 제1 태깅 정보에 기초하여, 상기 제1 검색어로부터 적어도 하나의 제1 키워드로 추출할 수 있다.

Description

검색어에서 적어도 하나의 키워드를 추출하는 방법, 전자 장치 및 컴퓨터 판독 가능한 기록 매체{ELECTRONIC APPARATUS AND METHOD FOR EXTRACTING AT LEAST ONE KEYWORD FROM SEARCH TERMS AND COMPUTER READABLE RECORDING MEDIUM}

본 개시는, 검색어에서 적어도 하나의 키워드를 추출하는 방법, 전자 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.

검색을 위해 이용되는 키워드는 크게 색인 키워드와 질의 키워드로 구분되며, 입력된 검색어로부터 해당 키워드들을 추출하기 위해서는 형태소 분석과 품사 태깅(part of speech tagging)을 통하여 가장 작은 의미 단위인 형태소로 분리하는 과정이 수행된다. 이렇게 생성된 형태소 나열을 정의된 규칙에 따라 다양한 형태소 묶음을 만들어 검색 키워드로 사용한다.

한국어 형태소 분석은 복잡한 문법 규칙과 수많은 사전 정보를 사용하여 한 어절을 구성할 수 있는 모든 형태소 원형을 복원하는 과정을 수반하며, 품사 태깅은 한 문장 내의 복수의 어절에 대한 형태소 분석 결과 중에서 문맥에 맞는 형태소 분석 결과를 선택하는 과정을 수반한다.

한국어 형태소는 크게 실질 형태소와 문법 형태소로 구분된다. 실질 형태소는 실질적 뜻을 지닌 형태소로 명사, 동사, 형용사, 부사 등이 해당되며, 문법 형태소는 문법적 기능을 나타내는 형태소로 조사, 어미 등이 해당된다.

한국어 검색 키워드는 주로 실질 형태소를 중심으로 추출되며, 서비스 목적에 따라 문법 형태소를 실질 형태소에 결합한 형태로 사용하기도 한다.

사용자로부터 입력된 검색어로부터, 검색을 위해 이용되는 키워드를 추출하기 위해서는 복잡한 형태소 분석 과정과 품사 태깅 과정이 수행됨에 따라, 검색어로부터 키워드를 추출하기 위해 많은 시간이 소요되고, 추출된 키워드를 통해 사용자가 원하는 검색 결과가 정확히 도출되지 않는 문제가 있다.

본 개시의 다양한 실시예는 상술한 문제점 또는 다른 문제점을 해결하기 위한 검색어에서 키워드를 추출하는 방법, 전자 장치 및 컴퓨터 판독 가능한 기록 매체를 제공할 수 있다.

본 개시의 일 실시예에 따르면, 검색어에서 적어도 하나의 키워드를 추출하는 전자 장치는, 미리 학습된 실질 형태소 결정 알고리즘에 기초하여, 검색어에 포함된 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 상기 검색어의 각 음절에 태깅함으로써 생성되는 태깅 정보를 출력하는 머신-러닝 기반 모델을 저장하는 메모리, 외부 전자 장치와 통신을 수행하는 통신 회로 및 상기 메모리 및 상기 통신 회로와 전기적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 통신 회로를 통해 상기 외부 전자 장치로부터 제1 검색어를 수신하고, 상기 머신-러닝 기반 모델에 상기 제1 검색어를 적용하여, 상기 복수의 태그 중 하나의 태그를 상기 제1 검색어의 각 음절에 태깅함으로써 생성되는 제1 태깅 정보를 획득하고, 상기 제1 태깅 정보에 기초하여, 상기 제1 검색어로부터 적어도 하나의 제1 키워드로 추출할 수 있다.

일 실시예에서, 상기 복수의 태그는, 상기 검색어에 포함된 실질 형태소의 시작 음절을 나타내는 제1 태그, 상기 실질 형태소의 상기 시작 음절을 제외한 나머지 음절을 나타내는 제2 태그 및 상기 실질 형태소에 포함되지 않는 음절을 나타내는 제3 태그를 포함할 수 있다.

일 실시예에서, 상기 프로세서는, 상기 제1 태깅 정보에 기초하여, 상기 제1 검색어에서 상기 제1 태그로 태깅된 음절로 시작되는 적어도 하나의 어절을 결정하고, 상기 결정된 적어도 하나의 어절에서 상기 제3 태그로 태깅된 적어도 하나의 음절을 제외하고, 상기 제3 태그로 태깅된 적어도 하나의 음절이 제외된 상기 적어도 하나의 어절을 상기 적어도 하나의 제1 키워드로 추출할 수 있다.

일 실시예에서, 상기 프로세서는, 상기 적어도 하나의 제1 키워드를 통해 수행된 검색 결과에 대한 정보를 상기 외부 전자 장치로 송신하도록 상기 통신 회로를 제어할 수 있다.

일 실시예에서, 상기 머신 러닝 기반 모델은, 상기 미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, 상기 제1 태그가 태깅된 음절 및 상기 제2 태그가 태깅된 음절 중 적어도 하나에 상기 실질 형태소에 대한 품사 정보를 더 태깅하여 상기 태깅 정보를 생성할 수 있다.

일 실시예에서, 상기 머신-러닝 기반 모델은, 복수의 어휘 각각에 대한 실질 형태소 분석 결과를 포함하는 제1 정보를 이용하여, 상기 실질 형태소 결정 알고리즘을 학습하고, 상기 실질 형태소 결정 알고리즘에 기초하여, 상기 복수의 어휘에 포함된 각 음절에 상기 복수의 태그 중 하나의 태그를 태깅함으로써 생성되는 제2 정보를 이용하여, 상기 복수의 태그 중 하나의 태그를 상기 검색어의 각 음절에 태깅함으로써 생성되는 상기 태깅 정보를 출력하도록 학습될 수 있다.

본 개시의 일 실시예에 따르면, 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 비일시적 컴퓨터 판독 가능한 기록 매체에 있어서, 상기 프로그램은, 프로세서에 의한 실행 시, 상기 프로세서가, 외부 전자 장치로부터 제1 검색어를 수신하는 단계, 미리 학습된 실질 형태소 결정 알고리즘에 기초하여, 검색어에 포함된 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 상기 검색어의 각 음절에 태깅함으로써 생성되는 태깅 정보를 출력하는 머신-러닝 기반 모델에 상기 제1 검색어를 적용하는 단계, 상기 머신-러닝 기반 모델로부터, 상기 복수의 태그 중 하나의 태그를 상기 제1 검색어의 각 음절에 태깅함으로써 생성되는 제1 태깅 정보를 획득하는 단계 및 상기 제1 태깅 정보에 기초하여, 상기 제1 검색어로부터 적어도 하나의 제1 키워드를 추출하는 단계를 수행하도록 하는 실행 가능한 명령을 포함할 수 있다.

일 실시예에서, 상기 복수의 태그는, 상기 검색어에 포함된 상기 실질 형태소의 시작 음절을 나타내는 제1 태그, 상기 실질 형태소의 상기 시작 음절을 제외한 나머지 음절을 나타내는 제2 태그 및 상기 실질 형태소에 포함되지 않는 음절을 나타내는 제3 태그를 포함할 수 있다.

일 실시예에서, 상기 제1 검색어에서 적어도 하나의 제1 키워드를 추출하는 단계는, 상기 제1 태깅 정보에 기초하여, 상기 제1 검색어에서 상기 제1 태그로 태깅된 음절로 시작되는 적어도 하나의 어절을 결정하는 단계, 상기 결정된 적어도 하나의 어절에서 상기 제3 태그로 태깅된 적어도 하나의 음절을 제외하는 단계 및 상기 제3 태그로 태깅된 적어도 하나의 음절이 제외된 상기 적어도 하나의 어절을 상기 적어도 하나의 제1 키워드로 추출하는 단계를 포함할 수 있다.

일 실시예에서, 상기 실행 가능한 명령은, 상기 적어도 하나의 제1 키워드를 통해 수행된 검색 결과에 대한 정보를 상기 외부 전자 장치로 송신하는 단계를 더 수행하도록 할 수 있다.

일 실시예에서, 상기 머신 러닝 기반 모델은, 상기 미리 학습된 실질 형태소 결정 알고리즘 및 상기 실질 형태소 품사 결정 알고리즘에 기초하여, 상기 제1 태그 또는 상기 제2 태그가 태깅된 음절에 상기 실질 형태소에 대한 품사 정보를 더 태깅하여 상기 태깅 정보를 생성할 수 있다.

일 실시예에서, 상기 머신-러닝 기반 모델은, 복수의 어휘 각각에 대한 실질 형태소 분석 결과를 포함하는 제1 정보를 이용하여, 상기 실질 형태소 결정 알고리즘을 학습하고, 상기 학습된 실질 형태소 결정 알고리즘에 기초하여, 상기 복수의 어휘에 포함된 각 음절에 상기 복수의 태그 중 하나의 태그를 태깅함으로써 생성되는 제2 정보를 이용하여, 상기 복수의 태그 중 하나의 태그를 상기 검색어의 각 음절에 태깅함으로써 생성되는 상기 태깅 정보를 출력하도록 학습될 수 있다.

본 개시의 일 실시예에 따르면, 검색어에서 키워드를 추출하는 방법은, 외부 전자 장치로부터 제1 검색어를 수신하는 단계, 미리 학습된 실질 형태소 결정 알고리즘에 기초하여, 검색어에 포함된 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 검색어의 각 음절에 태깅함으로써 생성되는 태깅 정보를 출력하는 머신-러닝 기반 모델에 상기 제1 검색어를 적용하는 단계, 상기 머신-러닝 기반 모델로부터, 상기 복수의 태그 중 하나의 태그를 상기 제1 검색어의 각 음절에 태깅함으로써 생성되는 제1 태깅 정보를 획득하는 단계 및 상기 제1 태깅 정보에 기초하여, 상기 제1 검색어로부터 적어도 하나의 제1 키워드로 추출하는 단계를 포함할 수 있다.

본 개시의 다양한 실시예에 따른 검색어에서 키워드를 추출하는 방법은 검색어에서 키워드를 추출함에 있어 복잡한 형태소 분석과 품사 태깅을 사용하지 않고, 머신-러닝 기반 모델을 이용하여 검색어에서 키워드를 추출에 소요되는 시간을 감소시켜 보다 효율적으로 키워드가 추출될 수 있다. 또한, 머신-러닝 기반 모델을 이용하여 추출된 키워드를 통해 사용자가 원하는 검색 결과가 보다 정확히 도출될 수 있다.

도 1은 본 개시의 다양한 실시예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 2는 본 개시의 다양한 실시예예 따른 전자 장치에 의한 키워드 추출 방법의 흐름도이다.
도 3a는 본 개시의 다양한 실시예에 따른 머신-러닝 기반 모델에 의해 생성되는 태깅 정보에 대한 개념도이다.
도 3b는 본 개시의 다양한 실시예에 따른 품사 정보를 도시한다.
도 4는 본 개시의 일 실시예에 따른 전자 장치에 의한 검색어에서 적어도 하나의 키워드를 추출하는 방법의 흐름도이다.
도 5는 본 개시의 다양한 실시예에 따른 전자 장치(100)와 외부 전자 장치(101)에 의한 검색어를 통한 검색 수행 방법의 흐름도이다.
도 6은 본 개시의 다양한 실시예에 따른 머신-러닝 기반 모델의 학습 방법을 설명하기 위한 도면이다.

본 개시의 실시예들은 본 개시의 기술적 사상을 설명하기 위한 목적으로 예시된 것이다. 본 개시에 따른 권리범위가 이하에 제시되는 실시예들이나 이들 실시예들에 대한 구체적 설명으로 한정되는 것은 아니다.

본 개시에 사용되는 모든 기술적 용어들 및 과학적 용어들은, 달리 정의되지 않는 한, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 일반적으로 이해되는 의미를 갖는다. 본 개시에 사용되는 모든 용어들은 본 개시를 더욱 명확히 설명하기 위한 목적으로 선택된 것이며 본 개시에 따른 권리범위를 제한하기 위해 선택된 것이 아니다.

본 개시에서 사용되는 "포함하는", "구비하는", "갖는" 등과 같은 표현은, 해당 표현이 포함되는 어구 또는 문장에서 달리 언급되지 않는 한, 다른 실시예를 포함할 가능성을 내포하는 개방형 용어(open-ended terms)로 이해되어야 한다.

본 개시에서 기술된 단수형의 표현은 달리 언급하지 않는 한 복수형의 의미를 포함할 수 있으며, 이는 청구범위에 기재된 단수형의 표현에도 마찬가지로 적용된다.

본 개시에서 사용되는 "제1", "제2" 등의 표현들은 복수의 구성요소들을 상호 구분하기 위해 사용되며, 해당 구성요소들의 순서 또는 중요도를 한정하는 것은 아니다.

본 개시에서 사용되는 "~에 기초하여"라는 표현은, 해당 표현이 포함되는 어구 또는 문장에서 기술되는, 결정, 판단의 행위 또는 동작에 영향을 주는 하나 이상의 인자를 기술하는데 사용되며, 이 표현은 결정, 판단의 행위 또는 동작에 영향을 주는 추가적인 인자를 배제하지 않는다.

본 개시에서, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 경우, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결될 수 있거나 접속될 수 있는 것으로, 또는 새로운 다른 구성요소를 매개로 하여 연결될 수 있거나 접속될 수 있는 것으로 이해되어야 한다.

이하, 첨부한 도면들을 참조하여, 본 개시의 실시예들을 설명한다. 첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응하는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나, 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.

도 1은 본 개시의 다양한 실시예에 따른 전자 장치의 구성을 나타내는 블록도이다.

일 실시예에서, 전자 장치(100)는 통신 회로(110), 메모리(120) 및 프로세서(130)를 포함할 수 있다. 통신 회로(110), 메모리(120) 및 프로세서(130)는 버스(미도시)를 통해 전기적으로 연결되어, 정보, 제어 명령, 데이터 등을 송수신할 수 있다.

일 실시예에서, 통신 회로(110)는 외부 전자 장치(101)와 통신을 수행할 수 있다. 예를 들어, 통신 회로(110)는 전자 장치(100)와 외부 전자 장치(101) 간의 통신을 설정할 수 있다. 통신 회로(110)는 무선 통신 또는 유선 통신을 통해서 네트워크와 연결되어 외부 전자 장치(101)와 통신할 수 있다. 또 다른 예로, 통신 회로(110)는 외부 전자 장치(101)와 유선으로 연결되어 통신을 수행할 수도 있다.

무선 통신은, 예를 들면, 셀룰러 통신(예: LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband) 등)을 포함할 수 있다. 또한, 무선 통신은, 근거리 무선 통신(예: WiFi(wireless fidelity), LiFi(light fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication) 등)을 포함할 수 있다.

일 실시예에서, 메모리(120)는 전자 장치(100)의 적어도 하나의 다른 구성 요소에 관계된 명령 또는 데이터를 저장할 수 있다. 또한, 메모리(120)는 소프트웨어 및/또는 프로그램을 저장할 수 있다.

예를 들어, 메모리(120)는 내장 메모리 또는 외장 메모리를 포함할 수 있다. 내장 메모리는, 예를 들면, 휘발성 메모리(예: DRAM, SRAM 또는 SDRAM 등), 비휘발성 메모리(예: 플래시 메모리, 하드 드라이브, 또는 솔리드 스테이트 드라이브 (SSD)) 중 적어도 하나를 포함할 수 있다. 외장 메모리는 다양한 인터페이스를 통하여 전자 장치(201)와 기능적으로 또는 물리적으로 연결될 수 있다.

일 실시예에서, 메모리(120)는 머신-러닝 기반 모델을 저장할 수 있다. 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘에 기초하여, 검색어에 포함된 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 검색어의 각 음절에 태깅(tagging)함으로써 생성되는 태깅 정보를 출력할 수 있다. 예를 들어, 머신-러닝 기반 모델로는 딥-러닝 모델 등이 이용될 수 있다.

또한, 머신-러닝 기반 모델은 전자 장치(100)와 유선 또는 무선으로 연결된 다른 전자 장치(예: 외부 서버 등)의 메모리에 저장될 수도 있다. 이 경우, 전자 장치(100)는 유선 또는 무선으로 연결된 다른 전자 장치와 검색어에서 적어도 하나의 키워드를 추출하기 위한 정보를 송수신할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은, 복수의 어휘 각각에 대한 실질 형태소 분석 결과를 포함하는 제1 정보를 이용하여, 실질 형태소 결정 알고리즘을 학습할 수 있다. 예를 들어, 제1 정보는 복수의 어휘 각각에서 실질 형태소를 결정하고, 실질 형태소 영역과 실질 형태소가 아닌 영역을 구분한 정보를 포함할 수 있다.

또한, 제1 정보는 실질 형태소 영역과 실질 형태소가 아닌 영역 각각에 대한 품사 정보를 더 포함할 수 있다. 이 경우, 머신-러닝 기반 모델은 제1 정보를 이용하여, 실질 형태소가 어떤 품사인지를 결정하기 위하여 이용되는 실질 형태소 품사 결정 알고리즘을 더 학습할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은, 실질 형태소 결정 알고리즘에 기초하여, 복수의 어휘에 포함된 각 음절에 복수의 태그 중 하나의 태그를 태깅함으로써 생성되는 제2 정보를 이용하여, 복수의 태그 중 하나의 태그를 검색어의 각 음절에 태깅함으로써 생성되는 태깅 정보를 출력하도록 학습될 수 있다.

예를 들어, 제2 정보는 제1 정보에 포함된 실질 형태소 영역과 실질 형태소가 아닌 영역을 구분한 정보에 기초하여, 복수의 태그 중 하나의 태그를 복수의 어휘에 포함된 각 음절에 태깅함으로써 생성될 수 있다. 제2 정보는 프로세서(130)에 의해 생성될 수도 있고, 다른 전자 장치에서 생성되어 전자 장치(101)로 전달될 수도 있다.

예를 들어, 머신-러닝 기반 모델은 제2 정보를 이용하여, 검색어의 각 음절에 복수의 태그 중 어떤 태그를 태깅해야 하는 지를 학습할 수 있다. 또한, 머신-러닝 기반 모델은 검색어의 각 음절에 복수의 태그 중 하나의 태그를 태깅한 결과를 나타내는 태깅 정보를 생성하여 출력하도록 학습될 수 있다. 머신-러닝 기반 모델을 학습시키는 구체적인 방법에 대해서는 후술하도록 한다.

이와 같이, 검색어의 각 음절에 복수의 태그 중 어떤 태그가 태깅되었는 지가 머신-러닝 기반 모델에서 출력되는 태깅 정보를 통해 확인될 수 있다. 태깅 정보는 검색어에서 실질 형태소를 결정하기 위하여 이용될 수 있다.

일 실시예에서, 실질 형태소를 식별하기 위한 복수의 태그는, 검색어에 포함된 실질 형태소의 시작 음절을 나타내는 제1 태그, 실질 형태소의 시작 음절을 제외한 나머지 음절을 나타내는 제2 태그 및 실질 형태소에 포함되지 않는 음절을 나타내는 제3 태그를 포함할 수 있다. 다만, 이는 설명의 목적일 뿐, 이에 제한되는 것은 아니며, 검색어에서 실질 형태소를 식별하기 위하여 다양한 방법으로 복수의 태그가 설정될 수 있다.

일 실시예에서, 머신-러닝 기반 모델은, 미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, 실질 형태소에 실질 형태소에 대한 품사 정보를 더 태깅하여 태깅 정보를 생성할 수 있다. 예를 들어, 머신-러닝 기반 모델은, 제1 검색어의 음절들 중, 제1 태그가 태깅된 음절 및 제2 태그가 태깅된 음절 중 적어도 하나에 실질 형태소에 대한 품사 정보를 더 태깅할 수 있다. 이에 따라, 검색어의 각 음절에 복수의 태그 중 어떤 태그가 태깅되었는 지와 더불어 각 음절을 포함하는 실질 형태소의 품사가 어떤 것인 지가 머신-러닝 기반 모델에서 출력되는 태깅 정보를 통해 확인될 수 있다.

일 실시예에서, 프로세서(130)는 운영 체제 또는 응용 프로그램을 구동하여 전자 장치(100)의 적어도 하나의 다른 구성 요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 예를 들어, 프로세서(130)는 중앙처리장치 등을 포함할 수 있고, SoC(system on chip)로 구현될 수 있다.

일 실시예에서, 프로세서(130)는 통신 회로(110)를 통해 외부 전자 장치(101)로부터 제1 검색어를 수신할 수 있다. 외부 전자 장치(101)는 사용자로부터 제1 검색어를 외부 전자 장치(101)의 입력 인터페이스(예: 터치 스크린, 키 패드 등)를 통해 입력 받을 수 있다. 외부 전자 장치(101)는 사용자에 의해 입력된 제1 검색어를 외부 전자 장치(101)의 통신 회로를 통해 전자 장치(100)로 송신할 수 있다.

일 실시예에서, 프로세서(130)는 통신 회로(110)를 통해 수신된 제1 검색어를 머신-러닝 기반 모델에 적용할 수 있다. 머신-러닝 기반 모델은 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 제1 검색어의 각 음절에 태깅함으로써, 제1 태깅 정보를 생성할 수 있다. 프로세서(130)는 머신-러닝 기반 모델로부터 제1 태깅 정보를 획득할 수 있다.

일 실시예에서, 프로세서(130)는 머신-러닝 기반 모델로부터 획득한 제1 태깅 정보에 기초하여, 제1 검색어로부터 적어도 하나의 제1 키워드를 추출할 수 있다. 예를 들어, 프로세서(130)는 제1 태깅 정보에 기초하여, 제1 검색어의 각 음절에 복수의 태그 중 어떤 태그가 태깅 되었는지를 확인할 수 있다. 프로세서(130)는 제1 검색어의 각 음절에 복수의 태그 중 어떤 태그가 태깅 되었는지를 확인함으로써, 제1 검색어에서 적어도 하나의 제1 키워드를 추출할 수 있다.

예를 들어, 프로세서(130)는 제1 태깅 정보에 기초하여, 제1 검색어에서 제1 태그로 태깅된 음절로 시작되는 적어도 하나의 어절을 결정할 수 있다. 프로세서(130)는 결정된 적어도 하나의 어절에서 제3 태그로 태깅된 적어도 하나의 음절을 제외하고, 제3 태그로 태깅된 적어도 하나의 음절이 제외된 적어도 하나의 어절을 적어도 하나의 제1 키워드로 추출할 수 있다.

또한, 프로세서(130)는 제1 태깅 정보를 통해, 제1 검색어의 각 음절에 품사 정보가 태깅된 것이 확인되면, 각 음절에 태깅된 품사 정보에 기초하여, 제1 검색어에 포함된 적어도 하나의 어절의 실질 형태소에 대한 품사를 결정할 수 있다.

일 실시예에서, 프로세서(130)는 추출된 적어도 하나의 제1 키워드를 통해 검색을 수행할 수 있다. 프로세서(130)는 적어도 하나의 제1 키워드를 통해 수행된 검색 결과에 대한 정보를 외부 전자 장치(101)로 송신하도록 통신 회로(110)를 제어할 수 있다.

일 실시예에서, 프로세서(130)는 제1 검색어에서 결정된 적어도 하나의 제1 키워드를 이용하여 머신-러닝 기반 모델을 학습시킬 수 있다. 예를 들어, 프로세서(130)는 복수의 외부 전자 장치로부터 수신되는 검색어로부터 키워드를 추출할 때마다, 이를 이용하여 머신-러닝 기반 모델을 지속적으로 학습시킬 수 있다. 이를 통해, 머신-러닝 기반 모델에서 어떤 검색어가 적용되더라도 보다 정확하게 태깅 정보를 생성할 수 있고, 프로세서(130)는 보다 정확하게 검색어에서 키워드를 추출할 수 있다. 이에 따라, 검색어를 입력한 사용자의 의도에 보다 부합한 검색 결과가 사용자에게 제공될 수 있다.

도 2, 도 4, 도 5 및 도 6에 도시된 흐름도에서 프로세스 단계들, 방법 단계들, 알고리즘들 등이 순차적인 순서로 설명되었지만, 그러한 프로세스들, 방법들 및 알고리즘들은 임의의 적합한 순서로 작동하도록 구성될 수 있다. 다시 말하면, 본 개시의 다양한 실시예들에서 설명되는 프로세스들, 방법들 및 알고리즘들의 단계들이 본 개시에서 기술된 순서로 수행될 필요는 없다. 또한, 일부 단계들이 비동시적으로 수행되는 것으로서 설명되더라도, 다른 실시예에서는 이러한 일부 단계들이 동시에 수행될 수 있다. 또한, 도면에서의 묘사에 의한 프로세스의 예시는 예시된 프로세스가 그에 대한 다른 변화들 및 수정들을 제외하는 것을 의미하지 않으며, 예시된 프로세스 또는 그의 단계들 중 임의의 것이 본 개시의 다양한 실시예들 중 하나 이상에 필수적임을 의미하지 않으며, 예시된 프로세스가 바람직하다는 것을 의미하지 않는다.

도 2는 본 개시의 다양한 실시예예 따른 전자 장치에 의한 키워드 추출 방법의 흐름도이다.

210 단계에서, 전자 장치(100)는 전자 장치(100)와 외부 전자 장치(101)로부터 제1 검색어를 수신할 수 있다. 예를 들어, 외부 전자 장치(101)는 사용자로부터 제1 검색어를 입력 받고, 제1 검색어를 전자 장치(100)로 송신할 수 있다. 전자 장치(100)의 프로세서(130)는 전자 장치(100)의 통신 회로(110)를 통해 외부 전자 장치(101)로부터 제2 검색어를 수신할 수 있다.

220 단계에서, 전자 장치(100)는 머신-러닝 기반 모델에 외부 전자 장치(101)로부터 수신된 제1 검색어를 적용할 수 있다. 예를 들어, 프로세서(130)는 전자 장치(100)의 메모리 또는 전자 장치(100)와 유선 또는 무선으로 연결된 다른 전자 장치(예: 외부 서버 등)의 메모리에 저장된 머신-러닝 기반 모델에 제1 검색어를 적용할 수 있다. 예를 들어, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘에 기초하여, 검색어에 포함된 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 검색어의 각 음절에 태깅함으로써 생성되는 태깅 정보를 출력할 수 있다.

230 단계에서, 전자 장치(100)는 복수의 태그 중 하나의 태그를 제1 검색어의 각 음절에 태깅함으로써 생성되는 제1 태깅 정보를 획득할 수 있다. 예를 들어, 프로세서(130)는 머신-러닝 기반 모델이 복수의 태그 중 하나의 태그를 제1 검색어의 각 음절에 태깅함으로써, 생성한 제1 태깅 정보를 획득할 수 있다.

240 단계에서, 전자 장치(100)는 제1 태깅 정보에 기초하여, 제1 검색어로부터 적어도 하나의 제1 키워드를 추출할 수 있다. 예를 들어, 프로세서(130)는 제1 태깅 정보에 기초하여, 제1 검색어의 각 음절에 복수의 태그 중 어떤 태그가 태깅 되었는지를 확인할 수 있다. 프로세서(130)는 확인 결과를 이용하여, 제1 검색어로부터 적어도 하나의 제1 키워드를 추출할 수 있다.

또한, 프로세서(130)는 적어도 하나의 제1 키워드를 통해 검색을 수행하고, 수행된 검색 결과에 대한 정보를 통신 회로(110)를 통해 외부 전자 장치(101)로 송신할 수 있다.

도 3a는 본 개시의 다양한 실시예에 따른 머신-러닝 기반 모델에 의해 생성되는 태깅 정보에 대한 개념도이다.

일 실시예에서, 머신-러닝 기반 모델은, 미리 학습된 실질 형태소 결정 알고리즘에 기초하여, 검색어에 포함된 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 검색어의 각 음절에 태깅함으로써, 태깅 정보를 생성할 수 있다.

예를 들어, 복수의 태그는, 검색어에 포함된 실질 형태소의 시작 음절을 나타내는 제1 태그, 실질 형태소의 시작 음절을 제외한 나머지 음절을 나타내는 제2 태그 및 실질 형태소에 포함되지 않는 음절을 나타내는 제3 태그를 포함할 수 있다.

도 3a를 참조하면, "조금 어려운 얘기지만"이라는 검색어가 외부 전자 장치(101)로부터 수신되는 경우, 머신-러닝 기반 모델은 제1 태깅 정보(310), 제2 태깅 정보(320) 및 제3 태깅 정보(330)를 포함하는 태깅 정보를 생성할 수 있다.

예를 들어, 프로세서(130)는 "조금 어려운 얘기지만" 이라는 검색어를 머신-러닝 기반 모델에 적용할 수 있다. 머신-러닝 기반 모델은 "조금 어려운 얘기지만" 이라는 검색어를 어절 별로 구분할 수 있다. 다시 말해서, "조금 어려운 얘기지만" 이라는 검색어를, "조금", "어려운" 및 "얘기지만"의 각 어절로 구분할 수 있다. 또한, 머신-러닝 기반 모델은 구분된 "조금"에 대응하는 제1 태깅 정보(310), "어려운"에 대응하는 제2 태깅 정보(320) 및 "얘기지만"에 대응하는 제3 태깅 정보(330)를 생성할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘에 따라, "조금"에 포함된 각 음절, 예를 들어 "조"와 "금" 각각에 대해서 복수의 태그 중 하나의 태그를 태깅할 수 있다. 예를 들어, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘에 따라, "조"가 실질 형태소의 시작 음절인 것으로 판단하고, "조"에 제1 태그를 태깅하고, "금"이 실질 형태소의 시작 음절을 제외한 나머지 음절인 것으로 판단하고, "금"에 제2 태그를 태깅함으로써, 제1 태깅 정보(310)를 생성할 수 있다. 이와 같이, "조"에 제1 태그가 태깅되고, "금"에 제2 태그가 태깅되었음이 제1 태깅 정보(310)를 통해 확인될 수 있다.

또한, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, 제1 태그가 태깅된 "조"와 제2 태그가 태깅된 "금"에 "조금"에서 결정된 실질 형태소인 "조금"에 대한 품사 정보를 더 태깅할 수 있다. 예를 들어, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, "조금"에서 결정된 실질 형태소인 "조금"의 품사가 일반 부사(MAG)인 것으로 결정하고, "조"와 "금" 각각에 실질 형태소인 "조금"이 일반 부사(MAG)임을 나타내는 품사 정보를 더 태깅할 수 있다. 또한, "조" 또는 "금" 중 어느 하나에만 실질 형태소인 "조금"이 일반 부사(MAG)임을 나타내는 품사 정보를 더 태깅할 수도 있다.

예를 들어, 태깅 정보에서 제1 태그가 태깅된 음절 및 제2 태그가 태깅된 음절 중 적어도 하나에 더 태깅되는 실질 형태소에 대한 품사 정보는 도 3b와 같이 나타낼 수 있다. 품사 정보는 제1 열(340)과 같이 구분된 품사에 따라, 제1 열(340)의 각 품사에 대응하는 제2 열(341)과 같이 표시되는 품사 정보일 수도 있고, 제3 열(350)과 같이 보다 세분화되어 구분된 품사에 따라 제3 열(350)의 각 품사에 대응하는 제4 열(351)과 같이 표시되는 품사 정보일 수도 있다. 이하에서는 품사 정보가 제4 열(351)과 같이 표시되는 품사 정보인 것을 중심으로 설명하나, 이에 제한되는 것은 아니다.

일 실시예에서, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘에 따라, "어려운"에 포함된 각 음절, 예를 들어 "어", "려" 및 "운" 각각에 대해서 복수의 태그 중 하나의 태그를 태깅할 수 있다. 예를 들어, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘에 따라, "어"가 실질 형태소의 시작 음절인 것으로 판단하고, "어"에 제1 태그를 태깅하고, "려"가 실질 형태소의 시작 음절을 제외한 나머지 음절인 것으로 판단하고, "려"에 제2 태그를 태깅하고, "운"이 실질 형태소에 포함되지 않는 음절인 것으로 판단하고, "운"에 제3 태그를 태깅함으로써, 제2 태깅 정보(320)를 생성할 수 있다. 이와 같이, "어"에 제1 태그가 태깅되고, "려"에 제2 태그가 태깅되고, "운"에 제3 태그가 태깅되었음이 제2 태깅 정보(320)를 통해 확인될 수 있다.

또한, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, 제1 태그가 태깅된 "어"와 제2 태그가 태깅된 "려"에 "어려운"에서 결정된 실질 형태소인 "어려"에 대한 품사 정보를 더 태깅할 수 있다. 예를 들어, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, "어려운"에서 결정된 실질 형태소인 "어려"의 품사가 형용사(VA)인 것으로 판단하고, "어"와 "려" 각각에 실질 형태소인 "어려"가 형용사(VA)임을 나타내는 품사 정보를 더 태깅할 수 있다. 또한, "어" 또는 "려" 중 어느 하나에만 실질 형태소인 "어려"의 품사가 형용사(VA)임을 나타내는 품사 정보를 더 태깅할 수도 있다.

예를 들어, 제1 정보는 제1 정보는 복수의 어휘 각각에 대한 실질 형태소 분석 결과에 기초한 복수의 어휘 각각에서 결정된 실질 형태소에 대한 품사 정보를 더 포함할 수 있다. 머신-러닝 기반 모델은 제1 정보의 실질 형태소 분석 결과에 따른 "어려운"의 실질 형태소인 "어렵"의 품사를 제1 정보를 통해 확인할 수 있고, 이에 따라, 미리 학습된 실질 형태소 결정 알고리즘에 따라 "어려운"에 대해 실질 형태소로 결정된 "어려"의 품사가 품사가 형용사(VA)인 것으로 판단할 수 있다. 이와 같이, 머신-러닝 기반 모델은, 1 정보의 실질 형태소 분석 결과에 따른 특정 어휘의 실질 형태소와, 머신-러닝 기반 모델에 의해 특정 어휘에 대해 결정되는 실질 형태소가 상이한 경우에도, 머신-러닝 기반 모델에 의해 특정 어휘에 대해 결정되는 실질 형태소에 대한 품사를 판단할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘에 따라, "얘기지만"에 포함된 각 음절, 예를 들어 "얘", "기", "지" 및 "만" 각각에 대해서 복수의 태그 중 하나의 태그를 태깅할 수 있다. 예를 들어, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘에 따라, "얘"가 실질 형태소의 시작 음절인 것으로 판단하고, "얘"에 제1 태그를 태깅하고, "기"가 실질 형태소의 시작 음절을 제외한 나머지 음절인 것으로 판단하고, "기"에 제2 태그를 태깅하고, "지"와 "만"이 실질 형태소에 포함되지 않는 음절인 것으로 판단하고, "지"와 "만" 각각에 제3 태그를 태깅함으로써, 제3 태깅 정보(330)를 생성할 수 있다. 이와 같이, "얘"에 제1 태그가 태깅되고, "기"에 제2 태그가 태깅되고, "지"와 "만"에 제3 태그가 태깅되었음이 제3 태깅 정보(330)를 통해 확인될 수 있다.

또한, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, 제1 태그가 태깅된 "얘"와 제2 태그가 태깅된 "기"에 "얘기지만"에서 결정된 실질 형태소인 "얘기"에 대한 품사 정보를 더 태깅할 수 있다. 예를 들어, 머신-러닝 기반 모델은 미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, "얘기지만"에서 결정된 실질 형태소인 "얘기"의 품사가 일반명사(NNG)인 것으로 판단하고, "얘"와 "기" 각각에 "얘기지만"에서 결정된 실질 형태소인 "얘기"가 일반명사(NNG)임을 나타내는 품사 정보를 더 태깅할 수 있다. 또한, "얘" 또는 "기" 중 어느 하나에만 실질 형태소인 "애기"의 품사가 일반명사(NNG)임을 나타내는 품사 정보를 더 태깅할 수도 있다.

도 4는 본 개시의 일 실시예에 따른 전자 장치에 의한 검색어에서 적어도 하나의 키워드를 추출하는 방법의 흐름도이다.

410 단계에서, 전자 장치(100)는 머신-러닝 기반 모델에 제1 검색어를 적용하여 획득한 제1 태깅 정보에 기초하여, 제1 검색어에서 제1 태그로 태깅된 음절로 시작되는 적어도 하나의 어절을 결정할 수 있다. 예를 들어, 전자 장치(100)의 프로세서(130)는 "조금 어려운 얘기지만"이라는 제1 검색어를 머신-러닝 기반 모델에 적용하여 획득한 제1 태깅 정보에 기초하여, 제1 태그로 태깅된 "조", "어" 및 "얘"로 시작되는 "조금", "어려운" 및 "얘기지만"이라는 어절을 결정할 수 있다.

420 단계에서, 전자 장치(100)는 결정된 적어도 하나의 어절에서 제3 태그로 태깅된 적어도 하나의 음절을 제외할 수 있다. 예를 들어, 프로세서(130)는 "어려운"에서 제3 태그로 태깅된 음절인 "운"을 제외하고, "얘기지만"에서 제3 태그로 태깅된 음절인 "지"와 "만"을 제외할 수 있다.

430 단계에서, 전자 장치(100)는 제3 태그로 태깅된 적어도 하나의 음절이 제외된 적어도 하나의 어절을 적어도 하나의 제1 키워드로 추출할 수 있다. 예를 들어, 프로세서(130)는 제3 태그로 태깅된 음절을 포함하지 않는 어절인 "조금"과 제3 태그로 태깅된 음절인 "운"을 제외한 어절인 "어려"와 제3 태그로 태깅된 음절인 "지"와 "만"을 제외한 어절인 "얘기"를 복수의 제1 키워드로 추출할 수 있다.

프로세서(130)는 복수의 제1 키워드로 추출된 "조금", "어려" 및 "얘기"를 이용하여 검색을 수행하고, 검색 결과를 외부 전자 장치(101)로 통신 회로(110)를 통해 송신할 수 있다.

도 5는 본 개시의 다양한 실시예에 따른 전자 장치(100)와 외부 전자 장치(101)에 의한 검색어를 통한 검색 수행 방법의 흐름도이다.

510 단계에서, 외부 전자 장치(100)는 사용자로부터 검색어를 입력받을 수 있다. 예를 들어, 외부 전자 장치(101)는 사용자로부터 제1 검색어를 외부 전자 장치(101)의 입력 인터페이스를 통해 수신할 수 있다.

520 단계에서, 외부 전자 장치(101)는 사용자로부터 입력 받은 제1 검색어를 전자 장치(100)로 송신할 수 있다.

530 단계에서, 전자 장치(100)는 외부 전자 장치(101)로부터 수신한 제1 검색어를 머신-러닝 기반 모델에 적용할 수 있다. 전자 장치(100)는 머신-러닝 기반 모델이 전자 장치(100)와 유선 또는 무선으로 연결된 다른 전자 장치의 메모리에 저장되어 있는 경우, 다른 전자 장치로 제1 검색어를 송신하여, 제1 검색어가 머신-러닝 기반 모델에 적용되도록 할 수 있다.

540 단계에서, 전자 장치(100)는 머신-러닝 기반 모델로부터 제1 검색어에 대한 제1 태깅 정보를 획득할 수 있다. 전자 장치(100)는 머신-러닝 기반 모델이 전자 장치(100)와 유선 또는 무선으로 연결된 다른 전자 장치의 메모리에 저장되어 있는 경우, 다른 전자 장치로부터 제1 태깅 정보를 수신할 수 있다.

550 단계에서, 전자 장치(100)는 제1 태깅 정보에 기초하여, 제1 검색어로부터 적어도 하나의 제1 키워드를 추출할 수 있다. 제1 검색어로부터 적어도 하나의 제1 키워드를 추출하는 방법은 위에서 설명한 내용과 동일하므로, 별도의 설명은 생략하도록 한다.

또한, 전자 장치(100)는 머신-러닝 기반 모델이 전자 장치(100)와 유선 또는 무선으로 연결된 다른 전자 장치의 메모리에 저장되어 있고, 다른 전자 장치에서 적어도 하나의 제1 키워드 추출 과정이 수행되는 경우, 다른 전자 장치로부터 추출된 적어도 하나의 제1 키워드를 수신할 수 있다.

560 단계에서, 전자 장치(100)는 추출된 적어도 하나의 제1 키워드를 이용하여 검색을 수행하여 검색 결과를 획득할 수 있다. 570 단계에서, 전자 장치(100)는 획득된 검색 결과를 외부 전자 장치(101)로 송신할 수 있다. 580 단계에서, 외부 전자 장치(101)는 수신된 검색 결과를 외부 전자 장치(101)의 출력 인터페이스(예: 디스플레이 등)를 통해 사용자에게 제공할 수 있다.

도 6은 본 개시의 다양한 실시예에 따른 머신-러닝 기반 모델의 학습 방법을 설명하기 위한 도면이다.

일 실시예에서, 머신-러닝 기반 모델은 복수의 어휘 각각에 대한 실질 형태소 분석 결과를 포함하는 제1 정보에 기반하여, 검색어에서 실질 형태소를 결정하기 위한 실질 형태소 결정 알고리즘을 학습할 수 있다. 또한, 제1 정보는 복수의 어휘 각각에 대한 실질 형태소 분석 결과에 기초하여 결정된 실질 형태소에 대한 품사를 나타내는 품사 정보를 더 포함할 수 있다. 머신-러닝 기반 모델은 제1 정보에 기반하여, 검색어에서 결정된 실질 형태소에 대한 품사를 결정하기 위한 실질 형태소 품사 결정 알고리즘을 더 학습할 수 있다.

예를 들어, 제1 정보에 포함된 실질 형태소 분석 결과에 따른 특정 어휘에 대해 결정된 실질 형태소와, 머신-러닝 기반 모델에 의해 학습된 실질 형태소 결정 알고리즘에 따라 특정 어휘에 대해 결정되는 실질 형태소는 동일할 수도 있고, 상이할 수도 있다. 이에 대해서는 아래에서 보다 구체적으로 설명하도록 한다.

일 실시예에서, 머신-러닝 기반 모델은 제1 정보에 기반하여, 복수의 어휘 중 품사가 명사, 부사 등과 같이 체언에 해당하는 제1 어휘들(예: "조금", "얘기", "중앙" 등)에 대해서는 제1 어휘들 자체를 실질 형태소로 결정하도록 실질 형태소 결정 알고리즘을 학습할 수 있다. 이와 같이, 제1 어휘들에 대해서는 제1 정보의 실질 형태소 분석 결과에 따른 제1 어휘들에 대한 실질 형태소와, 머신-러닝 기반 모델에 의해 제1 어휘들에 대해 결정되는 실질 형태소가 동일할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은 동사, 형용사 등과 같은 용언, 조사, 어미 등과 같은 문법 형태소, 서술어절, 체언의 축약 어절에 해당하는 제2 어휘들에서 실질 형태소를 결정하기 위해, 형태소 분석의 복원 알고리즘을 역(reverse)으로 적용하여 제2 어휘들에서 실질 형태소를 결정하도록 실질 형태소 결정 알고리즘을 학습할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은 제2 어휘들에서 실질 형태소를 결정하기 위하여 제1 정보를 통해 확인되는 제2 어휘들에 대한 실질 형태소 분석 결과에 나타난 음절 수를 결정할 수 있다. 머신-러닝 기반 모델은, 제1 정보를 통해 확인되는 제2 어휘들에 대한 실질 형태소 분석 결과에 나타난 음절 수는, 제2 어휘들에 대한 실질 형태소 분석 결과에 과거형 선어말어미 "었" 또는 "았"는 제외하거나, "아", "어", "ㄴ", "ㄹ", "ㅁ" 또는 "ㅂ"로 시작하는 어미가 포함된 경우, "아", "어", "ㄴ", "ㄹ", "ㅁ" 또는 "ㅂ"는 제외하여 결정할 수 있다.

예를 들어, 머신-러닝 기반 모델은, 제1 정보에 기반하여, 제2 어휘들 중 하나인 "기쁜"에 대한 실질 형태소 분석 결과인 "기쁘+ㄴ"을 확인할 수 있다. 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "기쁘+ㄴ"의 음절의 수를 결정하기 위해, "ㄴ"을 제외한 "기쁘"의 음절 수인 2를 실질 형태소 분석 결과인 "기쁘+ㄴ"의 음절의 수로 결정할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은 제1 정보에 기초하여 확인되는 제2 어휘들에 대한 실질 형태소 분석 결과에 대한 음절 수가 제2 어휘의 음절 수와 동일한 경우, 제1 정보에 기초하여 확인되는 제2 어휘들에 대한 실질 형태소의 음절 수에 기초하여, 제2 어휘들에서 실질 형태소를 결정하도록 실질 형태소 결정 알고리즘을 학습할 수 있다.

예를 들어, 머신-러닝 기반 모델은 제1 정보에 기반하여, 제2 어휘들에 해당하는 "기쁜", "슬펐다" 및 "따라"의 실질 형태소 분석 결과인 "기쁘+ㄴ", "슬프+었+다" 및 "따르+어"와 "기쁜", "슬펐다" 및 "따라"에 대한 실질 형태소가 "기쁜", "슬프" 및 "따르"로 결정된 것을 확인할 수 있다.

또한, 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "기쁘+ㄴ", "슬프+었+다" 및 "따르+어"에 대한 음절의 수를 각각 2, 3 및 2로 결정할 수 있다. 이 경우, 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "기쁘+ㄴ", "슬프+었+다" 및 "따르+어"에 대한 음절의 수가 "기쁜", "슬펐다" 및 "따라"의 음절의 수와 동일한 것으로 판단하고, 제1 정보에 기반하여 실질 형태소로 결정된 "기쁘", "슬프" 및 "따르"에 대한 음절의 수에 기초하여, "기쁜", "슬펐다" 및 "따라"에서의 실질 형태소를 "기쁜", "슬펐" 및 "따라"로 결정하도록 실질 형태소 결정 알고리즘을 학습할 수 있다.

또 다른 예로, 머신-러닝 기반 모델은 제1 정보에 기반하여, 제2 어휘들에 해당하는 "삽니다", "운다" 및 "먼"의 실질 형태소 분석 결과인 "살+ㅂ니다", "울+ㄴ다" 및 "멀+ㄴ"와 "삽니다", "운다" 및 "먼"에 대한 실질 형태소가 "살", "울" 및 "멀"로 결정된 것을 확인할 수 있다.

또한, 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "살+ㅂ니다", "울+ㄴ다" 및 "멀+ㄴ"에 대한 음절의 수를 각각 3, 2, 1로 결정할 수 있다. 이 경우, 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "살+ㅂ니다", "울+ㄴ다" 및 "멀+ㄴ"에 대한 음절의 수가 "삽니다", "운다" 및 "먼"의 음절의 수와 동일한 것으로 판단하고, "실질 형태소로 결정된 "살", "울" 및 "멀"에 대한 음절의 수에 기초하여, "삽니다", "운다" 및 "먼"에서 실질 형태소를 "삽", "운" 및 "먼"으로 결정하도록 실질 형태소 결정 알고리즘을 학습할 수 있다.

또 다른 예로, 머신-러닝 기반 모델은 제1 정보에 기반하여, 제2 어휘들에 해당하는 "지어서", "나아", "물어서" 및 "들어"의 실질 형태소 분석 결과인 "짓+어서", "낫+아", "묻+어서" 및 "듣+어"와 "지어서", "나아", "물어서" 및 "들어"의 실질 형태소가 "짓", "낫", "묻" 및 "듣"으로 결정된 것을 확인할 수 있다.

또한, 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "짓+어서", "낫+아", "묻+어서" 및 "듣+어"에 대한 음절의 수를 각각 3, 2, 3, 2로 결정할 수 있다. 여기에서, 실질 형태소 분석 결과에 포함된 "어서" 및 "아"는 "아" 및 "어"로 시작하는 어미가 아니므로, 음절의 수를 결정함에 있어 제외되지 않을 수 있다. 이 경우, 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "짓+어서", "낫+아", "묻+어서" 및 "듣+어"의 음절의 수가 "지어서", "나아", "물어서" 및 "들어"의 음절의 수와 동일한 것으로 판단하고, 제1 정보에 기반하여 실질 형태소로 결정된 "짓", "낫", "묻" 및 "듣"에 대한 음절의 수를 기초하여, "지어서", "나아", "물어서" 및 "들어"에서의 실질 형태소를 "지", "나", "물" 및 "들"로 결정할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은 제1 정보에 기초하여 확인되는 제2 어휘들에 대한 실질 형태소 분석 결과에 대한 음절 수가 제2 어휘의 음절 수보다 큰 경우, 제1 정보에 기초하여 확인되는 제2 어휘들에 대한 실질 형태소의 음절 수에서 1을 뺀 수에 기초하여, 제2 어휘들에서 실질 형태소를 결정하도록 실질 형태소 결정 알고리즘을 학습할 수 있다.

예를 들어, 머신-러닝 기반 모델은, 제1 정보에 기반하여, 제2 어휘들에 해당하는 "뵈다", "괴어", "띄다" 및 "씌어"의 실질 형태소 분석 결과인 "보이+다", "고이+어", "뜨이+다" 및 "쓰이+어"와 "뵈다", "괴어", "띄다" 및 "씌어"에 대한 실질 형태소가 "보이", "고이", "뜨이" 및 "쓰이"로 결정된 것을 확인할 수 있다.

또한, 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "보이+다", "고이+어", "뜨이+다" 및 "쓰이+어"에 대한 음절의 수를 각각 3으로 결정할 수 있다. 이 경우, 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "보이+다", "고이+어", "뜨이+다" 및 "쓰이+어"에 대한 음절의 수가 "뵈다", "괴어", "띄다" 및 "씌어"의 음절의 수보다 큰 것으로 판단하고, 제1 정보에 기반하여 실질 형태소로 결정된 "보이", "고이", "뜨이" 및 "쓰이"의 음절의 수에서 1일 뺀 수에 기초하여, "뵈다", "괴어", "띄다" 및 "씌어"에서의 실질 형태소를 "뵈", "괴", "띄" 및 "씌"로 결정하도록 실질 형태소 결정 알고리즘을 학습할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은, 제1 정보에 기초하여 확인되는 제2 어휘들에 대한 실질 형태소 분석 결과에 대한 음절 수가 제2 어휘의 음절 수보다 작은 경우, 제1 정보에 기초하여 확인되는 제2 어휘들에 대한 실질 형태소의 음절 수에 기초하여, 제2 어휘들에서 실질 형태소를 결정하도록 실질 형태소 결정 알고리즘을 학습할 수 있다.

예를 들어, 머신-러닝 기반 모델은, 제1 정보에 기반하여, 제2 어휘들에 해당하는 "지으니" 및 "물으니"의 실질 형태소 분석 결과인 "짓+니" 및 "묻+니"를 획득하고, "지으니" 및 "물으니"에 대한 실질 형태소가 "짓" 및 "묻"으로 결정된 것을 확인할 수 있다.

또한, 머신-러닝 기반 모델은, 실질 형태소 분석 결과인 "짓+니" 및 "묻+니"에 대한 음절의 수를 각각 2로 결정할 수 있다. 이 경우, 머신-러닝 기반 모델은 실질 형태소 분석 결과인 "짓+니" 및 "묻+니"의 음절의 수가 "지으니" 및 "물으니"의 음절의 수보다 작은 것으로 판단하고, 제1 정보에 기반하여 실질 형태소로 결정된 "짓" 및 "묻"의 음절의 수에 기초하여, "지으니" 및 "물으니"에서 실질 형태소를 "지" 및 "물"로 결정하도록 실질 형태소 결정 알고리즘을 학습할 수 있다.

일 실시예에서, 머신-러닝 기반 모델은 위와 같이 학습된 실질 형태소 결정 알고리즘에 기초하여, 복수의 어휘에 포함된 각 음절에 복수의 태그 중 하나의 태그를 태깅함으로써 생성되는 제2 정보를 이용하여, 복수의 태그 중 하나의 태그를 검색어의 각 음절에 태깅함으로써 태깅 정보를 생성하고, 생성된 태깅 정보를 출력하도록 학습될 수 있다.

예를 들어, 머신-러닝 기반 모델은 학습된 실질 형태소 결정 알고리즘에 기초하여, 복수의 어휘 각각에 대해서 실질 형태소를 결정할 수 있다. 머신-기반 모델은 결정된 실질 형태소에 기반하여, 복수의 어휘 각각에 포함된 각 음절에 복수의 태그 중 하나의 태그를 태깅할 수 있다. 예를 들어, 머신-러닝 기반 모델은 "어려운"에 대한 실질 형태소를 "어려"로 결정할 수 있고, 이에 따라 "어"는 실질 형태소의 시작 음절이므로 제1 태그를 태깅하고, "려"는 실질 형태소의 시작 음절을 제외한 나머지 음절이므로 제2 태그를 태깅하고, "운"은 실질 형태소에 포함되지 않는 음절을 이므로 제3 태그를 태깅할 수 있다.

또 다른 예로, 머신-러닝 기반 모델은 복수의 어휘 각각에 포함된 각 음절에 복수의 태그 중 하나의 태그를 태깅하기 위하여, 제1 정보에 기반하여 도출되는 확률 정보를 이용할 수 있다.

도 6을 참조하면, 한국어의 각 어절에 대한 평균 음절 수는 5음절 내외인 점에 기초하여, 5 음절 내의 각 음절 위치 별로 어휘에 포함된 특정 음절이 발생할 확률 값이 도출될 수 있다. 예를 들어, 5 음절 내의 각 음절 위치 별로 "어려운"에 포함된 음절인 "어"가 발생할 확률 값이 도출될 수 있다. 또한, 5 음절 내의 각 음절 위치 별로 시작 음절인 "어" 다음으로 "려"가 특정 위치에서 발생할 확률이 도출될 수 있고, 그 후, 5 음절 내의 각 음절 위치 별로 "어려" 다음으로 "운"이 특정 위치에서 발생할 확률이 도출될 수 있다. 머신-러닝 기반 모델은 제1 정보에 기반하여 도출되는 확률 값을 통해, "어려운"에 포함된 각 음절에 대해 복수의 태그 중 하나의 태그를 태깅할 수 있다.

위와 같이, 머신-러닝 기반 모델은 복수의 어휘들에 포함된 각 음절에 복수의 태그 중 하나의 태그를 태깅함으로써, 복수의 어휘들 각각에 대한 태깅 정보를 포함하는 제2 정보를 생성할 수 있다. 머신-러닝 기반 모델은 생성된 제2 정보를 이용하여 수신되는 검색어의 각 음절에 복수의 태그 중 하나의 태그를 태깅함으로써 검색어에 대한 태깅 정보를 생성하고, 생성된 태깅 정보를 출력하도록 학습될 수 있다.

상기 방법은 특정 실시예들을 통하여 설명되었지만, 상기 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 개시가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

이상 일부 실시예들과 첨부된 도면에 도시된 예에 의해 본 개시의 기술적 사상이 설명되었지만, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 이해할 수 있는 본 개시의 기술적 사상 및 범위를 벗어나지 않는 범위에서 다양한 치환, 변형 및 변경이 이루어질 수 있다는 점을 알아야 할 것이다. 또한, 그러한 치환, 변형 및 변경은 첨부된 청구범위 내에 속하는 것으로 생각되어야 한다.

Claims

검색어에서 복수의 키워드를 추출하는 전자 장치에 있어서,
미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, 검색어에 포함된 복수의 어휘 각각에서 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 상기 검색어에 포함된 복수의 어휘의 각 음절에 태깅함으로써 생성되는 태깅 정보를 출력하는 머신-러닝 기반 모델을 저장하는 메모리;
외부 전자 장치와 통신을 수행하는 통신 회로; 및
상기 메모리 및 상기 통신 회로와 전기적으로 연결된 프로세서를 포함하고,
상기 프로세서는,
상기 통신 회로를 통해 상기 외부 전자 장치로부터 복수의 제1 어휘를 포함하는 제1 검색어를 수신하고,
상기 머신-러닝 기반 모델에 상기 제1 검색어를 적용하여, 상기 복수의 태그 중 하나의 태그를 상기 제1 검색어에 포함된 복수의 제1 어휘의 각 음절에 태깅함으로써 생성되는 제1 태깅 정보를 획득하고,
상기 제1 태깅 정보에 기초하여, 상기 제1 검색어에 포함된 복수의 제1 어휘에서 실질 형태소를 식별하여, 상기 제1 검색어에 포함된 복수의 제1 어휘로부터 복수의 제1 키워드를 추출하고,
상기 머신-러닝 기반 모델은,
복수의 어휘 각각에 대한 실질 형태소 분석 결과 및 상기 복수의 어휘 각각에 대한 실질 형태소 분석 결과에 기초하여 결정된 실질 형태소에 대한 품사를 나타내는 품사 정보를 포함하는 제1 정보를 이용하여, 상기 실질 형태소 결정 알고리즘 및 상기 실질 형태소 품사 결정 알고리즘을 학습하고,
상기 실질 형태소 결정 알고리즘 및 상기 실질 형태소 품사 결정 알고리즘에 기초하여, 상기 검색어에 포함된 복수의 어휘 각각의 품사를 결정하고, 상기 결정된 검색어에 포함된 복수의 어휘 각각의 품사에 기초하여 상기 검색어에 포함된 복수의 어휘 각각에서 실질 형태소를 결정하고,
상기 결정된 검색어에 포함된 복수의 어휘 각각에 대한 실질 형태소에 기반하여, 상기 검색어에 포함된 복수의 어휘의 각 음절에 상기 복수의 태그 중 하나의 태그를 태깅함으로써, 상기 태깅 정보를 생성하는, 전자 장치.
제1항에 있어서,
상기 복수의 태그는,
상기 검색어에 포함된 실질 형태소의 시작 음절을 나타내는 제1 태그, 상기 실질 형태소의 상기 시작 음절을 제외한 나머지 음절을 나타내는 제2 태그 및 상기 실질 형태소에 포함되지 않는 음절을 나타내는 제3 태그를 포함하는, 전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 제1 태깅 정보에 기초하여, 상기 제1 검색어에 포함된 복수의 제1 어휘에서 상기 제1 태그로 태깅된 음절로 시작되는 복수의 어절을 결정하고,
상기 결정된 복수의 어절에서 상기 제3 태그로 태깅된 적어도 하나의 음절을 제외하고,
상기 제3 태그로 태깅된 적어도 하나의 음절이 제외된 상기 복수의 어절을 상기 복수의 제1 키워드로 추출하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 복수의 제1 키워드를 통해 수행된 검색 결과에 대한 정보를 상기 외부 전자 장치로 송신하도록 상기 통신 회로를 제어하는, 전자 장치.
제2항에 있어서,
상기 머신-러닝 기반 모델은,
상기 미리 학습된 실질 형태소 결정 알고리즘 및 상기 실질 형태소 품사 결정 알고리즘에 기초하여, 상기 제1 태그가 태깅된 음절 및 상기 제2 태그가 태깅된 음절 중 적어도 하나에 상기 실질 형태소에 대한 품사 정보를 더 태깅하여 상기 태깅 정보를 생성하는, 전자 장치.
삭제
컴퓨터 상에서 수행하기 위한 프로그램을 기록한 비일시적 컴퓨터 판독 가능한 기록 매체에 있어서,
상기 프로그램은, 프로세서에 의한 실행 시, 상기 프로세서가,
외부 전자 장치로부터 복수의 제1 어휘를 포함하는 제1 검색어를 수신하는 단계;
미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, 검색어에 포함된 복수의 어휘 각각에서 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 상기 검색어에 포함된 복수의 어휘의 각 음절에 태깅함으로써 생성되는 태깅 정보를 출력하는 머신-러닝 기반 모델에 상기 제1 검색어를 적용하는 단계;
상기 머신-러닝 기반 모델로부터, 상기 복수의 태그 중 하나의 태그를 상기 제1 검색어에 포함된 복수의 제1 어휘의 각 음절에 태깅함으로써 생성되는 제1 태깅 정보를 획득하는 단계; 및
상기 제1 태깅 정보에 기초하여, 상기 제1 검색어에 포함된 복수의 제1 어휘에서 실질 형태소를 식별하여, 상기 제1 검색어에 포함된 복수의 제1 어휘로부터 복수의 제1 키워드를 추출하는 단계
를 수행하도록 하는 실행 가능한 명령을 포함하고,
상기 머신-러닝 기반 모델은,
복수의 어휘 각각에 대한 실질 형태소 분석 결과 및 상기 복수의 어휘 각각에 대한 실질 형태소 분석 결과에 기초하여 결정된 실질 형태소에 대한 품사를 나타내는 품사 정보를 포함하는 제1 정보를 이용하여, 상기 실질 형태소 결정 알고리즘 및 상기 실질 형태소 품사 결정 알고리즘을 학습하고,
상기 실질 형태소 결정 알고리즘 및 상기 실질 형태소 품사 결정 알고리즘에 기초하여, 상기 검색어에 포함된 복수의 어휘 각각의 품사를 결정하고, 상기 결정된 검색어에 포함된 복수의 어휘 각각의 품사에 기초하여 상기 검색어에 포함된 복수의 어휘 각각에서 실질 형태소를 결정하고,
상기 결정된 검색어에 포함된 복수의 어휘 각각에 대한 실질 형태소에 기반하여, 상기 검색어에 포함된 복수의 어휘의 각 음절에 상기 복수의 태그 중 하나의 태그를 태깅함으로써, 상기 태깅 정보를 생성하는, 컴퓨터 판독 가능한 기록 매체.
제7항에 있어서,
상기 복수의 태그는,
상기 검색어에 포함된 상기 실질 형태소의 시작 음절을 나타내는 제1 태그, 상기 실질 형태소의 상기 시작 음절을 제외한 나머지 음절을 나타내는 제2 태그 및 상기 실질 형태소에 포함되지 않는 음절을 나타내는 제3 태그를 포함하는, 컴퓨터 판독 가능한 기록 매체.
제8항에 있어서,
상기 제1 검색어에 포함된 복수의 제1 어휘로부터 복수의 제1 키워드를 추출하는 단계는,
상기 제1 태깅 정보에 기초하여, 상기 제1 검색어에 포함된 복수의 제1 어휘에서 상기 제1 태그로 태깅된 음절로 시작되는 복수의 어절을 결정하는 단계;
상기 결정된 복수의 어절에서 상기 제3 태그로 태깅된 적어도 하나의 음절을 제외하는 단계; 및
상기 제3 태그로 태깅된 적어도 하나의 음절이 제외된 상기 복수의 어절을 상기 복수의 제1 키워드로 추출하는 단계
를 포함하는, 컴퓨터 판독 가능한 기록 매체.
제7항에 있어서,
상기 실행 가능한 명령은,
상기 복수의 제1 키워드를 통해 수행된 검색 결과에 대한 정보를 상기 외부 전자 장치로 송신하는 단계
를 더 수행하도록 하는, 컴퓨터 판독 가능한 기록 매체.
제8항에 있어서,
상기 머신-러닝 기반 모델은,
상기 미리 학습된 실질 형태소 결정 알고리즘 및 상기 실질 형태소 품사 결정 알고리즘에 기초하여, 상기 제1 태그가 태깅된 음절 및 상기 제2 태그가 태깅된 음절 중 적어도 하나에 상기 실질 형태소에 대한 품사 정보를 더 태깅하여 상기 태깅 정보를 생성하는, 컴퓨터 판독 가능한 기록 매체.
삭제
검색어에서 키워드를 추출하는 방법에 있어서,
외부 전자 장치로부터 복수의 제1 어휘를 포함하는 제1 검색어를 수신하는 단계;
미리 학습된 실질 형태소 결정 알고리즘 및 실질 형태소 품사 결정 알고리즘에 기초하여, 검색어에 포함된 복수의 어휘 각각에서 실질 형태소를 식별하기 위하여 설정된 복수의 태그 중 하나의 태그를 검색어에 포함된 복수의 어휘의 각 음절에 태깅함으로써 생성되는 태깅 정보를 출력하는 머신-러닝 기반 모델에 상기 제1 검색어를 적용하는 단계;
상기 머신-러닝 기반 모델로부터, 상기 복수의 태그 중 하나의 태그를 상기 제1 검색어에 포함된 복수의 제1 어휘의 각 음절에 태깅함으로써 생성되는 제1 태깅 정보를 획득하는 단계; 및
상기 제1 태깅 정보에 기초하여, 상기 제1 검색어에 포함된 복수의 제1 어휘에서 실질 형태소를 식별하여, 상기 제1 검색어에 포함된 복수의 제1 어휘로부터 복수의 제1 키워드를 추출하는 단계
를 포함하고,
상기 머신-러닝 기반 모델은,
복수의 어휘 각각에 대한 실질 형태소 분석 결과 및 상기 복수의 어휘 각각에 대한 실질 형태소 분석 결과에 기초하여 결정된 실질 형태소에 대한 품사를 나타내는 품사 정보를 포함하는 제1 정보를 이용하여, 상기 실질 형태소 결정 알고리즘 및 상기 실질 형태소 품사 결정 알고리즘을 학습하고,
상기 실질 형태소 결정 알고리즘 및 상기 실질 형태소 품사 결정 알고리즘에 기초하여, 상기 검색어에 포함된 복수의 어휘 각각의 품사를 결정하고, 상기 결정된 검색어에 포함된 복수의 어휘 각각의 품사에 기초하여 상기 검색어에 포함된 복수의 어휘 각각에서 실질 형태소를 결정하고,
상기 결정된 검색어에 포함된 복수의 어휘 각각에 대한 실질 형태소에 기반하여, 상기 검색어에 포함된 복수의 어휘의 각 음절에 상기 복수의 태그 중 하나의 태그를 태깅함으로써, 상기 태깅 정보를 생성하는, 키워드 추출 방법.