KR102278190B1

KR102278190B1 - 공방 운영 플랫폼 서비스 방법 및 시스템

Info

Publication number: KR102278190B1
Application number: KR1020200130075A
Authority: KR
Inventors: 이상휘
Original assignee: 이상휘
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2021-07-15

Abstract

본 발명은 공방 운영 플랫폼 서비스 방법 및 시스템에 관한 것으로, 유저와 공방의 상담 또는 문의에서 대화 내용에 포함된 키워드 및 유저의 정보에 기반해 유저에게 공방의 수업 또는 제작 제품을 추천하고, 공방에는 유저의 만족도가 높은 클래스를 추천할 수 있는 양방향 수요를 모두 충족시킬 수 있는 플랫폼 서비스에 관한 것으로 유저 및 공방의 대화 내용을 수집하는 단계; 상기 대화 내용을 가공해 키워드를 도출하는 단계; 및 상기 키워드에 기반해 학습된 추천 결과를 상기 유저 또는 공방에 제공하는 단계;를 포함하고, 상기 키워드 도출 단계는, 상기 대화 내용의 텍스트 데이터를 추출하고 자연어 처리하는 단계; 및 상기 텍스트 데이터에서 공방 및 유저 관련 단어를 추출하는 단계;를 포함하는 구성을 개시한다.

Description

공방 운영 플랫폼 서비스 방법 및 시스템{WORKSHOP OPERATION PLATFORM SERVICE METHOD AND SYSTEM}

본 발명은 공방 운영 플랫폼 서비스 방법 및 시스템에 관한 것으로, 유저와 공방의 상담 또는 문의에서 대화 내용에 포함된 키워드 및 유저의 정보에 기반해 유저에게 공방의 수업 또는 제작 제품을 추천하고, 공방에는 유저의 만족도가 높은 클래스를 추천할 수 있는 양방향 수요를 모두 충족시킬 수 있는 플랫폼 서비스에 관한 것이다.

공예란 손재주를 이용해 만들어진 실용과 기능, 예술을 모두 갖춘 공작물과 같은 작품을 의미한다. 최근에는 자본주의와 대량생산 체제로 인해 획일적인 공산품이 시장의 대부분을 차지하고 있지만 생활 속 개인이 가지고 있는 개성과 미적 재능을 표현한 공예산업은 고부가가치 산업으로써 희소성의 가치를 대변하는 시장을 점유하고 있다.

제조업에서 수공예산업의 매출액은 1조 4천억원가량을 기록하고 있으며, 공예업체의 수는 약 9000여개이다. 수공예산업 종사자 수는 약 26000여면으로 추정되며 공예 연관산업의 종사자까지 합치면 최대 31만명으로 추정된다.

공예산업은 종업원 수가 2명 이하인 가족 중심 소규모 사업체가 전체의 87.3%를 차지할 정도로 대부분이 이에 해당된다고 볼 수 있으며, 3~4명은 9.4%, 5명이상이 3.3%에 불과하다. 또한, 창업인 개인사업체가 97.1%를 차지하며 사업체 대표의 연령은 60대 이상이 37.8%로 가장 높았고 50대도 35.3%로 그 다음을 차지하며 평균 사업체 운영기간은 14.5년이다.

이러한 공예사업체의 순이익 평균은 월간 276만원, 연간 3312만원 수준으로 영세하며, 서울과 수도권 업체와 종사자수 절반이 편중되어 있다. 따라서, 상당수의 공예사업체는 공방을 함께 운영하여 수익을 증대하기 위해 노력하고 있다.

다만, 수공예의 특성상 일반인의 접근이 쉽지 않고, 공방 입장에서도 체계적인 커리큘럼 등으로 예비적 수요자의 관심을 충족시켜 시장에 진입시키는 것에 어려움이 있으며, 수요자가 원하는 것이 무엇인지 몰라 잠재적 수요자를 놓치는 문제점이 발생한다.

따라서, 본 발명은 상기한 바와 같은 문제점을 해결하기 위한 것으로서, 유저와 공방의 초기 상담 과정에서의 대화 내용 및 유저의 개인 정보를 이용해 유저와 공방에 수업 또는 작업을 추천할 수 있는 방법 및 시스템을 제공하고자 한다.

본 발명은 대화 내용을 텍스트로 추출하여 키워드를 더 정확하게 추출하고 유저 및 공방에 수업 또는 작업을 추천할 수 있는 방법 및 시스템을 제공하고자 한다.

상기한 문제를 해결하기 위한 본 발명의 일 실시 예에 따른 공방 운영 플랫폼 서비스 방법은

본 발명에 따르면, 유저와 공방의 초기 상담 과정에서의 대화 내용 및 유저의 개인 정보를 이용해 유저와 공방에 수업 또는 작업을 추천할 수 있다.

또한, 대화 내용을 텍스트로 추출하여 키워드를 더 정확하게 추출하고 유저 및 공방에 수업 또는 작업을 추천할 수 있다.

한편, 본 발명의 효과는 이상에서 언급한 효과들로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 효과들이 포함될 수 있다.

도 1은 본 발명의 일 실시 예에 따른 공방 운영 플랫폼 서비스 방법의 흐름도이다.
도 2는 본 발명의 일 실시 예에 따른 키워드 도출 방법의 흐름도이다.
도 3은 본 발명의 일 실시 예에 따른 텍스트 데이터 추출 및 자연어 처리 방법의 흐름도이다.
도 4는 본 발명의 일 실시 예에 따른 공방 운영 플랫폼 서비스 시스템의 블록도이다.
도 5는 남은 용어 수에 따른 클러스터링 결과를 도시한 그래프이다.
도 6은 본 발명의 일 실시 예에 따른 클러스터 분석 결과의 일 예시이다.

이하, 첨부된 도면들을 참조하여 본 발명에 따른 '공방 운영 플랫폼 서비스 방법 및 시스템'을 상세하게 설명한다. 설명하는 실시 예들은 본 발명의 기술사상을 당업자가 용이하게 이해할 수 있도록 제공되는 것으로 이에 의해 본 발명이 한정되지 않는다. 또한, 첨부된 도면에 표현된 사항들은 본 발명의 실시 예들을 쉽게 설명하기 위해 도식화된 도면으로 실제로 구현되는 형태와 상이할 수 있다.

한편, 이하에서 표현되는 각구성부는 본 발명을 구현하기 위한 예일 뿐이다. 따라서, 본 발명의 다른 구현에서는 본 발명의 사상 및 범위를 벗어나지 않는 범위에서 다른 구성부가 사용될 수 있다.

또한, 각구성부는 순전히 하드웨어 또는 소프트웨어의 구성만으로 구현될 수도 있지만, 동일 기능을 수행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합으로 구현될 수도 있다. 또한, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 함께 구현될 수도 있다.

또한, 어떤 구성요소들을 '포함'한다는 표현은, '개방형'의 표현으로서 해당구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안된다.

도 1은 본 발명의 일 실시 예에 따른 공방 운영 플랫폼 서비스 방법의 흐름도이고, 도 2는 본 발명의 일 실시 예에 따른 키워드 도출 방법의 흐름도이고, 도 3은 본 발명의 일 실시 예에 따른 텍스트 데이터 추출 및 자연어 처리 방법의 흐름도이고, 도 4는 본 발명의 일 실시 예에 따른 공방 운영 플랫폼 서비스 시스템의 블록도이고, 도 5는 남은 용어 수에 따른 클러스터링 결과를 도시한 그래프이고, 도 6은 본 발명의 일 실시 예에 따른 클러스터 분석 결과의 일 예시이다.

도 1 내지 도 6을 참조하면, 본 발명의 일 실시 예에 따른 공방 운영 플랫폼 서비스 시스템은 대화수집부(100), 키워드도출부(200) 및 추천부(300)를 포함할 수 있다.

본 발명의 일 실시 예에 따른 공방 운영 플랫폼 서비스 시스템은 유저와 공방이 공방 운영 플랫폼을 통하거나 또는 외부 시스템을 통해 주고받은 대화 내용을 입력으로 가져올 수 있다. 상기 유저와 상기 공방은 각자의 단말을 이용해 상기 따른 공방 운영 플랫폼 서비스를 이용할 수 있다.

상기 따른 공방 운영 플랫폼 서비스 시스템의 대화수집부(100), 키워드도출부(200) 및 추천부(300)와 상기 유저 및 공방의 단말은 네트워크를 이용해 데이터를 주고받을 수 있다.

여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5rd Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

여기서 상기 공방은 상기 공방 운영 플랫폼 서비스를 이용하는 공방의 계정을 의미할 수 있다.

상기 대화수집부(100)는 상기 유저와 상기 공방의 대화 내용을 수집할 수 있다. 상기 대화수집부(100)는 상기 유저와 상기 공방의 대화 내용의 데이터를 수신할 수 있다. 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 내에서 주고받은 대화 내용을 수집할 수 있다. 예를 들어, 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 내에서 개설된 대화방에서 상기 유저와 상기 공방이 주고받은 대화 내용을 수집할 수 있다. 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 외부에서 주고받은 대화 내용을 수집할 수 있다. 예를 들어, 상기 대화수집부(100)는 상기 유저와 상기 공방이 문자 메시지 또는 메신저 앱(App) 등의 외부 서비스에서 주고받은 대화 내용을 수집할 수 있다.

상기 대화수집부(100)는 상기 유저와 상기 공방의 음성 대화 내용을 수집할 수 있다. 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 내에서 주고받은 음성 대화 내용을 수집할 수 있다. 예를 들어, 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 내에서 개설된 대화방에서 상기 유저와 상기 공방이 주고받은 음성 대화 내용을 수집할 수 있다. 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 외부에서 주고받은 음성 대화 내용을 수집할 수 있다. 예를 들어, 상기 대화수집부(100)는 상기 유저와 상기 공방이 통화 또는 메신저 앱(App) 등의 외부 서비스에서 주고받은 음성 대화 내용을 수집할 수 있다.

상기 키워드도출부(200)는 상기 대화 내용을 가공해 키워드를 도출할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용에서 성별, 나이, 직업군, 선호 공예품, 선호 재료, 선호 공법, 유저의 숙련도, 유저의 경력, 유저의 작업 내역을 추출할 수 있다.

상기 키워드도출부(200)는 상기 대화 내용의 텍스트 데이터를 추출하고 자연어 처리할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용을 텍스트 데이터로 추출할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용이 텍스트 데이터인 경우 별도의 가공 없이 대화 내용을 수집할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용이 이미지인 경우 상기 이미지에서 텍스트를 추출할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용이 음성인 경우 상기 음성 대화 내용을 텍스트로 변환할 수 있다.

상기 키워드도출부(200)는 상기 유저 및 공방의 음성 대화 데이터를 수신할 수 있다. 상기 키워드도출부(200)는 상기 유저 및 공방의 음성을 텍스트로 변환할 수 있다. 상기 키워드도출부(200)는 상기 텍스트를 자연어 처리할 수 있다.

상기 키워드도출부(200)는 STT(Speech-to-Text) 기술을 이용해 상기 대화 내용의 음성 인터페이스를 통해 텍스트를 추출해낼 수 있다.

상기 키워드도출부(200)는 음향학점 관점에서 말하는 유저, 공간, 노이즈 등의 환경적인 데이터를 이용하고 언어학적 관점에서는 어휘, 문맥, 문법 등을 모델링하기 위한 언어 데이터를 이용해 상기 대화 내용의 음성을 텍스트로 변환할 수 있다. 상기 키워드도출부(200)는 음성/언어 데이터로부터 인식 네트워크 모델을 생성하는 오프라인 학습 단계와 사용자가 발성한 음성을 인식하는 온라인 탐색 단계를 통해 상기 대화 내용의 음성을 텍스트로 변환할 수 있다. 상기 키워드도출부(200)는 기보유하고 있는 음성과 언어 데이터를 사용해서 상기 대화 내용의 음성을 텍스트로 변환할 수 있다. 상기 키워드도출부(200)는 디코딩 단계에서는 학습 단계 결과인 음향 모델(Acoustic Model), 언어 모델(Language Model)과 발음 사전(Pronunciation Lexicon)을 이용하여 입력된 특징 벡터를 모델과 비교, 스코어링(Scoring)하여 단어 열을 최종 결정할 수 있다.

상기 키워드도출부(200)는 해당 언어의 음운 환경별 발음의 음향적 특성을 확률 모델로 대표 패턴을 생성하여 음향 모델링을 하고, 어휘 선택, 문장 단위 구문 구조 등 해당 언어의 사용성 문제에 대해 문법 체계를 통계적으로 학습하여 언어모델링을 할 수 있다. 상기 키워드도출부(200)는 발음 사전 구축을 위해서는 텍스트를 소리 나는 대로 변환하는 음소 변환(Grapheme-to-Phoneme) 구현을 할 수 있다. 상기 키워드도출부(200)는 표준 발음을 대상으로 하는 발음 변환 규칙만으로는 방언이나 사용자의 발화 습관과 어투에 따른 다양한 패턴을 반영하기 어려운 경우가 있어 별도의 사전을 구축할 수 있다.

상기 키워드도출부(200)는 딥러닝(Deep Learning)에 의해 고도화된 음향모델 적응 학습에 기반할 수 있다. 상기 키워드도출부(200)는 Fully connected DNN(Deep Neural Network), RNN(Recurrent Neural Network)에 기반해 상기 대화 내용의 음성을 텍스트로 변환할 수 있다.

상기 키워드도출부(200)는 상기 대화 내용의 음성 데이터를 RNN을 통해 분석해 발음적 특징을 추출할 수 있다. 상기 키워드도출부(200)는 상기 발음적 특징을 추출해 상기 대화 내용의 음성을 단어별로 구간을 분할할 수 있다. 상기 키워드도출부(200)는 단어 또는 형태소별 발음적 특징을 학습한 데이터를 포함할 수 있다. 상기 키워드도출부(200)는 단어 또는 형태소별 발음적 특징을 학습한 데이터를 갱신할 수 있다.

상기 키워드도출부(200)는 상기 단어 또는 형태소의 발음적 특징에 기반해 상기 대화 내용의 음성 데이터에서 분할된 단어를 추정할 수 있다. 상기 키워드도출부(200)는 기반해 상기 대화 내용의 음성 데이터에서 분할된 단어를 상기 단어 또는 형태소의 발음적 특징에 따라 확률이 가장 높은 단어로 1차적으로 1차 단어로 결정할 수 있다.

상기 키워드도출부(200)는 특정 단어에 대한 발임이 유사한 단어들과 유사도를 포함하는 발음 유사군 데이터를 포함할 수 있다. 상기 발음 유사군 데이터는 특정 단어가 있으면, 상기 특정 단어와 발음이 유사한 단어들을 유사한 정도에 따라 나열한 데이터를 의미할 수 있다. 상기 키워드도출부(200)는 문장에 있어서 단어들 간에 앞, 뒤로 쓰이는 확률을 학습한 문장연관 데이터를 포함할 수 있다.

상기 키워드도출부(200)는 1차적으로 결정한 상기 1차 단어들을 나열할 수 있다. 상기 키워드도출부(200)는 상기 1차 단어들의 앞, 뒤 단어들과 문장에 함께 쓰일 확률을 상기 문장연관 데이터에 기반해 분석할 수 있다. 상기 키워드도출부(200)는 상기 문장연관 데이터에 기반해 상기 1차 단어의 앞, 뒤 단어들과 연관 확률이 낮은 단어를 수정 대상 단어로 결정할 수 있다.

상기 키워드도출부(200)는 상기 수정 대상 단어의 발음 유사군에서 유사도가 특정 확률 이상인 단어들로 대체할 수 있다. 본 발명의 일 실시 예에 따르면, 상기 일정 확률은 80%일 수 있다. 상기 키워드도출부(200)는 대체된 단어 중 연관 확률이 임계 값 이상 높은 단어를 2차 단어로 결정할 수 있다. 상기 키워드도출부(200)는 대체된 단어 중 연관 확률이 임계 값 이상 높은 단어가 복수인 경우 연관 확률이 가장 높은 단어를 2차 단어로 결정할 수 있다. 상기 키워드도출부(200)는 대체된 단어 중 연관 확률이 임계 값 이상 높은 단어가 없는 경유 상기 1차 단어를 2차 단어로 결정할 수 있다. 본 발명의 일 실시 예에 따르면, 상기 임계값은 50%일 수 있다.

상기 키워드도출부(200)는 상기 연관 확률을 하기 수학식 1에 따라 확률로 연산할 수 있다.

[수학식 1]

여기서, H는 확률함수, S는 단어, W_m은 앞, 뒤의 m번째 단어를 의미한다.

S에 들어가는 단어는 1차 단어 또는 대체된 단어 중 어느 하나일 수 있다.

본 발명의 일 실시 예에 따라, 확률 또는 임계값을 설정하고 상기 키워드도출부(200)는 상기 수학식 1에서 n을 5 이상으로 설정할 수 있다. n이 4 이하일 경우 기존의 STT 엔진과 정확도 면에서 큰 차이를 보이지 못하였으나, n이 5 이상인 경우 기존의 STT 엔진이 보여주던 오차율이 50%이상 낮아지는 결과를 확인할 수 있었다.

상기 키워드도출부(200)는 추출한 상기 텍스트를 자연어 처리할 수 있다. 상기 키워드도출부(200)는 추출한 상기 텍스트를 자연어 분석, 자연어 이해, 자연어 생성을 할 수 있다. 상기 키워드도출부(200)는 형태소 분석(morphological analysis), 통사 분석(syntactic analysis), 의미 분석(semantic analysis) 및 화용 분석(pragmatic analysis)의 4 가지 방식으로 추출한 상기 텍스트를 자연어 처리할 수 있다.

상기 키워드도출부(200)는 상기 대화 내용의 채팅 로그 또는 버그리포트에서 불필요한 숫자 또는 기호 같은 요소를 제거할 수 있다. 상기 키워드도출부(200)는 상기 유저 한국어의 경우 한국어 자연어 처리 라이브러리인 KoNLP를 통해 분석해 형태소 단위로 분리할 수 있다. 상기 키워드도출부(200)는 R언어의 라이브러리 중 하나인 KoNLP를 사용하여 자연어 처리를 할 수 있다. 상기 키워드도출부(200)는 KoNLP는 한국어 자연어 처리 라이브러리로 명사를 분리하여 추출한다거나 형태소 단위로 분할, 또는 자ㆍ모음으로 구성되어 있는지 확인할 수 있다. 상기 키워드도출부(200)는 분할된 상기 형태소를 기호, 외국어, 체언, 용언, 수식언, 독립언, 관계언, 어미, 접사의 9개의 품사로 구분할 수 있다. 상기 키워드도출부(200)는 정규 표현식을 사용하여 형태소 단위로 분리된 문장을 재조립할 수 있다.

상기 키워드도출부(200)는 상기 텍스트 데이터에서 공방 및 유저 관련 단어를 추출할 수 있다. 상기 공방 및 유저 관련 단어는 유저의 성별, 유저의 나이, 유저의 직업군, 인원, 공예품, 재료, 제조공법, 숙련도, 유저의 경력, 유저의 작업 내역을 포함할 수 있고, 이에 한정되지 않고 공방 및 유저에 관련된 단어를 모두 포함할 수 있다.

상기 추천부(300)는 상기 키워드에 기반해 학습된 추천 결과를 상기 유저 또는 공방에 제공할 수 있다. 상기 추천부(300)는 상기 키워드에 기존에 학습한 데이터에 기반해 가중치를 부여할 수 있다. 상기 추천부(300)는 상기 키워드를 분석해 상기 유저 또는 상기 공방에 추천 결과를 제공할 수 있다. 상기 추천부(300)가 추천하는 상기 추천 결과는 상기 유저에 적합한 커리큘럼, 상기 유저의 선호 확률이 높은 제품 또는 수강생들의 선호도가 높은 커리큘럼 중 어느 하나일 수 있다.

상기 추천부(300)는 R의 tm 라이브러리를 사용하여, 텍스트 마이닝을 할 수 있다. 상기 추천부(300)에서 tm 라이브러리는 Corpus라는 구조체를 사용하여 문서를 관리할 수 있고, 가중치를 부여하여 문서와 용어 간의 가중치 행렬을 만들 수 있다.

상기 추천부(300)는 클러스터링 알고리즘은 수치 데이터로 이루어진 행렬을 입력 받을 수 있다. 상기 추천부(300)는 텍스트 데이터의 경우는 문서에 등장하는 용어의 등장 빈도수를 사용하여, 가중치를 부여한 뒤, 가중치 값을 사용하여 유사도를 측정할 수 있다. 상기 추천부(300)의 가중치 부여 기법은 Tf, Tf-Idf, Binery, SMART 중 어느 하나일 수 있다.

상기 TF(Term frequency)는 문서의 등장하는 용어의 빈도를 가중치로 사용하므로 용어의 빈도수와 가중치가 비례할 수 있다.

상기 TF-IDF(Term frequency-Inverse document frequency)는 TF 가중치 부여 기법에서 역 문서 빈도수를 곱한 것으로 공통적으로 등장하는 용어의 가중치를 낮추고, 희소하게 등장하는 용어의 가중치를 높게 보정할 수 있다.

상기 Binary는 용어가 등장하는 빈도수의 영향이 적은 단문 메시지에 사용하기에 적절하며, 용어가 등장하는 여부만 판단할 수 있다.

상기 SMART는 용어 빈도수, 역 문서 빈도수, 정규화의 여부의 3가지 요소의 곱으로 결정될 수 있다.

상기 추천부(300)는 클러스터링 모델로는 연결 기반 모델인 Ward's method를 사용할 수 있다. 상기 추천부(300)는 3개의 카테고리로 구성된 키워드를 적절하게 분할하여 하나의 사용자로 가정한 뒤 테스트를 진행할 수 있다. 상기 추천부(300)는 추천 결과간의 유사도를 측정하는 방식은 유클리드 거리를 사용하여 측정할 수 있다. 상기 추천부(300)는 클러스터링 결과의 평가는 클러스터의 질적인 부분이 아닌 분류된 정도를 평가하기 위해 외부 평가 방법인 Rand Index를 사용할 수 있다.

도 5 및 도 6에서 확인할 수 있는 것과 같이 남은 용어의 수에 따라 클러스터링 결과가 달라질 수 있다.

본 발명의 일 실시 예에 따른 키워드 도출 방법은 유저 및 공방의 대화 내용을 수집하는 단계(S1100)를 포함할 수 있다.

S1100 단계에서, 본 발명의 일 실시 예에 따른 공방 운영 플랫폼 서비스 시스템은 유저와 공방이 공방 운영 플랫폼을 통하거나 또는 외부 시스템을 통해 주고받은 대화 내용을 입력으로 가져올 수 있다. 상기 유저와 상기 공방은 각자의 단말을 이용해 상기 따른 공방 운영 플랫폼 서비스를 이용할 수 있다.

S1100 단계에서, 상기 따른 공방 운영 플랫폼 서비스 시스템의 대화수집부(100), 키워드도출부(200) 및 추천부(300)와 상기 유저 및 공방의 단말은 네트워크를 이용해 데이터를 주고받을 수 있다.

S1100 단계에서, 여기서 상기 공방은 상기 공방 운영 플랫폼 서비스를 이용하는 공방의 계정을 의미할 수 있다.

S1100 단계에서, 상기 대화수집부(100)는 상기 유저와 상기 공방의 대화 내용을 수집할 수 있다. 상기 대화수집부(100)는 상기 유저와 상기 공방의 대화 내용의 데이터를 수신할 수 있다. 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 내에서 주고받은 대화 내용을 수집할 수 있다. 예를 들어, 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 내에서 개설된 대화방에서 상기 유저와 상기 공방이 주고받은 대화 내용을 수집할 수 있다. 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 외부에서 주고받은 대화 내용을 수집할 수 있다. 예를 들어, 상기 대화수집부(100)는 상기 유저와 상기 공방이 문자 메시지 또는 메신저 앱(App) 등의 외부 서비스에서 주고받은 대화 내용을 수집할 수 있다.

S1100 단계에서, 상기 대화수집부(100)는 상기 유저와 상기 공방의 음성 대화 내용을 수집할 수 있다. 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 내에서 주고받은 음성 대화 내용을 수집할 수 있다. 예를 들어, 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 내에서 개설된 대화방에서 상기 유저와 상기 공방이 주고받은 음성 대화 내용을 수집할 수 있다. 상기 대화수집부(100)는 상기 공방 운영 플랫폼 서비스 외부에서 주고받은 음성 대화 내용을 수집할 수 있다. 예를 들어, 상기 대화수집부(100)는 상기 유저와 상기 공방이 통화 또는 메신저 앱(App) 등의 외부 서비스에서 주고받은 음성 대화 내용을 수집할 수 있다.

본 발명의 일 실시 예에 따른 키워드 도출 방법은 상기 대화 내용을 가공해 키워드를 도출하는 단계(S1200)를 포함할 수 있다.

S1200 단계에서, 상기 키워드도출부(200)는 상기 대화 내용을 가공해 키워드를 도출할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용에서 성별, 나이, 직업군, 선호 공예품, 선호 재료, 선호 공법, 유저의 숙련도, 유저의 경력, 유저의 작업 내역을 추출할 수 있다.

본 발명의 일 실시 예에 따른 상기 대화 내용을 가공해 키워드를 도출하는 단계는 상기 대화 내용의 텍스트 데이터를 추출하고 자연어 처리하는 단계(S1210)를 포함할 수 있다.

S1210 단계에서, 상기 키워드도출부(200)는 상기 대화 내용의 텍스트 데이터를 추출하고 자연어 처리할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용을 텍스트 데이터로 추출할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용이 텍스트 데이터인 경우 별도의 가공 없이 대화 내용을 수집할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용이 이미지인 경우 상기 이미지에서 텍스트를 추출할 수 있다. 상기 키워드도출부(200)는 상기 대화 내용이 음성인 경우 상기 음성 대화 내용을 텍스트로 변환할 수 있다.

S1210 단계에서, 상기 키워드도출부(200)는 상기 유저 및 공방의 음성 대화 데이터를 수신할 수 있다. 상기 키워드도출부(200)는 상기 유저 및 공방의 음성을 텍스트로 변환할 수 있다. 상기 키워드도출부(200)는 상기 텍스트를 자연어 처리할 수 있다.

S1210 단계에서, 상기 키워드도출부(200)는 추출한 상기 텍스트를 자연어 처리할 수 있다. 상기 키워드도출부(200)는 추출한 상기 텍스트를 자연어 분석, 자연어 이해, 자연어 생성을 할 수 있다. 상기 키워드도출부(200)는 형태소 분석(morphological analysis), 통사 분석(syntactic analysis), 의미 분석(semantic analysis) 및 화용 분석(pragmatic analysis)의 4 가지 방식으로 추출한 상기 텍스트를 자연어 처리할 수 있다.

S1210 단계에서, 상기 키워드도출부(200)는 상기 대화 내용의 채팅 로그 또는 버그리포트에서 불필요한 숫자 또는 기호 같은 요소를 제거할 수 있다. 상기 키워드도출부(200)는 상기 유저 한국어의 경우 한국어 자연어 처리 라이브러리인 KoNLP를 통해 분석해 형태소 단위로 분리할 수 있다. 상기 키워드도출부(200)는 R언어의 라이브러리 중 하나인 KoNLP를 사용하여 자연어 처리를 할 수 있다. 상기 키워드도출부(200)는 KoNLP는 한국어 자연어 처리 라이브러리로 명사를 분리하여 추출한다거나 형태소 단위로 분할, 또는 자ㆍ모음으로 구성되어 있는지 확인할 수 있다. 상기 키워드도출부(200)는 분할된 상기 형태소를 기호, 외국어, 체언, 용언, 수식언, 독립언, 관계언, 어미, 접사의 9개의 품사로 구분할 수 있다. 상기 키워드도출부(200)는 정규 표현식을 사용하여 형태소 단위로 분리된 문장을 재조립할 수 있다.

본 발명의 일 실시 예에 따른 상기 대화 내용을 가공해 키워드를 도출하는 단계는 상기 텍스트 데이터에서 공방 및 유저 관련 단어를 추출하는 단계(S1220)를 포함할 수 있다.

S1220 단계에서, 상기 키워드도출부(200)는 상기 텍스트 데이터에서 공방 및 유저 관련 단어를 추출할 수 있다. 상기 공방 및 유저 관련 단어는 유저의 성별, 유저의 나이, 유저의 직업군, 인원, 공예품, 재료, 제조공법, 숙련도, 유저의 경력, 유저의 작업 내역을 포함할 수 있고, 이에 한정되지 않고 공방 및 유저에 관련된 단어를 모두 포함할 수 있다.

본 발명의 일 실시 예에 따른 상기 대화 내용의 텍스트 데이터를 추출하고 자연어 처리하는 단계는 상기 유저 및 공방의 음성 대화 데이터를 수신하는 단계(S1211)를 포함할 수 있다.

S1211 단계에서, 상기 키워드도출부(200)는 상기 유저 및 공방의 음성 대화 데이터를 수신할 수 있다.

본 발명의 일 실시 예에 따른 상기 대화 내용의 텍스트 데이터를 추출하고 자연어 처리하는 단계는 상기 유저 및 공방의 음성을 텍스트로 변환하는 단계(S1212)를 포함할 수 있다.

S1212 단계에서, 상기 키워드도출부(200)는 STT(Speech-to-Text) 기술을 이용해 상기 대화 내용의 음성 인터페이스를 통해 텍스트를 추출해낼 수 있다.

S1212 단계에서, 상기 키워드도출부(200)는 음향학점 관점에서 말하는 유저, 공간, 노이즈 등의 환경적인 데이터를 이용하고 언어학적 관점에서는 어휘, 문맥, 문법 등을 모델링하기 위한 언어 데이터를 이용해 상기 대화 내용의 음성을 텍스트로 변환할 수 있다. 상기 키워드도출부(200)는 음성/언어 데이터로부터 인식 네트워크 모델을 생성하는 오프라인 학습 단계와 사용자가 발성한 음성을 인식하는 온라인 탐색 단계를 통해 상기 대화 내용의 음성을 텍스트로 변환할 수 있다. 상기 키워드도출부(200)는 기보유하고 있는 음성과 언어 데이터를 사용해서 상기 대화 내용의 음성을 텍스트로 변환할 수 있다. 상기 키워드도출부(200)는 디코딩 단계에서는 학습 단계 결과인 음향 모델(Acoustic Model), 언어 모델(Language Model)과 발음 사전(Pronunciation Lexicon)을 이용하여 입력된 특징 벡터를 모델과 비교, 스코어링(Scoring)하여 단어 열을 최종 결정할 수 있다.

S1212 단계에서, 상기 키워드도출부(200)는 해당 언어의 음운 환경별 발음의 음향적 특성을 확률 모델로 대표 패턴을 생성하여 음향 모델링을 하고, 어휘 선택, 문장 단위 구문 구조 등 해당 언어의 사용성 문제에 대해 문법 체계를 통계적으로 학습하여 언어모델링을 할 수 있다. 상기 키워드도출부(200)는 발음 사전 구축을 위해서는 텍스트를 소리 나는 대로 변환하는 음소 변환(Grapheme-to-Phoneme) 구현을 할 수 있다. 상기 키워드도출부(200)는 표준 발음을 대상으로 하는 발음 변환 규칙만으로는 방언이나 사용자의 발화 습관과 어투에 따른 다양한 패턴을 반영하기 어려운 경우가 있어 별도의 사전을 구축할 수 있다.

S1212 단계에서, 상기 키워드도출부(200)는 딥러닝(Deep Learning)에 의해 고도화된 음향모델 적응 학습에 기반할 수 있다. 상기 키워드도출부(200)는 Fully connected DNN(Deep Neural Network), RNN(Recurrent Neural Network)에 기반해 상기 대화 내용의 음성을 텍스트로 변환할 수 있다.

S1211 단계에서, 상기 키워드도출부(200)는 상기 대화 내용의 음성 데이터를 RNN을 통해 분석해 발음적 특징을 추출할 수 있다. 상기 키워드도출부(200)는 상기 발음적 특징을 추출해 상기 대화 내용의 음성을 단어별로 구간을 분할할 수 있다. 상기 키워드도출부(200)는 단어 또는 형태소별 발음적 특징을 학습한 데이터를 포함할 수 있다. 상기 키워드도출부(200)는 단어 또는 형태소별 발음적 특징을 학습한 데이터를 갱신할 수 있다.

S1212 단계에서, 상기 키워드도출부(200)는 상기 단어 또는 형태소의 발음적 특징에 기반해 상기 대화 내용의 음성 데이터에서 분할된 단어를 추정할 수 있다. 상기 키워드도출부(200)는 기반해 상기 대화 내용의 음성 데이터에서 분할된 단어를 상기 단어 또는 형태소의 발음적 특징에 따라 확률이 가장 높은 단어로 1차적으로 1차 단어로 결정할 수 있다.

S1212 단계에서, 상기 키워드도출부(200)는 특정 단어에 대한 발임이 유사한 단어들과 유사도를 포함하는 발음 유사군 데이터를 포함할 수 있다. 상기 발음 유사군 데이터는 특정 단어가 있으면, 상기 특정 단어와 발음이 유사한 단어들을 유사한 정도에 따라 나열한 데이터를 의미할 수 있다. 상기 키워드도출부(200)는 문장에 있어서 단어들 간에 앞, 뒤로 쓰이는 확률을 학습한 문장연관 데이터를 포함할 수 있다.

S1212 단계에서, 상기 키워드도출부(200)는 1차적으로 결정한 상기 1차 단어들을 나열할 수 있다. 상기 키워드도출부(200)는 상기 1차 단어들의 앞, 뒤 단어들과 문장에 함께 쓰일 확률을 상기 문장연관 데이터에 기반해 분석할 수 있다. 상기 키워드도출부(200)는 상기 문장연관 데이터에 기반해 상기 1차 단어의 앞, 뒤 단어들과 연관 확률이 낮은 단어를 수정 대상 단어로 결정할 수 있다.

S1212 단계에서, 상기 키워드도출부(200)는 상기 수정 대상 단어의 발음 유사군에서 유사도가 특정 확률 이상인 단어들로 대체할 수 있다. 본 발명의 일 실시 예에 따르면, 상기 일정 확률은 80%일 수 있다. 상기 키워드도출부(200)는 대체된 단어 중 연관 확률이 임계 값 이상 높은 단어를 2차 단어로 결정할 수 있다. 상기 키워드도출부(200)는 대체된 단어 중 연관 확률이 임계 값 이상 높은 단어가 복수인 경우 연관 확률이 가장 높은 단어를 2차 단어로 결정할 수 있다. 상기 키워드도출부(200)는 대체된 단어 중 연관 확률이 임계 값 이상 높은 단어가 없는 경유 상기 1차 단어를 2차 단어로 결정할 수 있다. 본 발명의 일 실시 예에 따르면, 상기 임계값은 50%일 수 있다.

S1212 단계에서, 상기 키워드도출부(200)는 상기 연관 확률을 하기 수학식 1에 따라 확률로 연산할 수 있다.

[수학식 1]

S1212 단계에서, 본 발명의 일 실시 예에 따라, 확률 또는 임계값을 설정하고 상기 키워드도출부(200)는 상기 수학식 1에서 n을 5 이상으로 설정할 수 있다. n이 4 이하일 경우 기존의 STT 엔진과 정확도 면에서 큰 차이를 보이지 못하였으나, n이 5 이상인 경우 기존의 STT 엔진이 보여주던 오차율이 50%이상 낮아지는 결과를 확인할 수 있었다.

본 발명의 일 실시 예에 따른 상기 대화 내용의 텍스트 데이터를 추출하고 자연어 처리하는 단계는 상기 텍스트를 자연어 처리(S1213)를 포함할 수 있다.

S1213 단계에서, 상기 키워드도출부(200)는 상기 대화 내용의 채팅 로그 또는 버그리포트에서 불필요한 숫자 또는 기호 같은 요소를 제거할 수 있다. 상기 키워드도출부(200)는 상기 유저 한국어의 경우 한국어 자연어 처리 라이브러리인 KoNLP를 통해 분석해 형태소 단위로 분리할 수 있다. 상기 키워드도출부(200)는 R언어의 라이브러리 중 하나인 KoNLP를 사용하여 자연어 처리를 할 수 있다. 상기 키워드도출부(200)는 KoNLP는 한국어 자연어 처리 라이브러리로 명사를 분리하여 추출한다거나 형태소 단위로 분할, 또는 자ㆍ모음으로 구성되어 있는지 확인할 수 있다. 상기 키워드도출부(200)는 분할된 상기 형태소를 기호, 외국어, 체언, 용언, 수식언, 독립언, 관계언, 어미, 접사의 9개의 품사로 구분할 수 있다. 상기 키워드도출부(200)는 정규 표현식을 사용하여 형태소 단위로 분리된 문장을 재조립할 수 있다.

본 발명의 일 실시 예에 따른 키워드 도출 방법은 상기 키워드에 기반해 학습된 추천 결과를 상기 유저 또는 공방에 제공하는 단계(S1300)를 포함할 수 있다.

S1300 단계에서, 상기 추천부(300)는 상기 키워드에 기반해 학습된 추천 결과를 상기 유저 또는 공방에 제공할 수 있다. 상기 추천부(300)는 상기 키워드에 기존에 학습한 데이터에 기반해 가중치를 부여할 수 있다. 상기 추천부(300)는 상기 키워드를 분석해 상기 유저 또는 상기 공방에 추천 결과를 제공할 수 있다. 상기 추천부(300)가 추천하는 상기 추천 결과는 상기 유저에 적합한 커리큘럼, 상기 유저의 선호 확률이 높은 제품 또는 수강생들의 선호도가 높은 커리큘럼 중 어느 하나일 수 있다.

S1300 단계에서, 상기 추천부(300)는 R의 tm 라이브러리를 사용하여, 텍스트 마이닝을 할 수 있다. 상기 추천부(300)에서 tm 라이브러리는 Corpus라는 구조체를 사용하여 문서를 관리할 수 있고, 가중치를 부여하여 문서와 용어 간의 가중치 행렬을 만들 수 있다.

S1300 단계에서, 상기 추천부(300)는 클러스터링 알고리즘은 수치 데이터로 이루어진 행렬을 입력 받을 수 있다. 상기 추천부(300)는 텍스트 데이터의 경우는 문서에 등장하는 용어의 등장 빈도수를 사용하여, 가중치를 부여한 뒤, 가중치 값을 사용하여 유사도를 측정할 수 있다. 상기 추천부(300)의 가중치 부여 기법은 Tf, Tf-Idf, Binery, SMART 중 어느 하나일 수 있다.

S1300 단계에서, 상기 TF(Term frequency)는 문서의 등장하는 용어의 빈도를 가중치로 사용하므로 용어의 빈도수와 가중치가 비례할 수 있다.

S1300 단계에서, 상기 TF-IDF(Term frequency-Inverse document frequency)는 TF 가중치 부여 기법에서 역 문서 빈도수를 곱한 것으로 공통적으로 등장하는 용어의 가중치를 낮추고, 희소하게 등장하는 용어의 가중치를 높게 보정할 수 있다.

S1300 단계에서, 상기 Binary는 용어가 등장하는 빈도수의 영향이 적은 단문 메시지에 사용하기에 적절하며, 용어가 등장하는 여부만 판단할 수 있다.

S1300 단계에서, 상기 SMART는 용어 빈도수, 역 문서 빈도수, 정규화의 여부의 3가지 요소의 곱으로 결정될 수 있다.

S1300 단계에서, 상기 추천부(300)는 클러스터링 모델로는 연결 기반 모델인 Ward's method를 사용할 수 있다. 상기 추천부(300)는 3개의 카테고리로 구성된 키워드를 적절하게 분할하여 하나의 사용자로 가정한 뒤 테스트를 진행할 수 있다. 상기 추천부(300)는 추천 결과간의 유사도를 측정하는 방식은 유클리드 거리를 사용하여 측정할 수 있다. 상기 추천부(300)는 클러스터링 결과의 평가는 클러스터의 질적인 부분이 아닌 분류된 정도를 평가하기 위해 외부 평가 방법인 Rand Index를 사용할 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통 상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

유저 및 공방의 대화 내용을 수집하는 단계;
상기 대화 내용을 가공해 키워드를 도출하는 단계; 및
상기 키워드에 기반해 학습된 추천 결과를 상기 유저 또는 공방에 제공하는 단계;를 포함하고,
상기 키워드 도출 단계는,
상기 대화 내용의 텍스트 데이터를 추출하고 자연어 처리하는 단계; 및
상기 텍스트 데이터에서 공방 및 유저 관련 단어를 추출하는 단계;를 포함하고,
상기 대화 내용의 텍스트 데이터를 추출 및 자연어 처리 단계는,
상기 유저 및 공방의 음성 대화 데이터를 수신하는 단계;
상기 유저 및 공방의 음성을 텍스트로 변환하는 단계; 및
상기 텍스트를 자연어 처리하는 단계;를 포함하며,
상기 텍스트 변환 단계는,
하기 수학식 1로 연산한 연관 확률에 기반해 단어 결정하는 것을 특징으로 하는 공방 운영 플랫폼 서비스 방법.
[수학식 1]

(여기서, H는 확률함수, S는 단어, W_m은 앞, 뒤의 m번째 단어를 의미한다.)
제1항에 있어서,
상기 공방 및 유저 관련 단어는,
유저의 성별, 유저의 나이, 유저의 직업군, 인원, 공예품, 재료, 제조공법, 숙련도를 포함하는 것을 특징으로 하는 공방 운영 플랫폼 서비스 방법.
제2항에 있어서,
상기 추천 결과 제공 단계는,
상기 유저에 적합한 커리큘럼, 상기 유저의 선호 확률이 높은 제품 또는 수강생들의 선호도가 높은 커리큘럼 중 어느 하나를 제공하는 것을 특징으로 하는 공방 운영 플랫폼 서비스 방법.
삭제
삭제