KR101985903B1

KR101985903B1 - 텍스트 콘텐츠를 문장 단위로 분할하여 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램

Info

Publication number: KR101985903B1
Application number: KR1020190017398A
Authority: KR
Inventors: 박외진; 오성식; 오세진; 하헌규
Original assignee: (주)아크릴
Priority date: 2019-02-14
Filing date: 2019-02-14
Publication date: 2019-06-04

Abstract

본 발명의 일 실시예에 따른 텍스트 콘텐츠(Text Contents)를 문장 단위로 분할하여 작성자의 메타정보를 추론하는 방법은, 텍스트 콘텐츠를 수신하는 단계; 상기 텍스트 콘텐츠를 문장 단위로 분할하여 하나 이상의 분할 콘텐츠를 생성하는 단계; 상기 하나 이상의 분할 콘텐츠 각각을 하나 이상의 형태소로 분할하고, 형태소-벡터 변환기에 기초하여 상기 분할된 하나 이상의 형태소로부터 상기 하나 이상의 분할 콘텐츠 각각에 대한 형태소 벡터를 결정하는 단계; 상기 하나 이상의 분할 콘텐츠 각각을 하나 이상의 음절로 분할하고, 음절-벡터 변환기에 기초하여 상기 분할된 하나 이상의 음절로부터 상기 하나 이상의 분할 콘텐츠 각각에 대한 음절 벡터를 결정하는 단계; 및 상기 하나 이상의 분할 콘텐츠 각각의 형태소 벡터, 상기 하나 이상의 분할 콘텐츠 각각의 음절 벡터 및 작성자 인식기에 기초하여 상기 작성자의 메타정보에 대응되는 메타정보 벡터를 결정하는 단계;를 포함할 수 있다.

Description

텍스트 콘텐츠를 문장 단위로 분할하여 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램{A METHOD AND COMPUTER PROGRAM FOR INFERRING METADATA OF A TEXT CONTENT CREATOR BY DIVIDING THE TEXT CONTENT INTO SENTENCES}

본 발명의 실시예들은 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램에 관한 것으로, 보다 구체적으로 텍스트 콘텐츠의 형태소 및 음절에 기초하여 콘텐츠 작성자의 메타정보를 추론하는 방법에 관한 것이다.

정보통신 기술의 비약적인 발전으로 인해 이동통신 단말, 개인용 컴퓨터 등과 같은 다양한 종류의 단말들은 다양한 기능을 수행할 수 있도록 구현되고 있다.

특히 이러한 단말들은 단순히 정보를 수신하여 표시하는 종래의 기능에서, 수신 받은 정보로부터 2차 정보를 생성하는 등의 다양한 기능들을 이용할 수 있도록 구현되고 있다. 이러한 환경에서, 웹 상에 게시되는 콘텐츠의 양은 기하급수적으로 증가하고 있으며, 이에 따라 개별 콘텐츠에 대한 속성 파악(가령 작성자의 연령대, 성별 파악 등)이 어려운 실정이다.

본 발명은 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론하고자 한다.

또한 본 발명은 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론하고자 하며, 보다 높은 정확도로 작성자의 메타정보를 추론하고자 한다.

또한 본 발명은 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론하고자 한다.

본 발명의 일 실시예에 따른 텍스트 콘텐츠(Text Contents) 작성자의 메타정보를 추론하는 방법은, 텍스트 콘텐츠를 수신하는 단계; 상기 텍스트 콘텐츠를 하나 이상의 형태소로 분할하고, 형태소-벡터 변환기에 기초하여 상기 분할된 하나 이상의 형태소로부터 형태소 벡터를 결정하는 단계; 상기 텍스트 콘텐츠를 하나 이상의 음절로 분할하고, 음절-벡터 변환기에 기초하여 상기 분할된 하나 이상의 음절로부터 음절 벡터를 결정하는 단계; 및 상기 형태소 벡터, 상기 음절 벡터 및 작성자 인식기에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터를 결정하는 단계;를 포함할 수 있다. 이때 상기 형태소-벡터 변환기는 복수의 형태소와 복수의 형태소 벡터 간의 상관관계를 표현한 데이터 세트이고, 상기 음절-벡터 변환기는 복수의 음절과 복수의 음절 벡터 간의 상관관계를 표현한 데이터 세트이고, 상기 작성자 인식기는 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계를 표현한 데이터 세트일 수 있다.

상기 작성자의 메타정보를 추론하는 방법은 상기 텍스트 콘텐츠를 수신하는 단계 이후에 상기 텍스트 콘텐츠를 소정의 단위로 분할하여 하나 이상의 분할 콘텐츠를 생성하는 단계;를 더 포함할 수 있다. 이때 상기 형태소 벡터를 결정하는 단계는 상기 하나 이상의 분할 콘텐츠 각각에 대한 형태소 벡터를 결정하고, 상기 음절 벡터를 결정하는 단계는 상기 하나 이상의 분할 콘텐츠 각각에 대한 음절 벡터를 결정하고, 상기 메타정보 벡터를 결정하는 단계는 상기 하나 이상의 분할 콘텐츠 각각의 형태소 벡터, 상기 하나 이상의 분할 콘텐츠 각각의 음절 벡터 및 작성자 인식기에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터를 결정할 수 있다.

상기 작성자의 메타정보를 추론하는 방법은 상기 메타정보 벡터를 결정하는 단계 이후에 상기 하나 이상의 분할 콘텐츠 각각에 대한 메타정보 벡터에 기초하여 상기 하나 이상의 분할 콘텐츠 별로 작성자의 메타정보를 결정하는 단계; 및 상기 하나 이상의 분할 콘텐츠 별 작성자의 메타정보에 기초하여 상기 텍스트 콘텐츠 작성자의 메타정보를 결정하는 단계;를 더 포함할 수 있다. 이때 상기 소정의 단위는 문장 단위일 수 있다.

상기 작성자의 메타정보를 추론하는 방법은 상기 메타정보 벡터를 결정하는 단계 이후에 상기 결정된 메타정보 벡터에 기초하여 상기 텍스트 콘텐츠 작성자의 메타정보를 결정하는 단계;를 더 포함할 수 있다.

상기 텍스트 콘텐츠 작성자의 메타정보는 상기 작성자의 연령대, 상기 작성자의 성별, 상기 작성자과 관련된 지역, 상기 작성자의 정치성향, 상기 작성자의 학력 및 상기 작성자의 결혼여부 중 적어도 하나를 포함할 수 있다.

상기 작성자의 메타정보를 결정하는 단계는 복수의 후보 연령대에 상기 작성자가 속할 확률의 형태로 상기 텍스트 콘텐츠 작성자의 연령대를 결정하고, 상기 작성자가 남성일 확률 및 상기 작성자가 여성일 확률의 형태로 상기 텍스트 콘텐츠 작성자의 성별을 결정할 수 있다.

상기 작성자의 메타정보를 추론하는 방법은 제1 테스트 형태소 및 상기 제1 테스트 형태소에 대응되는 제1 형태소 벡터를 포함하는 복수의 제1 학습 데이터에 기초하여 상기 형태소-벡터 변환기를 학습시키는 단계; 제1 테스트 음절 및 상기 제1 테스트 음절에 대응되는 제1 음절 벡터를 포함하는 복수의 제2 학습 데이터에 기초하여 상기 음절-벡터 변환기를 학습시키는 단계; 및 제2 형태소 벡터, 제2 음절 벡터 및 상기 제2 형태소 벡터와 상기 제2 음절 벡터에 대응되는 메타정보 벡터를 포함하는 제3 학습 데이터에 기초하여 상기 작성자 인식기를 학습시키는 단계;를 더 포함할 수 있다.

상기 메타정보 벡터를 결정하는 단계는 상기 형태소 벡터 및 상기 음절 벡터를 병합하여 콘텐츠 벡터를 생성하는 단계; 및 상기 콘텐츠 벡터 및 상기 작성자 인식기에 기초하여 상기 메타정보 벡터를 결정하는 단계;를 포함할 수 있다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

본 발명의 실시예들에 따르면 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론할 수 있다.

또한 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론할 수 있으며, 보다 높은 정확도로 작성자의 메타정보를 추론할 수 있다.

또한 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론할 수 있다.

도 1은 본 발명의 일 실시예에 따른 콘텐츠 작성자 메타정보 추론 시스템을 개략적으로 도시한다.
도 2는 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치의 구성을 개략적으로 도시한다.
도 3a 내지 도 3c는 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치가 형태소-벡터 변환기, 음절-벡터 변환기 및 작성자 인식기를 생성하거나 /학습 시키는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 제어부가 복수의 문장을 포함하는 텍스트 콘텐츠를 분할 콘텐츠로 분할하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 제어부가 텍스트 콘텐츠(또는 분할 콘텐츠)로부터 작성자의 메타정보를 추론하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치가 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 사용자 단말의 디스플레이부에 표시되는 화면의 예시이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 형태는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

도 1은 본 발명의 일 실시예에 따른 콘텐츠 작성자 메타정보 추론 시스템을 개략적으로 도시한다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 콘텐츠 작성자 메타정보 추론 시스템은 서버(100), 사용자 단말(200), 외부장치(300) 및 이들을 연결하는 통신망(400)을 포함할 수 있다.

본 발명의 일 실시예에 따른 콘텐츠 작성자 메타정보 추론 시스템은 서버(100)가 사용자 단말(200) 및/또는 외부장치(300)로부터 텍스트 콘텐츠를 수신하고, 수신된 콘텐츠의 작성자의 메타정보를 추론할 수 있다. 또한 콘텐츠 작성자 메타정보 추론 시스템은 서버(100)가 사용자 단말(200) 및/또는 외부장치(300)로부터 작성자의 메타정보를 미리 알고 있는 콘텐츠를 획득하고, 이에 기초하여 작성자 인식기를 학습시킬 수 있다. 보다 상세한 설명은 후술한다.

본 발명에서 '작성자의 메타정보' 작성자의 연령대, 성별, 거주지역, 정치성향 등과 같은 작성자에 대한 개인정보 또는 신상정보를 의미할 수 있다.

본 발명에서 '텍스트 콘텐츠'는 콘텐츠의 적어도 일 부분에 텍스트를 포함하는 다양한 콘텐츠를 의미할 수 있다. 가령 텍스트 콘텐츠는 텍스트만 포함된 콘텐츠를 의미할 수 있다. 이러한 경우 본 발명의 일 실시예에 따른 서버(100)는 전체 텍스트 콘텐츠를 분석하여 작성자의 메타정보를 추론할 수 있다. 한편 텍스트 콘텐츠는 텍스트 외에 이미지, 영상 등의 콘텐츠를 더 포함하는 콘텐츠를 의미할 수도 있다. 이러한 경우 본 발명의 일 실시예에 따른 서버(100)는 콘텐츠에서 텍스트 만을 분리하고, 이로부터 콘텐츠 작성자의 메타정보를 추론할 수도 있다. 다만 이하에서는 설명의 편의를 위하여 텍스트 콘텐츠가 텍스트만을 포함하는 것을 전제로 설명한다.

본 발명에서 사용자 단말(200)은 전술한 텍스트 콘텐츠를 서버(100)와 송수신 할 수 있는 다양한 장치를 의미할 수 있다. 이 때 단말은 퍼스널 컴퓨터(202)일 수도 있고 또는 휴대용 단말(201)일 수도 있다. 도 1에서는 휴대용 단말(201)이 스마트폰(Smart Phone)으로 도시되었지만, 본 발명의 사상은 이에 제한되지 않는다.

한편 사용자 단말(200)은 콘텐츠를 표시하기 위한 표시수단, 이러한 콘텐츠에 대한 사용자의 입력을 획득하기 위한 입력수단을 구비할 수 있다. 이 때 입력수단 및 표시수단은 다양하게 구성될 수 있다. 가령 입력수단은 키보드, 마우스, 트랙볼, 마이크, 버튼, 터치패널 등을 포함할 수 있으나 이에 한정되지 않는다.

본 발명에서 외부장치(300)는 서버(100) 및/또는 사용자 단말(200)과 통신망(400)을 통하여 데이터를 송수신 하는 다양한 장치를 의미할 수 있다.

본 발명의 일 실시예에 따르면, 외부장치(300)는 서버(100)에 구비되는 작성자 인식기를 학습시키기 위한 학습 데이터를 제공하는 장치일 수 있다. 가령 외부장치(300)는 콘텐츠(가령 신문 기사 또는 기사에 대한 댓글)와 해당 콘텐츠의 작성자의 메타정보(가령 해당 기사를 쓴 기자의 메타정보 또는 댓글을 작성한 사용자의 메타정보)를 제공하는 서버일 수 있다. 이와 같은 외부장치(300)는 단수일 수도 있고, 복수일 수도 있다.

본 발명의 다른 실시예에 따르면, 외부장치(300)는 외부장치(300) 자신이 사용자 단말(200)에 제공할 텍스트 콘텐츠에 대한 식별정보를 서버(100)에 전송하고, 서버(100)로부터 해당 텍스트 콘텐츠 작성자의 메타정보를 수신하는 장치일 수도 있다. 가령 외부장치(300)는 사용자들이 작성자의 메타정보를 알고자 하는 글에 대해 메타정보를 제공하는 서비스를 제공하고자 하는 서비스 주체의 서버일 수 있다. 다만 전술한 두 가지 경우는 모두 예시적인 것으로, 본 발명의 사상이 이에 한정되는 것은 아니다.

본 발명에서 통신망(400)은 서버(100), 사용자 단말(200) 및 외부장치(300)를 연결하는 역할을 수행한다. 예를 들어, 통신망(400)은 사용자 단말(200)이 서버(100)에 접속한 후 패킷 데이터를 송수신할 수 있도록 접속 경로를 제공한다. 통신망(400)은 예컨대 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

본 발명에서 서버(100)는 사용자 단말(200) 및/또는 외부장치(300)로부터 텍스트 콘텐츠를 수신하고, 수신된 콘텐츠 작성자의 메타정보를 추론할 수 있다. 또한 서버(100)는 사용자 단말(200) 및/또는 외부장치(300)로부터 메타정보가 표지된 하나 이상의 학습 콘텐츠를 획득하고, 이에 기초하여 작성자 인식기를 트레이닝 시킬수도 있다. 이를 위하여 서버(100)는 도 2에 도시된 바와 같은 작성자 메타정보 추론 장치를 포함할 수 있다.

도 2는 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)의 구성을 개략적으로 도시한다.

도 2를 참조하면, 본 실시예에 따른 작성자 메타정보 추론 장치(110)는 통신부(111), 제어부(112) 및 메모리(113)를 포함할 수 있다. 또한 도면에는 도시되지 않았으나, 본 실시예에 따른 작성자 메타정보 추론 장치(110)는 입/출력부, 프로그램 저장부 등을 더 포함할 수 있다.

통신부(111)는 작성자 메타정보 추론 장치(110)가 사용자 단말(200) 및/또는 외부장치(300)와 같은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.

제어부(112)는 프로세서(Processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(Processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(Microprocessor), 중앙처리장치(Central Processing Unit: CPU), 프로세서 코어(Processor Core), 멀티프로세서(Multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

메모리(113)는 작성자 메타정보 추론 장치(110)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 메모리(113)는 자기 저장 매체(Magnetic Storage Media) 또는 플래시 저장 매체(Flash Storage Media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

이하에서는 작성자 메타정보 추론 장치(110)가 서버(100)에 구비되는 것을 전제로 설명하지만, 역할배분에 따라 작성자 메타정보 추론 장치(110)는 서버(100)와 별도로 구비될 수도 있다.

한편 전술한 바와 같이 서버(100), 즉 작성자 메타정보 추론 장치(110)는 사용자 단말(200) 및/또는 외부장치(300)로부터 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠를 수신하고, 수신된 텍스트 콘텐츠의 작성자의 메타정보를 추론할 수 있다. 또한 작성자 메타정보 추론 장치(110)는 사용자 단말(200) 및/또는 외부장치(300)로부터 작성자의 메타정보가 표지된 하나 이상의 학습 콘텐츠를 획득하고, 이에 기초하여 작성자 인식기를 트레이닝 시킬수도 있다.

이하에서는 작성자 메타정보 추론 장치(110)가 하나 이상의 학습 콘텐츠로부터 작성자 인식기를 생성 및/또는 학습하는 방법에 대해서 먼저 설명하고, 생성 및/또는 학습된 작성자 인식기에 기초하여 수신된 텍스트 콘텐츠에 대한 작성자의 메타정보를 추론하는 방법을 나중에 설명한다.

본 발명에서 '작성자 인식기'는 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계를 표현한 데이터 세트일 수 있다. 즉 작성자 인식기는 '복수의 형태소 벡터 및 복수의 음절 벡터'와 '복수의 메타정보 벡터' 간의 대응관계를 나타낸 것일 수 있다. 이때 형태소 벡터는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠에 대한 형태소 분석에 기초하여 생성된 벡터일 수 있다. 또한 음절 벡터는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠에 대한 음절 분석에 기초하여 생성된 벡터일 수 있다. 한편 메타정보 벡터는 텍스트 콘텐츠의 작성자의 메타정보와 대응되는 벡터로, 다양한 항목(가령 연령대, 성별, 거주지역, 정치성향 등)에 대한 정보를 포함하는 벡터일 수 있다.

이와 같은 '작성자 인식기'는 복수의 학습 데이터에 기반한 머신 러닝(Machine Learning)에 의하여 생성된 것일 수 있다. 이때 학습 데이터는 전술한 외부장치(300)로부터 수신된 것일 수 있다. 물론 학습 데이터는 메타정보 추론 장치(110)의 메모리(113)에 저장된 것일 수도 있다.

한편 작성자 인식기는 전술한 바와 같이 데이터 셋트(Data set)일 수 있다. 가령 작성자 인식기는 행렬(Matrix)과 같이 복수개의 숫자로 구성된 데이터 셋트일 수 있다. 다만 이는 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.

전술한 작성자 인식기와 유사하게, '형태소-벡터 변환기'는 복수의 형태소와 복수의 형태소 벡터 간의 상관관계를 표현한 데이터 세트일 수 있다. 또한 '음절-벡터 변환기'는 복수의 음절과 복수의 음절 벡터 간의 상관관계를 표현한 데이터 세트일 수 있다.

상술한 형태소-벡터 변환기 및 음절-벡터 변환기 모두 작성자 인식기와 유사하게 복수의 학습 데이터에 기반한 머신 러닝(Machine Learning)에 의하여 생성된 것일 수 있다. 가령 형태소-벡터 변환기의 경우, 어떤 형태소와 해당 형태소에 대응되는 형태소 벡터를 포함하는 학습 데이터에 기초하여 생성된 것일 수 있다. 또한 이와 유사하게 음절-벡터 변환기의 경우, 어떤 음절과 해당 음절에 대응되는 음절 벡터를 포함하는 학습 데이터에 기초하여 생성된 것일 수 있다.

도 3a 내지 도 3c는 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)가 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)를 생성하거나 /학습 시키는 방법을 설명하기 위한 도면이다.

먼저 도 3a를 참조하면, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)의 제어부(112)는 형태소-벡터 변환기(520)의 생성을 위해 제1 테스트 형태소 및 제1 테스트 형태소에 대응되는 제1 형태소 벡터를 포함하는 복수의 제1 학습 데이터(500)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 제어부(112)는 형태소와 해당 형태소에 대응되는 형태소 벡터를 포함하는 학습 데이터를 획득할 수 있다. 가령 첫 번째 학습 데이터(510)의 경우, 형태소와 형태소에 대응되는 형태소 벡터(511)를 포함할 수 있다. 이때 어느 하나의 형태소 벡터에 대응되는 형태소의 수는 단수일 수도 있고, 복수일 수도 있다.

이어서 본 발명의 일 실시예에 따른 제어부(112)는 수신 및/또는 획득된 제1 학습 데이터(500)에 기초하여 형태소-벡터 변환기(520)를 학습시킬 수 있다.

전술한 바와 같이 형태소-벡터 변환기(520)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소와 복수의 형태소 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.

따라서 본 발명의 일 실시예에 따른 제어부(112)는 제1 학습 데이터(500)의 형태소와 해당 형태소에 대응되는 형태소 벡터를 서로 대응(매핑)시킬 수 있도록 형태소-벡터 변환기(520)의 데이터 셋트를 업데이트(Update)하는 방식으로 형태소-벡터 변환기(520)를 학습시킬 수 있다.

가령 형태소-벡터 변환기(520)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 제어부(112)는 제1 학습 데이터(500)의 형태소와 해당 형태소에 대응되는 형태소 벡터를 서로 대응(매핑)시킬 수 있도록 형태소-벡터 변환기(520)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 제어부(112)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 형태소-벡터 변환기(520)를 획득할 수 있다.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론할 수 있도록 할 수 있다.

도 3b를 참조하면, 본 발명의 일 실시예에 따른 제어부(112)는 음절-벡터 변환기(620)의 생성을 위해 제1 테스트 음절 및 제1 테스트 음절에 대응되는 제1 음절 벡터를 포함하는 복수의 제2 학습 데이터(600)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 제어부(112)는 음절과 해당 음절에 대응되는 음절 벡터를 포함하는 제2 학습 데이터(600)를 획득할 수 있다. 가령 첫 번째 학습 데이터(610)의 경우, 음절과 음절에 대응되는 음절 벡터(611)를 포함할 수 있다. 이때 어느 하나의 음절 벡터에 대응되는 음절의 수는 단수일 수도 있고, 복수일 수도 있다.

이어서 본 발명의 일 실시예에 따른 제어부(112)는 수신 및/또는 획득된 제2 학습 데이터(600)에 기초하여 음절-벡터 변환기(620)를 학습시킬 수 있다.

전술한 바와 같이 음절-벡터 변환기(620)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 음절과 복수의 음절 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.

따라서 본 발명의 일 실시예에 따른 제어부(112)는 제2 학습 데이터(600)의 음절과 해당 음절에 대응되는 음절 벡터를 서로 대응(매핑)시킬 수 있도록 음절-벡터 변환기(620)의 데이터 셋트를 업데이트(Update)하는 방식으로 음절-벡터 변환기(620)를 학습시킬 수 있다.

가령 음절-벡터 변환기(620)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 제어부(112)는 제2 학습 데이터(600)의 음절과 해당 음절에 대응되는 음절 벡터를 서로 대응(매핑)시킬 수 있도록 음절-벡터 변환기(620)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 제어부(112)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 음절-벡터 변환기(620)를 획득할 수 있다.

이로써 본 발명은 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론할 수 있도록 할 수 있고, 보다 높은 정확도로 작성자의 메타정보를 추론할 수 있도록 할 수 있다.

한편 도 3c를 참조하면, 본 발명의 일 실시예에 따른 제어부(112)는 작성자 인식기(720)의 생성을 위해 제2 형태소 벡터, 제2 음절 벡터 및 제2 형태소 벡터와 제2 음절 벡터에 대응되는 메타정보 벡터를 포함하는 복수의 제3 학습 데이터(700)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 제어부(112)는 형태소 벡터 및 음절 벡터와 이러한 형태소 벡터 및 음절 벡터와 대응되는 메타정보 벡터를 포함하는 학습 데이터를 획득할 수 있다.

가령 첫 번째 학습 데이터(710)의 경우 형태소 벡터(Vm2), 음절 벡터(Vs2) 및 이에 대응되는 메타정보 벡터(711)를 포함할 수 있다.

이어서 본 발명의 일 실시예에 따른 제어부(112)는 수신 및/또는 획득된 제3 학습 데이터(700)에 기초하여 작성자 인식기(720)를 학습시킬 수 있다.

전술한 바와 같이 작성자 인식기(720)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계, 즉 양자의 매핑 정보일 수 있다.

따라서 본 발명의 일 실시예에 따른 제어부(112)는 학습 데이터의 형태소 벡터 및 음절 벡터와 메타정보 벡터를 서로 대응(매핑)시킬 수 있도록 작성자 인식기(720)의 데이터 셋트를 업데이트(Update)하는 방식으로 작성자 인식기(720)를 학습시킬 수 있다.

가령 작성자 인식기(720)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 제어부(112)는 학습 데이터의 형태소 벡터 및 음절 벡터와 이에 대응되는 메타정보 벡터를 서로 대응(매핑)시킬 수 있도록 작성자 인식기(720)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 제어부(112)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 작성자 인식기(720)를 획득할 수 있다.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론하도록 할 수 있다.

이상 서술한 과정에 의해서 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠로부터 작성자의 메타정보를 추론하기 위한 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)를 생성 및/또는 학습 시킬 수 있다.

이하에서는 전술한 과정에 의해서 생성 및/또는 학습된 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)에 기초하여 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법을 설명한다.

본 발명의 일 실시예에 따른 제어부(112)는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠를 사용자 단말(200) 및/또는 외부장치(300)로부터 수신할 수 있다. 이때 텍스트 콘텐츠는 전술한 바와 같이 텍스트 콘텐츠 외에 다양한 종류의 콘텐츠(가령 이미지, 영상 등)를 포함할 수 있다.

한편 텍스트 콘텐츠는 하나의 문장만을 포함할 수도 있고, 복수의 문장을 포함할 수 있다. 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠가 복수의 문장을 포함하는 경우, 이를 복수개의 콘텐츠로 분할하여 작성자의 메타정보를 추론할 수도 있다.

도 4는 본 발명의 일 실시예에 따른 제어부(112)가 복수의 문장을 포함하는 텍스트 콘텐츠(800)를 분할 콘텐츠(810, 820, 830)로 분할하는 방법을 설명하기 위한 도면이다.

설명의 편의를 위하여, 텍스트 콘텐츠(800)가 전술한 바와 같이 복수의 문장을 포함하는 것으로 가정한다. 이러한 경우 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠(800)를 소정의 단위로 분할하여 하나 이상의 분할 콘텐츠(810, 820, 830)를 생성할 수 있다. 이때 소정의 단위는 문장 단위일 수도 있고, 단락 단위일 수도 있고, 주제 단위일 수도 있다. 다만 이는 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.

이하에서는 설명의 편의를 위하여 한 개의 분할 콘텐츠(810)에 대한 작성자의 메타정보를 추론하는 방법을 중심으로 설명한다.

도 5는 본 발명의 일 실시예에 따른 제어부(112)가 텍스트 콘텐츠(810)(또는 분할 콘텐츠)로부터 작성자의 메타정보를 추론하는 방법을 설명하기 위한 도면이다.

전술한 바와 같이 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠를 수신하거나 획득하고, 필요에 따라서 이를 소정의 단위로 분할하여 하나 이상의 분할 콘텐츠를 생성할 수도 있다.

이어서 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠(810)를 하나 이상의 형태소(811)로 분할할 수 있다. 가령 제어부(112)는 텍스트 콘텐츠가 '대한민국 평화를 위해서 힘내주세요.'인 경우, '대한민국', '평화를', '위해서', '힘내주세요'와 같이 콘텐츠를 하나 이상의 형태소로 분할할 수 있다. 본 발명의 일 실시예에 따른 제어부(112)는 형태소-벡터 변환기(520)에 기초하여 분할된 하나 이상의 형태소(811)로부터 형태소 벡터(821)를 결정할 수 있다.

따라서 제어부(112)는 형태소-벡터 변환기(520)에 하나 이상의 형태소(811)를 입력하고, 그 결과로써 하나 이상의 형태소(811)와 대응되는 형태소 벡터(821)를 획득할 수 있다.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론할 수 있다.

본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠(810)를 하나 이상의 음절(812)로 분할할 수 있다. 가령 전술한 예시에서와 같이 텍스트 콘텐츠가 '대한민국 평화를 위해서 힘내주세요.'인 경우, 제어부(112)는 '대', '한', '민', '국' 등과 같이 콘텐츠를 하나 이상의 음절로 분할할 수 있다. 본 발명의 일 실시예에 따른 제어부(112)는 음절-벡터 변환기(620)에 기초하여 분할된 하나 이상의 음절(812)로부터 음절 벡터(822)를 결정할 수 있다.

따라서 제어부(112)는 음절-벡터 변환기(620)에 하나 이상의 음절(812)을 입력하고, 그 결과로써 하나 이상의 음절(812)과 대응되는 음절 벡터(822)를 획득할 수 있다.

이로써 본 발명은 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론할 수 있고, 보다 높은 정확도로 작성자의 메타정보를 추론할 수 있다.

본 발명의 일 실시예에 따른 제어부(112)는 전술한 과정에 의해서 결정된 형태소 벡터(821), 음절 벡터(822) 및 작성자 인식기(720)에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터(830)를 결정할 수 있다.

앞서 설명한 형태소-벡터 변환기(520) 및 음절-벡터 변환기(620)와 유사하게, 작성자 인식기(720) 또한 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계, 즉 양자의 매핑 정보일 수 있다.

따라서 제어부(112)는 작성자 인식기(720)에 형태소 벡터(821) 및 음절 벡터(822)를 입력하고, 그 결과로써 형태소 벡터(821) 및 음절 벡터(822)에 대응되는 메타정보 벡터(830)를 획득할 수 있다.

한편 본 발명의 일 실시예에 따른 제어부(112)는 형태소 벡터 및 음절 벡터를 병합하여 콘텐츠 벡터를 생성하고, 생성된 콘텐츠 벡터 및 작성자 인식기(720)에 기초하여 메타정보 벡터(830)를 결정할 수도 있다. 이때 벡터를 병합하는 것은 두 벡터의 차원수의 합에 해당하는 새로운 벡터를 생성하는 것을 의미할수도 있고, 소정의 연산을 통해 새로운 차원(두 벡터의 차원수의 합 이하의 차원)의 벡터를 생성하는 것을 의미할 수도 있다.

본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠를 소정의 단위로 분할하여 생성한 분할 콘텐츠에 대해서도 전술한 일련의 과정(형태소 벡터, 음절 벡터 및 메타정보 벡터를 결정하는 과정)을 동일하게 수행할 수 있다. 바꾸어 말하면, 제어부(112)는 하나 이상의 분할 콘텐츠 각각에 대한 형태소 벡터를 결정할 수 있다. 또한 제어부(112)는 하나 이상의 분할 콘텐츠 각각에 대한 음절 벡터를 결정할 수 있다. 또한 제어부(112)는 하나 이상의 분할 콘텐츠 각각의 형태소 벡터, 하나 이상의 분할 콘텐츠 각각의 음절 벡터 및 작성자 인식기에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터를 결정할 수 있다. 이와 같이 제어부(112)는 각 분할 콘텐츠 별 메타정보 벡터를 결정할 수 있다. 한편 이로부터 전체 콘텐츠에 대한 작성자의 메타정보를 결정하는 방법은 후술한다.

본 발명의 일 실시예에 따른 제어부(112)는 전술한 과정에 의해서 결정된 메타정보 벡터(830)에 기초하여 텍스트 콘텐츠(810) 작성자의 메타정보(840)를 결정할 수 있다. 이때 콘텐츠 작성자의 메타정보는 작성자의 연령대, 작성자의 성별, 작성자와 관련된 지역, 작성자의 정치성향, 작성자의 학력 및 작성자의 결혼여부 중 적어도 하나를 포함할 수 있다. 물론 상술한 항목들은 예시적인 것으로 어떤 사람의 메타정보로써 사용될 수 있는 항목이라면, 본 발명의 메타정보로써 사용될 수 있다.

본 발명의 일 실시예에 따른 제어부(112)는 메타정보의 각 항목에 대해서, 각 항목에 대한 복수의 선택지의 확률 형태로 메타정보를 결정할 수 있다. 가령 제어부(112)는 복수의 후보 연령대(10대, 20대, 30대, 40대, 50대 이상 등)에 작성자가 속할 확률의 형태로 텍스트 콘텐츠 작성자의 연령대를 결정할 수 있다. 또한 이와 유사하게 제어부(112)는 작성자가 남성일 확률 및 작성자가 여성일 확률의 형태로 작성자의 성별을 결정할 수 있다. 다만 전술한 연령대 및 성별 항목은 예시적인 것으로, 본 발명의 사상이 이에 한정되는 것은 아니다.

한편 분할 콘텐츠 각각에 대해 메타정보 벡터를 결정한 경우, 본 발명의 일 실시예에 따른 제어부(112)는 각각의 분할 콘텐츠에 대한 메타정보를 결정할 수 있다.

이때 본 발명의 일 실시예에 따른 제어부(112)는 각각의 분할 콘텐츠에 대한 메타정보를 병합하여 전체 텍스트 콘텐츠에 대한 메타정보를 결정할 수도 있다. 가령 분할 콘텐츠 각각에 대해서 복수의 후보 연령대에 작성자가 속할 확률이 결정된 경우, 제어부(112)는 연령대 별 확률의 합(가령 10대에 속할 확률의 합, 20대에 속할 확률의 합 등)으로 전체 텍스트 콘텐츠에 대한 메타정보를 결정할 수 있다. 다만 이는 예시적인것으로 본 발명의 사상이 이에 한정되는 것은 아니다.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론할 수 있다.

도 6은 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)가 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법을 설명하기 위한 흐름도이다. 이하에서는 도 1 내지 도 5에서 설명한 내용과 중복하는 내용의 설명은 생략한다.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 형태소-벡터 변환기, 음절-벡터 변환기 및 작성자 인식기를 생성하거나 /학습 시킬 수 있다.(S61)

본 발명에서 '작성자 인식기'는 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계를 표현한 데이터 세트일 수 있다. 즉 작성자 인식기는 '복수의 형태소 벡터 및 복수의 음절 벡터'와 '복수의 메타정보 벡터' 간의 대응관계를 나타낸 것일 수 있다. 이때 형태소 벡터는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠에 대한 형태소 분석에 기초하여 생성된 벡터일 수 있다. 음절 벡터는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠에 대한 음절 분석에 기초하여 생성된 벡터일 수 있다. 한편 메타정보 벡터는 텍스트 콘텐츠의 작성자의 메타정보와 대응되는 벡터로, 다양한 항목(가령 연령대, 성별, 거주지역 등)에 대한 정보를 포함하는 벡터일 수 있다.

다시 도 3a 내지 도 3c를 참조하여 메타정보 추론 장치(110)가 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)를 생성하거나 /학습 시키는 방법을 설명한다.

먼저 도 3a를 참조하면, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)의 작성자 메타정보 추론 장치(110)는 형태소-벡터 변환기(520)의 생성을 위해 제1 테스트 형태소 및 제1 테스트 형태소에 대응되는 제1 형태소 벡터를 포함하는 복수의 제1 학습 데이터(500)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 형태소와 해당 형태소에 대응되는 형태소 벡터를 포함하는 학습 데이터를 획득할 수 있다. 가령 첫 번째 학습 데이터(510)의 경우, 형태소와 형태소에 대응되는 형태소 벡터(511)를 포함할 수 있다. 이때 어느 하나의 형태소 벡터에 대응되는 형태소의 수는 단수일 수도 있고, 복수일 수도 있다.

이어서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 수신 및/또는 획득된 제1 학습 데이터(500)에 기초하여 형태소-벡터 변환기(520)를 학습시킬 수 있다.

따라서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 제1 학습 데이터(500)의 형태소와 해당 형태소에 대응되는 형태소 벡터를 서로 대응(매핑)시킬 수 있도록 형태소-벡터 변환기(520)의 데이터 셋트를 업데이트(Update)하는 방식으로 형태소-벡터 변환기(520)를 학습시킬 수 있다.

가령 형태소-벡터 변환기(520)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 작성자 메타정보 추론 장치(110)는 제1 학습 데이터(500)의 형태소와 해당 형태소에 대응되는 형태소 벡터를 서로 대응(매핑)시킬 수 있도록 형태소-벡터 변환기(520)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 작성자 메타정보 추론 장치(110)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 형태소-벡터 변환기(520)를 획득할 수 있다.

도 3b를 참조하면, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 음절-벡터 변환기(620)의 생성을 위해 제1 테스트 음절 및 제1 테스트 음절에 대응되는 제1 음절 벡터를 포함하는 복수의 제2 학습 데이터(600)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 음절과 해당 음절에 대응되는 음절 벡터를 포함하는 제2 학습 데이터(600)를 획득할 수 있다. 가령 첫 번째 학습 데이터(610)의 경우, 음절과 음절에 대응되는 음절 벡터(611)를 포함할 수 있다. 이때 어느 하나의 음절 벡터에 대응되는 음절의 수는 단수일 수도 있고, 복수일 수도 있다.

이어서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 수신 및/또는 획득된 제2 학습 데이터(600)에 기초하여 음절-벡터 변환기(620)를 학습시킬 수 있다.

따라서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 제2 학습 데이터(600)의 음절과 해당 음절에 대응되는 음절 벡터를 서로 대응(매핑)시킬 수 있도록 음절-벡터 변환기(620)의 데이터 셋트를 업데이트(Update)하는 방식으로 음절-벡터 변환기(620)를 학습시킬 수 있다.

가령 음절-벡터 변환기(620)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 작성자 메타정보 추론 장치(110)는 제2 학습 데이터(600)의 음절과 해당 음절에 대응되는 음절 벡터를 서로 대응(매핑)시킬 수 있도록 음절-벡터 변환기(620)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 작성자 메타정보 추론 장치(110)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 음절-벡터 변환기(620)를 획득할 수 있다.

한편 도 3c를 참조하면, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 작성자 인식기(720)의 생성을 위해 제2 형태소 벡터, 제2 음절 벡터 및 제2 형태소 벡터와 제2 음절 벡터에 대응되는 메타정보 벡터를 포함하는 복수의 제3 학습 데이터(700)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 형태소 벡터 및 음절 벡터와 이러한 형태소 벡터 및 음절 벡터와 대응되는 메타정보 벡터를 포함하는 학습 데이터를 획득할 수 있다.

이어서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 수신 및/또는 획득된 제3 학습 데이터(700)에 기초하여 작성자 인식기(720)를 학습시킬 수 있다.

따라서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 학습 데이터의 형태소 벡터 및 음절 벡터와 메타정보 벡터를 서로 대응(매핑)시킬 수 있도록 작성자 인식기(720)의 데이터 셋트를 업데이트(Update)하는 방식으로 작성자 인식기(720)를 학습시킬 수 있다.

가령 작성자 인식기(720)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 작성자 메타정보 추론 장치(110)는 학습 데이터의 형태소 벡터 및 음절 벡터와 이에 대응되는 메타정보 벡터를 서로 대응(매핑)시킬 수 있도록 작성자 인식기(720)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 작성자 메타정보 추론 장치(110)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 작성자 인식기(720)를 획득할 수 있다.

이상 서술한 과정에 의해서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠로부터 작성자의 메타정보를 추론하기 위한 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)를 생성 및/또는 학습 시킬 수 있다.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠를 수신할 수 있다.(S62) 이때 텍스트 콘텐츠는 전술한 바와 같이 텍스트 콘텐츠 외에 다양한 종류의 콘텐츠(가령 이미지, 영상 등)를 포함할 수 있다.

한편 텍스트 콘텐츠는 하나의 문장만을 포함할 수도 있고, 복수의 문장을 포함할 수 있다. 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠가 복수의 문장을 포함하는 경우, 이를 복수개의 콘텐츠로 분할하여 작성자의 메타정보를 추론할 수도 있다.

이하에서는 다시 도 5를 참조하여 단계 S63 내지 단계 S66을 설명한다.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠(810)를 하나 이상의 형태소(811)로 분할하고, 분할된 하나 이상의 형태소(811)로부터 형태소 벡터(821)를 결정할 수 있다.(S63)

가령 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠가 '대한민국 평화를 위해서 힘내주세요.'인 경우, '대한민국', '평화를', '위해서', '힘내주세요'와 같이 콘텐츠를 하나 이상의 형태소로 분할하고, 이에 기초하여 형태소 벡터(821)를 결정할 수 있다.

따라서 작성자 메타정보 추론 장치(110)는 형태소-벡터 변환기(520)에 하나 이상의 형태소(811)를 입력하고, 그 결과로써 하나 이상의 형태소(811)와 대응되는 형태소 벡터(821)를 획득할 수 있다.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠(810)를 하나 이상의 음절(812)로 분할하고, 분할된 하나 이상의 음절(812)로부터 음절 벡터(822)를 결정할 수 있다.(S64)

가령 전술한 예시에서와 같이 텍스트 콘텐츠가 '대한민국 평화를 위해서 힘내주세요.'인 경우, 작성자 메타정보 추론 장치(110)는 '대', '한', '민', '국' 등과 같이 콘텐츠를 하나 이상의 음절로 분할하고, 이에 기초하여 음절 벡터(822)를 결정할 수 있다.

따라서 작성자 메타정보 추론 장치(110)는 음절-벡터 변환기(620)에 하나 이상의 음절(812)을 입력하고, 그 결과로써 하나 이상의 음절(812)과 대응되는 음절 벡터(822)를 획득할 수 있다.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 전술한 과정에 의해서 결정된 형태소 벡터(821), 음절 벡터(822) 및 작성자 인식기(720)에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터(830)를 결정할 수 있다.(S65)

따라서 작성자 메타정보 추론 장치(110)는 작성자 인식기(720)에 형태소 벡터(821) 및 음절 벡터(822)를 입력하고, 그 결과로써 형태소 벡터(821) 및 음절 벡터(822)에 대응되는 메타정보 벡터(830)를 획득할 수 있다. 한편 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 형태소 벡터 및 음절 벡터를 병합하여 콘텐츠 벡터를 생성하고, 생성된 콘텐츠 벡터 및 작성자 인식기(720)에 기초하여 메타정보 벡터(830)를 결정할 수도 있다. 이때 벡터를 병합하는 것은 두 벡터의 차원수의 합에 해당하는 새로운 벡터를 생성하는 것을 의미할수도 있고, 소정의 연산을 통해 새로운 차원(두 벡터의 차원수의 합 이하의 차원)의 벡터를 생성하는 것을 의미할 수도 있다.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠를 소정의 단위로 분할하여 생성한 분할 콘텐츠에 대해서도 전술한 일련의 과정(형태소 벡터, 음절 벡터 및 메타정보 벡터를 결정하는 과정)을 동일하게 수행할 수 있다. 바꾸어 말하면, 작성자 메타정보 추론 장치(110)는 하나 이상의 분할 콘텐츠 각각에 대한 형태소 벡터를 결정할 수 있다. 또한 작성자 메타정보 추론 장치(110)는 하나 이상의 분할 콘텐츠 각각에 대한 음절 벡터를 결정할 수 있다. 또한 작성자 메타정보 추론 장치(110)는 하나 이상의 분할 콘텐츠 각각의 형태소 벡터, 하나 이상의 분할 콘텐츠 각각의 음절 벡터 및 작성자 인식기에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터를 결정할 수 있다. 이와 같이 작성자 메타정보 추론 장치(110)는 각 분할 콘텐츠 별 메타정보 벡터를 결정할 수 있다. 한편 이로부터 전체 콘텐츠에 대한 작성자의 메타정보를 결정하는 방법은 후술한다.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 전술한 과정에 의해서 결정된 메타정보 벡터(830)에 기초하여 텍스트 콘텐츠(810) 작성자의 메타정보(840)를 결정할 수 있다.(S66) 이때 콘텐츠 작성자의 메타정보는 작성자의 연령대, 작성자의 성별, 작성자와 관련된 지역, 작성자의 정치성향, 작성자의 학력 및 작성자의 결혼여부 중 적어도 하나를 포함할 수 있다. 물론 상술한 항목들은 예시적인 것으로 어떤 사람의 메타정보로써 사용될 수 있는 항목이라면, 본 발명의 메타정보로써 사용될 수 있다.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 메타정보의 각 항목에 대해서, 각 항목에 대한 복수의 선택지의 확률 형태로 메타정보를 결정할 수 있다. 가령 작성자 메타정보 추론 장치(110)는 복수의 후보 연령대(10대, 20대, 30대, 40대, 50대 이상 등)에 작성자가 속할 확률의 형태로 텍스트 콘텐츠 작성자의 연령대를 결정할 수 있다. 또한 이와 유사하게 작성자 메타정보 추론 장치(110)는 작성자가 남성일 확률 및 작성자가 여성일 확률의 형태로 작성자의 성별을 결정할 수 있다. 다만 전술한 연령대 및 성별 항목은 예시적인 것으로, 본 발명의 사상이 이에 한정되는 것은 아니다.

한편 분할 콘텐츠 각각에 대해 메타정보 벡터를 결정한 경우, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 각각의 분할 콘텐츠에 대한 메타정보를 결정할 수 있다.

이때 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 각각의 분할 콘텐츠에 대한 메타정보를 병합하여 전체 텍스트 콘텐츠에 대한 메타정보를 결정할 수도 있다. 가령 분할 콘텐츠 각각에 대해서 복수의 후보 연령대에 작성자가 속할 확률이 결정된 경우, 작성자 메타정보 추론 장치(110)는 연령대 별 확률의 합(가령 10대에 속할 확률의 합, 20대에 속할 확률의 합 등)으로 전체 텍스트 콘텐츠에 대한 메타정보를 결정할 수 있다. 다만 이는 예시적인것으로 본 발명의 사상이 이에 한정되는 것은 아니다.

도 7은 본 발명의 일 실시예에 따른 사용자 단말(200)의 디스플레이부에 표시되는 화면(900)의 예시이다.

설명의 편의를 위하여, 서버(100)는 사용자가 사용자 단말(200)을 통하여 입력한 텍스트 콘텐츠에 대한 작성자의 메타정보를 제공하는 서비스를 제공하며, 사용자가 사용자 단말(200)을 통하여 서버(100)로 도시된 바와 같은 문구를 전송하였다고 가정한다.

상술한 가정 하여, 본 발명의 일 실시예에 따른 서버(100)는 추론된 콘텐츠 작성자의 메타정보를 사용자 단말(200)에 화면(900)과 같이 제공할 수 있다.

이때 화면(900)은 사용자가 입력한 콘텐츠의 내용이 표시되는 영역(910), 추론된 작성자의 성별이 확률의 형태로 표시되는 영역(920) 및 추론된 작성자의 연령대가 확률의 형태로 표시되는 영역(930)을 포함할 수 있다.

이상 설명된 본 발명에 따른 실시예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 저장하는 것일 수 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다.

한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.

본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

100: 서버
110: 메타정보 추론 장치
111: 통신부
112: 제어부
113: 메모리
200: 사용자 단말
300: 외부장치
400: 통신망

Claims

메타정보 추론 장치가 텍스트 콘텐츠(Text Contents)를 문장 단위로 분할하여 작성자의 메타정보를 추론하는 방법에 있어서,
텍스트 콘텐츠를 수신하는 단계;
상기 텍스트 콘텐츠를 문장 단위로 분할하여 하나 이상의 분할 콘텐츠를 생성하는 단계;
상기 하나 이상의 분할 콘텐츠 각각을 하나 이상의 형태소로 분할하고, 형태소-벡터 변환기에 기초하여 상기 분할된 하나 이상의 형태소로부터 상기 하나 이상의 분할 콘텐츠 각각에 대한 형태소 벡터를 결정하는 단계;
상기 하나 이상의 분할 콘텐츠 각각을 하나 이상의 음절로 분할하고, 음절-벡터 변환기에 기초하여 상기 분할된 하나 이상의 음절로부터 상기 하나 이상의 분할 콘텐츠 각각에 대한 음절 벡터를 결정하는 단계;
상기 하나 이상의 분할 콘텐츠 각각의 형태소 벡터, 상기 하나 이상의 분할 콘텐츠 각각의 음절 벡터 및 작성자 인식기에 기초하여 상기 작성자의 메타정보에 대응되는 메타정보 벡터를 결정하는 단계; 및
상기 결정된 메타정보 벡터에 기초하여 상기 텍스트 콘텐츠 작성자의 메타정보를 결정하는 단계;를 포함하고,
상기 메타정보 벡터를 결정하는 단계는
상기 하나 이상의 분할 콘텐츠 각각에 대한 메타정보 벡터에 기초하여 상기 하나 이상의 분할 콘텐츠 별로 작성자의 메타정보를 결정하는 단계; 및
상기 하나 이상의 분할 콘텐츠 별 작성자의 메타정보에 기초하여 상기 텍스트 콘텐츠 작성자의 메타정보를 결정하는 단계;를 더 포함하고,
상기 형태소-벡터 변환기는
복수의 형태소와 복수의 형태소 벡터 간의 상관관계를 표현한 데이터 세트이고,
상기 음절-벡터 변환기는
복수의 음절과 복수의 음절 벡터 간의 상관관계를 표현한 데이터 세트이고,
상기 작성자 인식기는
복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계를 표현한 데이터 세트인, 작성자의 메타정보를 추론하는 방법.
컴퓨터를 이용하여 제1 항의 방법을 실행하기 위하여 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램.