WO2020111827A1 - Automatic profile generation server and method - Google Patents

Automatic profile generation server and method Download PDF

Info

Publication number
WO2020111827A1
WO2020111827A1 PCT/KR2019/016608 KR2019016608W WO2020111827A1 WO 2020111827 A1 WO2020111827 A1 WO 2020111827A1 KR 2019016608 W KR2019016608 W KR 2019016608W WO 2020111827 A1 WO2020111827 A1 WO 2020111827A1
Authority
WO
WIPO (PCT)
Prior art keywords
profile
information
keywords
keyword
profile information
Prior art date
Application number
PCT/KR2019/016608
Other languages
French (fr)
Korean (ko)
Inventor
정희동
이상범
조민희
김동희
Original Assignee
주식회사 로켓펀치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 로켓펀치 filed Critical 주식회사 로켓펀치
Publication of WO2020111827A1 publication Critical patent/WO2020111827A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • Artificial intelligence technology is being researched and developed in various fields. Recently, artificial intelligence programs that can be useful in real life, such as big data analysis, voice recognition, and language implication recognition, have spread and are used in various smart terminals.
  • the language implication recognition field enables advanced data processing such as interpretation, classification, and inference of language contents included in documents to be performed by an automated system rather than a person.
  • the artificial intelligence technology related to language processing has recently been applied to smart device control and smart home service to make it more convenient to control the smart terminal.
  • Artificial intelligence related to language recognition can be used not only for speech recognition, but also for interpreting recorded language information such as documents, sentences, and word recognition and extracting important information.
  • Profile information managed manually can be automated by creating and updating profile information through language recognition technology.
  • the conventional language recognition technology mainly grasps the meaning of words through morpheme classification and analysis, profile information in which pronouns, foreign words, and new words are frequently used is often recognized incorrectly.
  • profile information that automatically collects various business information such as corporate information, personal information, and book information required by the economic population and is collected in data units, and automatically extracts and processes the automatically collected data in a form convenient for people to utilize Provide a generating server and method.
  • Profile automatic generation server includes a collection module that periodically collects articles including articles, columns, and interviews in a web space including a news site and a blog; A database for storing the collected document and the source and web space information of the document, and storing profile generation information including keywords for generating profile information from the document and tags indicating business information and information categories including keywords; An extraction module that analyzes sentences included in the document from which profile information is to be extracted, extracts keywords, and generates profile preliminary information by tagging tag information, which is profile category information, in each letter constituting the keyword; And a generation module for collecting the extracted profile preliminary information, merging successively tagged texts to generate keywords that are profile information, and classifying keywords and tags to generate profile information. It includes.
  • a method for automatically generating a profile includes (A) the collecting module periodically collecting a document including an article, a column, and an interview in a web space including a news site and a blog; (B) The database stores the collected document and the source and web space information of the document, and stores the profile generation information including keywords for generating profile information from the document and tags indicating business information and information categories containing the keyword. To do; (C) The extraction module analyzes sentences included in the document to extract profile information, extracts keywords, and generates profile preliminary information by tagging tag information, which is profile category information, in each letter constituting the keyword. To do; And (D) generating a module to collect the extracted profile preliminary information, to generate keywords that are profile information by merging successively tagged characters, and to generate profile information by classifying keywords and tags; It includes.
  • the profile information generation server and method according to the embodiment enable automatic and accurate extraction of profile information, which is important information about people, companies, and products from various online contents.
  • the accuracy and speed of profile information extraction can be improved.
  • the reliability of the keyword is calculated so that it is possible to grasp how accurate the specific profile information is.
  • the profile information generation server and method automatically prevents the generation of incorrect profile information and the spread of information by automatically calculating the reliability of the profile information, separating profile data of the same person, and continuously updating the profile information. .
  • FIG. 1 is a diagram showing an approximate data processing block of a profile creation server according to an embodiment.
  • FIG. 2 is a view showing in more detail the data processing block of the profile information generation server according to the embodiment.
  • 3 is a view for explaining the machine learning process of the profile information generation server according to the embodiment
  • FIG. 4 is a view for explaining a process of generating profile information according to an embodiment
  • FIG. 5 is a diagram showing a data processing flow for automatically generating profile information according to an embodiment
  • FIG. 6 is a diagram showing a data processing process for generating profile preliminary information according to an embodiment
  • FIG. 7 is a view for explaining a profile information generation process according to an embodiment
  • Profile automatic generation server includes a collection module that periodically collects articles including articles, columns, and interviews in a web space including a news site and a blog; A database that stores the collected document, the source and web space information of the document, and stores profile generation information including keywords for generating profile information from the document and tags indicating information categories including keywords and business information. ; Extraction module that analyzes sentences included in the document to extract profile information, extracts keywords, and generates profile preliminary information by tagging tag information, which is profile category information, in each letter constituting the keyword; And a generation module for collecting the extracted profile preliminary information, merging successively tagged texts to generate keywords that are profile information, and classifying the keywords and tags to generate profile information. It includes.
  • FIG. 1 is a diagram showing an approximate data processing block of a profile creation server according to an embodiment.
  • the profile generation server may include a collection module 110, a database 130, an extraction module 150, and a generation module 170.
  • the term'module' should be interpreted to include software, hardware, or a combination thereof, depending on the context in which the term is used.
  • the software may be machine language, firmware, embedded code, and application software.
  • the hardware can be a circuit, processor, computer, integrated circuit, integrated circuit core, sensor, micro-electro-mechanical system (MEMS), passive device, or combinations thereof.
  • MEMS micro-electro-mechanical system
  • the collection module 110 periodically collects documents from various web spaces and external servers. For example, the collection module 110 periodically collects document data in which articles, columns, interviews, and the like are recorded in web sites such as news sites, blogs, and various SNS.
  • the database 130 stores a series of data necessary for generating profile information, such as the collected document and the source of the document and web space information and profile creation information.
  • keywords, tags, and the like necessary for generating profile information may be stored in the database 130.
  • keywords are content data representing profile information as words and proper nouns extracted from sentences input to the server.
  • the tag is a category of keyword and profile information, and may be higher information of a specific keyword. For example, when the keyword is'manager', the tag of the'manager' keyword may be'position', and when the keyword is '30', the tag of the '30' keyword may be'age'.
  • the database 130 accumulates and stores keywords and tags and profile information generated by keywords and tags, and updates and stores changed profile information of the same person.
  • the extraction module 150 analyzes sentences included in the document from which profile information is to be extracted, and extracts keywords from the sentences. Subsequently, tag preliminary information is generated by tagging the tags constituting the keyword with tags indicating the profile category information.
  • tag preliminary information is generated by tagging the tags constituting the keyword with tags indicating the profile category information.
  • the representative manager of Elvision, Inc. is a veteran with over 10 years of industry experience' is entered as a server, extracting'Elvision' as a keyword in each letter constituting'Elvision' Add tags.
  • data such as'L_company, non-company, all_company' may be profile preliminary information.
  • the tag information added to the keyword may be selected through other keywords adjacent to the specific keyword, or may be used by loading accumulated keyword tag information in the database.
  • Elvision can recognize the word adjacent to another keyword, Inc., and select tag information added to each word constituting the keyword Elvision as a'company'.
  • the generation module 170 collects the extracted profile preliminary information to generate keywords, and classifies the keywords according to the profile information category. For example, when the same tag is continuously added to each letter, the generation module 170 merges the letters having the same tag to generate a keyword. Specifically, when the company tags appear consecutively, the words'L','B', and'I' tagged with the same tag are respectively collected and merged to generate the keyword'LVI'. Subsequently, the generation module 170 generates and displays profile information classified by sorting keywords according to tag information tagged to the keyword. Continuing the above example, it is possible to generate profile information that classifies keywords and tag information assigned to keywords in the form of'Company: Elvision'.
  • the generation module 170 stores the keyword after generating it, and in the process of merging the tagged words when analyzing new input data, if the merged word is equal to or more than a predetermined percentage, the previously stored keyword is recommended. can do.
  • the generation module 170 continues the letters'L_company, non-company'.
  • the generation module 170 calculates the match rate of the letters and tags constituting the previously stored keyword'Elvision', and when the calculated match rate is above a certain level (reference value),'Elvision' is a keyword corresponding to the company of the profile information. Automatic extraction is possible.
  • the generation module 170 when the generation module 170 recognizes even'Elvy', a matching rate of 66% with the pre-stored keyword'Elvision' is calculated, and thus only tags of 2 letters and 2 letters are recognized and then called'Elvision'.
  • the keyword creation module 170 may automatically recommend the keyword.
  • the reference value of the matching rate for performing automatic keyword recommendation may vary according to the number of characters and tags constituting the pre-stored keyword. For example, in the case of a keyword composed of 3 letters, if the letters and tags are the same as up to 2 letters, 66% of automatically recommending the keyword can be set as a reference value. It is possible to set 60% to automatically recommend keywords as a reference value.
  • FIG. 2 is a view showing in more detail the data processing block of the profile information generation server according to the embodiment
  • FIG. 3 is a view for explaining the machine learning process of the profile information generation server according to the embodiment.
  • the database of the profile information generation server may be composed of a keyword storage unit 131, a tag storage unit 133, a profile preliminary information storage unit 135, the extraction module 150
  • the learning unit 151, the extraction unit 153 and the tagging unit 155 may be configured, and the generation module 170 may include a generation unit 171, a classification unit 173, and an output unit 175.
  • the calculation module 190 may be configured to include a counting unit 191 and the calculation unit 193.
  • the tag storage unit 133 stores detailed item information of the profile information.
  • the tag storage unit stores category information constituting profile information such as job, age, date of birth, affiliation, institution, position, career, peculiarity, address, job, annual sales.
  • the profile preliminary information storage unit 135 stores profile preliminary information tagged with letters constituting a keyword.
  • the learning unit 151 of the extraction module 150 analyzes the meaning of the words included in the sentence and the location information in the sentence of the word to infer the meaning and correlation between words, and machine learning to extract profile preliminary information To perform.
  • a model of machine learning may be trained to enable Named Entity Recognition (hereinafter NER).
  • NER Named Entity Recognition
  • the generation module 170 may use tagging information of letters adjacent to a specific letter to correct the tagging error of the specific letter constituting the word. For example, as a result of analyzing the remaining tags excluding'last name' and'first name' in the input sentence, when two or more consecutive tags do not appear, the generation module 170 displays the tags of the surrounding letters that are the first letter and the last letter of the specific letter. Recognize. If the tags of the front and back letters, which are the recognized surrounding letters, are the same type of tag, the tags of the specific letters, which are intermediate letters, are changed to the same tags as the tags of the front letters and the back letters. Afterwards, a keyword including the text with the changed tag is generated.
  • the generation module 170 may change B to tag1 and recognize'ABCDE' as tag1. Through this, it is possible to lower the error rate of profile generation due to tagging error.
  • the extraction module receives profile pre-word data tagged with keywords and classifications from the database. Thereafter, a model for profile information is generated through a training process using the transmitted data.
  • various neural networks including LSTM (RNN) and CNN may be used. Subsequently, prediction on a new input is performed based on the generated model. That is, the extraction unit 151 automatically extracts keywords when a document is input according to the result of machine learning.
  • the tagging unit 155 assigns a tag indicating the category or metadata of the keyword to each letter included in the extracted keyword. In an embodiment, when another word adjacent to the keyword is a tag indicating profile category information, it may be added to each letter of the keyword.
  • the generation module 170 collects keywords tagged to each letter from the extraction module 150 and continuously merges the tagged text to generate keywords that are profile information. Thereafter, the classification unit 173 classifies the generated keyword according to the profile information category indicated by the keyword. For example, the classification unit 172 may classify according to tag information given to keywords.
  • the output unit 175 displays profile information in which keywords are sorted according to tag information.
  • the calculation module 191 may calculate profile importance according to the number of times keywords and tags are extracted from the collected document, and when a specific keyword is extracted from the profile information of the same person, reliability of the extracted keyword may be calculated. To this end, the counting unit 191 counts the number of times keywords and tags have been extracted, and the calculating unit 193 calculates keyword reliability proportional to the same keyword counting number for the same person.
  • the generation module 170 may independently generate and manage profile information for the same person, or update the profile for the same person when the profile is changed.
  • the generation module 170 compares the names in the generated profile information, and if the names are the same, compares the profile information of other categories other than the names, and if the same profile information other than the same name does not exist, a new name for the person with the same name Profile information can be created. In addition, in the embodiment, the generation module 170 may determine whether the generated profile information is the same person's profile according to a result of comparing unique information such as age and date of birth from profile information generated with the same name. If the name and unique information match, profile information of different categories is compared, and if other profile information exists, the previous profile can be updated according to the time when the profile information was generated.
  • FIG. 4 is a view for explaining a learning process of the profile information generation server and learning data of the profile information generation server according to the embodiment.
  • profile preliminary information when profile preliminary information is generated by tagging each letter, a keyword is generated by merging the letters with the same tag information consecutively, and the tag tagged to the keyword is divided into keyword category information, and b of FIG. You can create profile information such as
  • a word resulting from the use of a morpheme analyzer is generally used as a semantic unit. If the above sentence is used as the input of a morpheme analyzer,'image science' or'representative' can be selected as a word, and tags such as'major' and'position' can be assigned to the word.
  • tags such as'major' and'position' can be assigned to the word.
  • the method of tagging the morpheme is likely to generate inaccurate profile information because a proper noun, a company name with many new words, and a name are not recognized. Since the profile generation server according to the embodiment generates tag information by tagging every letter without using a morpheme analyzer, it is possible to accurately recognize important profile information such as foreign words, company names or names with many new words or proper nouns. To make.
  • FIG. 5 is a diagram illustrating a data processing flow for automatically generating profile information according to an embodiment.
  • step S510 the collection module periodically collects articles including articles, columns, and interviews from a web space including news sites and blogs on the profile auto-generation server.
  • step S530 the document is collected in a database, and the source and web space information of the document are stored, and profile generation information including a keyword for generating profile information from the document and a tag indicating a category of information including a business information and keywords is generated. To save.
  • step S550 the extraction module analyzes sentences included in the document to extract the profile information, extracts keywords from the sentences, and generates profile preliminary information by tagging profile category information in letters constituting the keyword. .
  • step S570 the generation module collects the extracted profile preliminary information, classifies the keywords according to the profile information category, generates the profile words by merging consecutively tagged letters, and collects keywords and profile words to generate profile information. .
  • step S590 display profile information is displayed according to the category of keywords and profile words.
  • FIG. 6 is a diagram illustrating a data processing process for generating profile preliminary information according to an embodiment.
  • step S551 semantic analysis of the words included in the sentence and location information in the sentence of the word are grasped to infer the semantic relationship and correlation between words, and machine learning is performed to extract profile preliminary information.
  • step S553 keywords are extracted from the input document according to the result of the machine learning.
  • step S555 profile preliminary information is generated to indicate profile information that assigns a tag indicating a category or metadata of the keyword to each letter included in the extracted keyword.
  • FIG. 7 is a view for explaining a process of generating profile information according to an embodiment.
  • the server says, “Jun Jeon Joon of the game board of a professional game board that has been over 10 years now is a person pioneering the field of domestic and global game casters.”
  • the server separates the words constituting the sentence and the letters constituting the word according to the spacing.
  • a tag is added to a letter that can indicate profile information.
  • the title tag is assigned to the letter'crab' constituting the keyword'gamecaster', and the gender tag is assigned to the letter'before' constituting the keyword'dedicated'.
  • profile preliminary information is generated by tagging each letter
  • a keyword is generated by merging the letters with the same tag information consecutively, and the tag tagged to the keyword is divided into keyword category information, and the profile shown in FIG. Information can be generated.
  • the profile information generation server and method according to the embodiment enable automatic and accurate extraction of profile information, which is important effective information about people, companies, and products from various online contents.
  • the profile information generation server and method automatically prevents the generation of incorrect profile information and the spread of information by automatically calculating the reliability of the profile information, separating profile data of the same person, and continuously updating the profile information. .

Abstract

Disclosed are an automatic profile generation server and method. An automatic profile generation server according to an embodiment includes: a collection module which periodically collects documents, including articles, columns, and interviews, in a web space including news sites and blogs; a database which stores the collected documents, the sources of the documents, and web space information, and stores profile generation information including keywords for generating profile information from the documents, and tags representing information categories in which business information and the keywords are included; an extraction module which analyzes sentences included in a document from which profile information is to be extracted, extracts keywords, tags each of the letters constituting the keywords with tag information which is profile category information, and generates profile reserve information; and a generation module which collects the extracted profile reserve information, merges continuously tagged letters to generate keywords that are pieces of the profile information, and separates the keywords from the tags to generate the profile information.

Description

프로필 자동생성서버 및 방법 Profile auto-generation server and method
프로필 자동생성서버와 방법에 관한 것으로 구체적으로, 온라인에서 수집할 수 있는 기사, 칼럼 등의 문서를 입력하면 입력된 문서에서 프로필 정보가 항목에 따라 자동 정렬되어 출력되는 프로필 정보 자동 생성 서버 및 방법에 관한 것이다. It is related to the automatic server and method for profile creation. Specifically, if a document such as an article or column that can be collected online is entered, the profile information is automatically sorted according to the item and output automatically. It is about.
본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.Unless otherwise indicated herein, the content described in this section is not prior art to the claims of this application and is not admitted to be prior art by inclusion in this section.
인공지능기술은 다양한 분야에서 연구 개발되고 있다. 최근에는 빅데이터분석, 음성인식, 언어함의인식 등 실생활에서 유용하게 이용될 수 있는 인공지능 프로그램이 확산되어 다양한 스마트 단말에서 이용되고 있다. Artificial intelligence technology is being researched and developed in various fields. Recently, artificial intelligence programs that can be useful in real life, such as big data analysis, voice recognition, and language implication recognition, have spread and are used in various smart terminals.
인공지능기술의 다양한 분야 중 언어함의인식 분야는, 문서에 포함된 언어 컨텐츠의 해석, 분류, 추론과 같은 고급데이터처리를 사람이 아닌 자동화 시스템으로 수행할 수 있도록 한다. 언어 처리와 관련된 인공지능 기술은 최근 스마트기기제어 및 스마트 홈 서비스 등에 적용되어 더욱 편리하게 스마트 단말을 제어할 수 있도록 한다. 언어인식과 관련된 인공지능은 음성인식뿐만 아니라 문서, 문장, 단어 인식 등 기록된 언어 정보를 해석하고, 중요 정보를 추출하는 과정에도 이용될 수 있다. Among the various fields of artificial intelligence technology, the language implication recognition field enables advanced data processing such as interpretation, classification, and inference of language contents included in documents to be performed by an automated system rather than a person. The artificial intelligence technology related to language processing has recently been applied to smart device control and smart home service to make it more convenient to control the smart terminal. Artificial intelligence related to language recognition can be used not only for speech recognition, but also for interpreting recorded language information such as documents, sentences, and word recognition and extracting important information.
특히, 기술 발전으로 경제 인구가 찾고 활용하는 기업 정보, 인물 정보 등이 온라인 상에 많이 생성되었고, 기사, 칼럼, 인터뷰 등 많은 사람들의 정보를 담고 있는 디지털 콘텐츠가 시시각각 생성되고 있다. 이러한 콘텐츠는 여러 곳에 흩어져 있기 때문에, 사용자들은 온라인 검색 서비스 혹은 오프라인 자료 등을 활용하여 수동으로 필요한 정보를 직접 찾아 활용하고 있다. 혹은 언론사 등 각 카테고리 정보를 많이 수집하고 있는 기관은 인물 정보 등을 수동으로 생성하고 업데이트 하는 노력을 통해 정보를 유통하고 있다.In particular, with the development of technology, a lot of corporate information and personal information that the economic population finds and utilizes has been created online, and digital content that contains information of many people, such as articles, columns, and interviews, is being created every time. Since these contents are scattered in various places, users are using online search services or offline materials to manually find and use necessary information. Or, organizations that collect a lot of information on each category, such as the media, distribute information through efforts to manually create and update personal information.
수동으로 관리하는 프로필 정보는 언어인식 기술을 통해 프로필 정보 생성 및 업데이트를 자동화 할 수 있다. 하지만, 종래 언어인식기술은 주로 형태소 분류 및 분석을 통해 단어의 의미를 파악하기 때문에, 고유명사, 외래어 및 새로운 단어가 많이 쓰이는 프로필 정보는 부정확하게 인식되는 경우가 많다. Profile information managed manually can be automated by creating and updating profile information through language recognition technology. However, since the conventional language recognition technology mainly grasps the meaning of words through morpheme classification and analysis, profile information in which pronouns, foreign words, and new words are frequently used is often recognized incorrectly.
실시예에서는 경제 인구가 필요로 하고 즐겨 찾는 기업 정보, 인물 정보, 저서 정보 등 다양한 비즈니스 정보를 데이터 단위로 자동 수집하고, 자동 수집된 데이터를 사람들이 활용하기 편리한 형태로 자동 추출 및 가공하는 프로필 정보생성 서버 및 방법을 제공한다.In the embodiment, profile information that automatically collects various business information such as corporate information, personal information, and book information required by the economic population and is collected in data units, and automatically extracts and processes the automatically collected data in a form convenient for people to utilize Provide a generating server and method.
실시예에 따른 프로필 자동생성 서버는 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 수집모듈; 수집된 문서와 문서의 출처 및 웹 공간정보를 저장하고, 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 데이터베이스; 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 추출모듈; 및 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 키워드와 태그를 분류하여 프로필 정보를 생성하는 생성모듈; 을 포함한다.Profile automatic generation server according to an embodiment includes a collection module that periodically collects articles including articles, columns, and interviews in a web space including a news site and a blog; A database for storing the collected document and the source and web space information of the document, and storing profile generation information including keywords for generating profile information from the document and tags indicating business information and information categories including keywords; An extraction module that analyzes sentences included in the document from which profile information is to be extracted, extracts keywords, and generates profile preliminary information by tagging tag information, which is profile category information, in each letter constituting the keyword; And a generation module for collecting the extracted profile preliminary information, merging successively tagged texts to generate keywords that are profile information, and classifying keywords and tags to generate profile information. It includes.
다른 실시예에 따른 프로필 자동생성 방법은 (A) 수집모듈은 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 단계; (B) 데이터베이스는 수집된 문서와 문서의 출처 및 웹 공간정보를 저장하고, 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 단계; (C) 추출모듈은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 단계; 및 (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 를 포함한다.A method for automatically generating a profile according to another embodiment includes (A) the collecting module periodically collecting a document including an article, a column, and an interview in a web space including a news site and a blog; (B) The database stores the collected document and the source and web space information of the document, and stores the profile generation information including keywords for generating profile information from the document and tags indicating business information and information categories containing the keyword. To do; (C) The extraction module analyzes sentences included in the document to extract profile information, extracts keywords, and generates profile preliminary information by tagging tag information, which is profile category information, in each letter constituting the keyword. To do; And (D) generating a module to collect the extracted profile preliminary information, to generate keywords that are profile information by merging successively tagged characters, and to generate profile information by classifying keywords and tags; It includes.
실시예에 따른 프로필 정보생성서버 및 방법은 다양한 온라인 컨텐츠에서 인물, 기업, 제품에 관한 중요정보인 프로필 정보를 자동으로 정확하게 추출할 수 있도록 한다. The profile information generation server and method according to the embodiment enable automatic and accurate extraction of profile information, which is important information about people, companies, and products from various online contents.
머신러닝을 통해 추출된 프로필 데이터가 누적될수록 프로필 정보추출 정확도 및 속도를 향상 시킬 수 있도록 한다. 또한, 동일인의 프로필 정보에 포함된 특정 키워드가 반복적으로 추출되는 경우, 키워드에 대한 신뢰도를 산출하여 특정 프로필 정보가 얼마나 정확한지 파악할 수 있도록 한다.As the profile data extracted through machine learning accumulates, the accuracy and speed of profile information extraction can be improved. In addition, when a specific keyword included in the profile information of the same person is repeatedly extracted, the reliability of the keyword is calculated so that it is possible to grasp how accurate the specific profile information is.
실시예에 따른 프로필 정보생성서버 및 방법은 프로필 정보의 신뢰도 연산, 동명이인의 프로필 데이터 분리 및 지속적인 프로필 정보의 업데이트를 자동으로 수행함으로써, 부정확한 프로필 정보의 생성 및 정보 확산을 막을 수 있도록 한다. The profile information generation server and method according to an embodiment automatically prevents the generation of incorrect profile information and the spread of information by automatically calculating the reliability of the profile information, separating profile data of the same person, and continuously updating the profile information. .
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.It should be understood that the effects of the present invention are not limited to the above-described effects, and include all effects that can be deduced from the configuration of the invention described in the detailed description or claims of the present invention.
도 1은 실시예에 따른 프로필 생성 서버의 대략적인 데이터 처리블록을 나타낸 도면1 is a diagram showing an approximate data processing block of a profile creation server according to an embodiment.
도 2는 실시예에 따른 프로필 정보생성서버의 데이터 처리 블록을 보다 상세하게 나타낸 도면2 is a view showing in more detail the data processing block of the profile information generation server according to the embodiment.
도 3은 실시예에 따른 프로필 정보 생성 서버의 머신러닝 과정을 설명하기 위한 도면3 is a view for explaining the machine learning process of the profile information generation server according to the embodiment
도 4는 실시예에 따른 프로필 정보 생성 과정을 설명하기 위한 도면4 is a view for explaining a process of generating profile information according to an embodiment
도 5는 실시예에 따른 프로필 정보 자동생성을 위한 데이터 처리 흐름을 나타낸 도면5 is a diagram showing a data processing flow for automatically generating profile information according to an embodiment
도 6은 실시예에 따른 프로필 예비정보 생성을 위한 데이터 처리과정을 나타낸 도면 6 is a diagram showing a data processing process for generating profile preliminary information according to an embodiment
도 7은 실시예에 따른 프로필 정보 생성 과정을 설명하기 위한 도면7 is a view for explaining a profile information generation process according to an embodiment
실시에에 따른 프로필 자동생성 서버는 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 수집모듈; 상기 수집된 문서와 상기 문서의 출처 및 웹 공간정보를 저장하고, 상기 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 데이터베이스;프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 추출모듈; 및 상기 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 생성모듈; 을 포함한다.Profile automatic generation server according to the implementation includes a collection module that periodically collects articles including articles, columns, and interviews in a web space including a news site and a blog; A database that stores the collected document, the source and web space information of the document, and stores profile generation information including keywords for generating profile information from the document and tags indicating information categories including keywords and business information. ; Extraction module that analyzes sentences included in the document to extract profile information, extracts keywords, and generates profile preliminary information by tagging tag information, which is profile category information, in each letter constituting the keyword; And a generation module for collecting the extracted profile preliminary information, merging successively tagged texts to generate keywords that are profile information, and classifying the keywords and tags to generate profile information. It includes.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.Advantages and features of the present invention, and methods for achieving them will be clarified with reference to embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only the embodiments allow the disclosure of the present invention to be complete, and common knowledge in the technical field to which the present invention pertains. It is provided to fully inform the holder of the scope of the invention, and the invention is only defined by the scope of the claims. The same reference numerals refer to the same components throughout the specification.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing embodiments of the present invention, when it is determined that a detailed description of known functions or configurations may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted. In addition, terms to be described later are terms defined in consideration of functions in an embodiment of the present invention, which may vary according to a user's or operator's intention or practice. Therefore, the definition should be made based on the contents throughout this specification.
도 1은 실시예에 따른 프로필 생성 서버의 대략적인 데이터 처리블록을 나타낸 도면이다.1 is a diagram showing an approximate data processing block of a profile creation server according to an embodiment.
도 1을 참조하면, 실시예에 따른 프로필 생성서버는 수집모듈(110), 데이터베이스(130), 추출모듈(150) 및 생성모듈(170)을 포함하여 구성될 수 있다. Referring to FIG. 1, the profile generation server according to the embodiment may include a collection module 110, a database 130, an extraction module 150, and a generation module 170.
본 명세서에서 사용되는 '모듈' 이라는 용어는 용어가 사용된 문맥에 따라서, 소프트웨어, 하드웨어 또는 그 조합을 포함할 수 있는 것으로 해석되어야 한다. 예를 들어, 소프트웨어는 기계어, 펌웨어(firmware), 임베디드코드(embedded code), 및 애플리케이션 소프트웨어일 수 있다. 또 다른 예로, 하드웨어는 회로, 프로세서, 컴퓨터, 집적 회로, 집적 회로 코어, 센서, 멤스(MEMS; Micro-Electro-Mechanical System), 수동 디바이스, 또는 그 조합일 수 있다.As used herein, the term'module' should be interpreted to include software, hardware, or a combination thereof, depending on the context in which the term is used. For example, the software may be machine language, firmware, embedded code, and application software. As another example, the hardware can be a circuit, processor, computer, integrated circuit, integrated circuit core, sensor, micro-electro-mechanical system (MEMS), passive device, or combinations thereof.
수집모듈(110)은 여러 웹 공간 및 외부서버에서 문서를 주기적으로 수집한다. 예컨대, 수집모듈(110)은 뉴스사이트, 블로그 및 각종 SNS 등의 웹 공간에서 기사, 칼럼, 인터뷰 등이 기록된 문서 데이터를 주기적으로 수집한다.The collection module 110 periodically collects documents from various web spaces and external servers. For example, the collection module 110 periodically collects document data in which articles, columns, interviews, and the like are recorded in web sites such as news sites, blogs, and various SNS.
데이터베이스(130)는 수집된 문서와 문서의 출처 및 웹 공간 정보와 프로필 생성 정보 등 프로필 정보 생성을 위해 필요한 일련의 데이터를 저장한다. 예컨대, 데이터베이스(130)에는 프로필 정보 생성에 필요한 키워드, 태그 등이 저장될 수 있다. 실시예에서 키워드는 서버에 입력되는 문장에서 추출한 단어와 고유명사로서, 프로필 정보를 나타내는 컨텐츠 데이터이다. 태그는 키워드 및 프로필 정보의 카테고리로서, 특정 키워드의 상위정보가 될 수 있다. 예컨대, 키워드가 '부장' 인 경우, '부장' 키워드의 태그는 '직책'이 될 수 있고, 키워드가 '30세' 인 경우 '30세' 키워드의 태그는 '나이' 가 될 수 있다. 데이터베이스(130)에는 키워드와 태그 및 키워드와 태그로 생성된 프로필 정보가 누적 저장되고, 동일한 인물의 변경되는 프로필 정보는 업데이트하여 저장한다. The database 130 stores a series of data necessary for generating profile information, such as the collected document and the source of the document and web space information and profile creation information. For example, keywords, tags, and the like necessary for generating profile information may be stored in the database 130. In an embodiment, keywords are content data representing profile information as words and proper nouns extracted from sentences input to the server. The tag is a category of keyword and profile information, and may be higher information of a specific keyword. For example, when the keyword is'manager', the tag of the'manager' keyword may be'position', and when the keyword is '30', the tag of the '30' keyword may be'age'. The database 130 accumulates and stores keywords and tags and profile information generated by keywords and tags, and updates and stores changed profile information of the same person.
추출모듈(150)은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 문장들에서 키워드를 추출한다. 이후, 키워드를 구성하는 글자에 프로필 카테고리 정보를 나타내는 태그를 태깅(tagging)하여 프로필 예비정보를 생성한다. 실시예에서 서버로 '주식회사 엘비전의 백현아 대표매니저는 업계경력이 10년이상인 베테랑이다' 라는 문장이 입력된 경우, 키워드로 '엘비전'을 추출하면 '엘비전'을 구성하는 글자 하나하나에 태그를 부가한다. 구체적으로, '엘_회사, 비_회사, 전_회사' 와 같은 형태의 데이터가 프로필 예비정보가 될 수 있다. 실시예에서 키워드에 부가되는 태그정보는 특정 키워드와 인접한 다른 키워드를 통해 선정하거나, 데이터베이스에 누적 학습된 키워드 태그정보를 로딩하여 이용할 수 있다. 앞의 예를 이어 설명하면, 엘비전은 인접한 다른 키워드인 주식회사 라는 단어를 인식하여 엘비전 이라는 키워드를 구성하는 각 단어에 부가되는 태그정보를 '회사'로 선정할 수 있다.The extraction module 150 analyzes sentences included in the document from which profile information is to be extracted, and extracts keywords from the sentences. Subsequently, tag preliminary information is generated by tagging the tags constituting the keyword with tags indicating the profile category information. In the embodiment, if the sentence'Baek Hyun-a, the representative manager of Elvision, Inc. is a veteran with over 10 years of industry experience' is entered as a server, extracting'Elvision' as a keyword in each letter constituting'Elvision' Add tags. Specifically, data such as'L_company, non-company, all_company' may be profile preliminary information. In an embodiment, the tag information added to the keyword may be selected through other keywords adjacent to the specific keyword, or may be used by loading accumulated keyword tag information in the database. Continuing from the previous example, Elvision can recognize the word adjacent to another keyword, Inc., and select tag information added to each word constituting the keyword Elvision as a'company'.
생성모듈(170)은 추출된 프로필 예비정보를 수집하여 키워드를 생성하고, 키워드는 프로필 정보 카테고리에 따라 분류한다. 예컨대 생성모듈(170)은 동일한 태그가 연속으로 각 글자에 부가된 경우, 동일한 태그를 가지고 있는 글자들을 병합하여 키워드를 생성한다. 구체적으로 회사 태그가 연속되어 나타나는 경우, 동일한 태그가 태깅된 '엘','비','전' 이라는 단어를 각각 수집하고 이를 병합하여 '엘비전' 이라는 키워드를 생성한다. 이후 생성모듈(170)은 키워드를 키워드에 태깅된 태그 정보에 따라 분류 정렬한 프로필 정보를 생성하고 이를 디스플레이 한다. 위의 예시를 이어 설명하면, '회사: 엘비전' 이라는 형태로 키워드와 키워드에 부여된 태그정보를 분류한 프로필 정보를 생성해 낼 수 있다. The generation module 170 collects the extracted profile preliminary information to generate keywords, and classifies the keywords according to the profile information category. For example, when the same tag is continuously added to each letter, the generation module 170 merges the letters having the same tag to generate a keyword. Specifically, when the company tags appear consecutively, the words'L','B', and'I' tagged with the same tag are respectively collected and merged to generate the keyword'LVI'. Subsequently, the generation module 170 generates and displays profile information classified by sorting keywords according to tag information tagged to the keyword. Continuing the above example, it is possible to generate profile information that classifies keywords and tag information assigned to keywords in the form of'Company: Elvision'.
또한, 실시예에서 생성모듈(170)은 키워드 생성 후 이를 저장하고, 새로운 입력데이터 분석 시 태깅된 단어를 병합하는 과정에서 병합된 단어가 기 저장된 키워드와 일정비율이상 동일한 경우, 기 저장된 키워드를 추천할 수 있다. 위의 예를 이어 설명하면, 프로필 생성서버(100)가 '엘비전'이라는 회사이름 키워드를 생성하고 기 저장한 경우, 생성모듈(170)이 '엘_회사, 비_회사' 라는 연속된 글자를 입력 받으면, 기 저장된 '엘비전' 이라는 키워드를 구성하는 글자 및 태그의 일치율을 산출하고, 산출된 일치율이 일정수준(기준값) 이상인 경우, '엘비전'을 프로필 정보의 회사에 해당하는 키워드로 자동 추출할 수 있다. 실시예에서는 생성모듈(170)이 '엘비'까지 인식하면 '엘비전'이라는 기 저장된 키워드와 66%의 일치율이 산출되므로, 2개의 글자와 2개 글자의 태그까지만 인식한 후 '엘비전' 이라는 키워드를 생성모듈(170)이 자동 추천할 수 있다. 실시예에서 키워드 자동추천을 수행하는 일치 율의 기준값은 기 저장된 키워드를 구성하는 글자수와 태그 수에 따라 달라질 수 있다. 예컨대, 3글자로 구성된 키워드의 경우 2개의 글자까지 글자와 태그가 동일하면 키워드를 자동 추천하는 66% 를 기준값으로 설정할 수 있고, 5글자로 구성된 키워드의 경우 3글자까지 글자와 태그정보가 동일하면 키워드를 자동 추천하는 60%를 기준값으로 설정할 수 있다. In addition, in the embodiment, the generation module 170 stores the keyword after generating it, and in the process of merging the tagged words when analyzing new input data, if the merged word is equal to or more than a predetermined percentage, the previously stored keyword is recommended. can do. Continuing the above example, if the profile creation server 100 generates a company name keyword'Elvision' and has already saved it, the generation module 170 continues the letters'L_company, non-company'. Upon input, calculates the match rate of the letters and tags constituting the previously stored keyword'Elvision', and when the calculated match rate is above a certain level (reference value),'Elvision' is a keyword corresponding to the company of the profile information. Automatic extraction is possible. In the embodiment, when the generation module 170 recognizes even'Elvy', a matching rate of 66% with the pre-stored keyword'Elvision' is calculated, and thus only tags of 2 letters and 2 letters are recognized and then called'Elvision'. The keyword creation module 170 may automatically recommend the keyword. In an embodiment, the reference value of the matching rate for performing automatic keyword recommendation may vary according to the number of characters and tags constituting the pre-stored keyword. For example, in the case of a keyword composed of 3 letters, if the letters and tags are the same as up to 2 letters, 66% of automatically recommending the keyword can be set as a reference value. It is possible to set 60% to automatically recommend keywords as a reference value.
도 2는 실시예에 따른 프로필 정보생성서버의 데이터 처리 블록을 보다 상세하게 나타낸 도면이고 도 3은 실시예에 따른 프로필 정보 생성 서버의 머신러닝 과정을 설명하기 위한 도면이다. 2 is a view showing in more detail the data processing block of the profile information generation server according to the embodiment, and FIG. 3 is a view for explaining the machine learning process of the profile information generation server according to the embodiment.
도 2를 참조하면, 실시예에 따른 프로필 정보생성 서버의 데이터베이스는 키워드 저장부(131), 태그저장부(133), 프로필 예비정보 저장부(135)로 구성될 수 있고, 추출모듈(150)은 학습부(151), 추출부(153) 및 태깅부(155)를 포함하여 구성될 수 있고, 생성모듈(170)은 생성부(171), 분류부(173) 및 출력부(175)를 포함하여 구성될 수 있고, 연산모듈(190)은 카운팅부(191) 및 연산부(193)를 포함하여 구성될 수 있다.Referring to Figure 2, the database of the profile information generation server according to the embodiment may be composed of a keyword storage unit 131, a tag storage unit 133, a profile preliminary information storage unit 135, the extraction module 150 The learning unit 151, the extraction unit 153 and the tagging unit 155 may be configured, and the generation module 170 may include a generation unit 171, a classification unit 173, and an output unit 175. It may be configured to include, the calculation module 190 may be configured to include a counting unit 191 and the calculation unit 193.
데이터베이스의 키워드 저장부(131)에는 프로필 정보가 되는 고유명사와 단어가 분류되어 저장된다. 태그 저장부(133)에는 프로필 정보의 세부 항목 정보가 저장된다. 예컨대 태그 저장부에는 직업, 나이, 생년월일, 소속, 기관, 직책, 경력, 특이사항, 주소, 직장, 연매출 등 프로필 정보를 구성하는 카테고리 정보들이 저장된다. 프로필 예비정보 저장부(135)는 키워드를 구성하는 글자에 태그가 부가된 프로필 예비정보가 저장된다. In the keyword storage unit 131 of the database, proper nouns and words as profile information are classified and stored. The tag storage unit 133 stores detailed item information of the profile information. For example, the tag storage unit stores category information constituting profile information such as job, age, date of birth, affiliation, institution, position, career, peculiarity, address, job, annual sales. The profile preliminary information storage unit 135 stores profile preliminary information tagged with letters constituting a keyword.
추출모듈(150)의 학습부(151)는 문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 추출하기 위한 머신러닝을 수행한다. 실시예에서는 Named Entity Recognition(이하 NER)을 가능하게 하기 위해 기계학습의 모델을 학습할 수 있다. The learning unit 151 of the extraction module 150 analyzes the meaning of the words included in the sentence and the location information in the sentence of the word to infer the meaning and correlation between words, and machine learning to extract profile preliminary information To perform. In an embodiment, a model of machine learning may be trained to enable Named Entity Recognition (hereinafter NER).
실시예에서, 생성모듈(170)은 단어를 구성하는 특정글자의 태깅오류를 수정하기 위해 특정글자에 인접한 글자의 태깅정보를 이용할 수 있다. 예컨대, 입력된 문장에서 '성'과 '명'을 제외한 나머지 태그 분석결과, 연속된 태그가 2개 이상 나오지 않는 경우 생성모듈(170)은 특정글자의 앞 글자와 뒤 글자인 주변 글자들의 태그를 인식한다. 인식된 주변글자들인 앞 글자와 뒤 글자의 태그가 동일 종류의 태그인 경우 중간글자인 특정글자의 태그를 앞글자 및 뒤글자의 태그와 동일한 태그로 변경한다. 이후, 태그가 변경된 글자까지 포함한 키워드를 생성한다. 구체적으로 생성모듈(170)은 A_tag1, B_tag2, C_tag1, D_tag1, E_tag1 인 경우 B를 tag1으로 변경하고 'ABCDE'를 tag1으로 인식할 수 있다. 이를 통해, 태깅 오류로 인한 프로필 생성의 에러율을 낮출 수 있다. In an embodiment, the generation module 170 may use tagging information of letters adjacent to a specific letter to correct the tagging error of the specific letter constituting the word. For example, as a result of analyzing the remaining tags excluding'last name' and'first name' in the input sentence, when two or more consecutive tags do not appear, the generation module 170 displays the tags of the surrounding letters that are the first letter and the last letter of the specific letter. Recognize. If the tags of the front and back letters, which are the recognized surrounding letters, are the same type of tag, the tags of the specific letters, which are intermediate letters, are changed to the same tags as the tags of the front letters and the back letters. Afterwards, a keyword including the text with the changed tag is generated. Specifically, in the case of A_tag1, B_tag2, C_tag1, D_tag1, and E_tag1, the generation module 170 may change B to tag1 and recognize'ABCDE' as tag1. Through this, it is possible to lower the error rate of profile generation due to tagging error.
도 3을 참조하여, 추출모듈의 머신러닝과정을 설명하면, 추출모듈은 데이터베이스에서 키워드와 분류가 태깅된 프로필 예비단어 데이터를 전달 받는다. 이후 전달된 데이터로 학습(training)과정을 거쳐 프로필 정보에 대한 모델 (model)을 생성한다. 실시예에서는 LSTM(RNN)이나 CNN을 비롯한 다양한 Neural Network를 사용할 수 있다. 이후, 생성된 모델을 바탕으로 새로운 입력에 대한 예측(prediction)을 수행한다. 즉 추출부(151)는 머신러닝 결과에 따라 문서를 입력 받으면 자동으로 키워드를 추출하게 된다. Referring to FIG. 3, when the machine learning process of the extraction module is described, the extraction module receives profile pre-word data tagged with keywords and classifications from the database. Thereafter, a model for profile information is generated through a training process using the transmitted data. In an embodiment, various neural networks including LSTM (RNN) and CNN may be used. Subsequently, prediction on a new input is performed based on the generated model. That is, the extraction unit 151 automatically extracts keywords when a document is input according to the result of machine learning.
태깅부(155)는 추출된 키워드에 포함된 글자 각각에 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여한다. 실시예에서는 키워드와 인접한 다른 단어가 프로필 카테고리 정보를 나타내는 태그일 경우, 이를 키워드의 각 글자에 부가할 수 있다.The tagging unit 155 assigns a tag indicating the category or metadata of the keyword to each letter included in the extracted keyword. In an embodiment, when another word adjacent to the keyword is a tag indicating profile category information, it may be added to each letter of the keyword.
생성모듈(170)은 추출모듈(150)로부터 글자 각각에 태그가 부여된 키워드를 수집하고, 연속적으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성한다. 이후 분류부(173)는 생성된 키워드를 키워드가 나타내는 프로필 정보 카테고리에 따라 분류한다. 예컨대 분류부(172)는 키워드에 부여된 태그정보에 따라 분류할 수 있다. The generation module 170 collects keywords tagged to each letter from the extraction module 150 and continuously merges the tagged text to generate keywords that are profile information. Thereafter, the classification unit 173 classifies the generated keyword according to the profile information category indicated by the keyword. For example, the classification unit 172 may classify according to tag information given to keywords.
출력부(175)는 키워드를 태그정보에 따라 정렬한 프로필 정보를 디스플레이 한다.The output unit 175 displays profile information in which keywords are sorted according to tag information.
연산모듈(191)은 수집된 문서에서 키워드와 태그가 추출된 횟수에 따라 프로필 중요도를 산출하고, 동일인물의 프로필 정보로 특정 키워드가 추출되는 경우, 추출된 키워드에 대한 신뢰도를 산출할 수 있다. 이를 위해 카운팅부(191)는 키워드와 태그가 추출된 횟수를 카운팅하고, 연산부(193)는 동일한 인물에 대한 동일 키워드 카운팅 횟수에 비례하는 키워드 신뢰도를 산출한다. The calculation module 191 may calculate profile importance according to the number of times keywords and tags are extracted from the collected document, and when a specific keyword is extracted from the profile information of the same person, reliability of the extracted keyword may be calculated. To this end, the counting unit 191 counts the number of times keywords and tags have been extracted, and the calculating unit 193 calculates keyword reliability proportional to the same keyword counting number for the same person.
실시예에서 생성모듈(170)은 동명이인에 대한 프로필 정보를 각각 독립적으로 생성하여 관리하거나, 동일인물에 대한 프로필이 변경된 경우 이를 업데이트 할 수 있다.In an embodiment, the generation module 170 may independently generate and manage profile information for the same person, or update the profile for the same person when the profile is changed.
생성모듈(170)은 생성된 프로필 정보에서 성명을 비교하고, 성명이 같은 경우, 성명 이외의 다른 카테고리의 프로필정보를 비교하여 동일한 성명 외 동일한 프로필 정보가 존재하지 않는 경우, 동명이인에 대한 새로운 프로필 정보를 생성할 수 있다. 또한, 실시예에서 생성모듈(170)은 동일한 이름으로 생성된 프로필 정보에서 나이 및 생년월일 등 신원확인을 위한 고유정보를 비교한 결과에 따라 생성된 프로필 정보가 동일인의 프로필인지 판단할 수 있다. 이름과 고유정보가 일치한다면, 다른 카테고리의 프로필 정보를 비교하고, 다른 프로필 정보가 존재하는 경우, 프로필 정보가 생성된 시점에 따라 이전프로필을 업데이트 할 수 있다.The generation module 170 compares the names in the generated profile information, and if the names are the same, compares the profile information of other categories other than the names, and if the same profile information other than the same name does not exist, a new name for the person with the same name Profile information can be created. In addition, in the embodiment, the generation module 170 may determine whether the generated profile information is the same person's profile according to a result of comparing unique information such as age and date of birth from profile information generated with the same name. If the name and unique information match, profile information of different categories is compared, and if other profile information exists, the previous profile can be updated according to the time when the profile information was generated.
도 4는 실시예에 따른 프로필 정보 생성 서버의 학습과정 및 프로필 정보생성 서버의 학습데이터를 설명하기 위한 도면이다.4 is a view for explaining a learning process of the profile information generation server and learning data of the profile information generation server according to the embodiment.
도 4를 참조하면, 서버에 “대학에서 영상학을 전공한 3D 아이픽쳐스 신용수 대표는 세계 최초로 수중 3D 촬영장비를 개발해 특허 등록을 마쳤다.” (10)의 문장을 입력하면, 서버는 띄어쓰기나 단어 및 형태소 구별에 관계없이 문장을 구성하는 글자를 하나씩 분리한다. 이후, 각 단어의 의미 분석을 통해 프로필 정보를 나타낼 수 있는 글자에 태그를 부여한다. 도 4에 도시된 바와 같이, '영상학' 이라는 키워드를 구성하는 '영' 글자에는 전공 태그가 부여되고, 대표라는 키워드를 구성하는 '대'라는 글자에는 직책 태그가 부여된다. 도 4의 표 (a)에 도시된 글자, 태그 및 데이터는 글자에 태그가 부여된 프로필 예비정보는 프로필 정보생성서버의 학습데이터로 사용된다.Referring to FIG. 4, on the server, “CEO Shin Yong-soo of 3D Eye Pictures who majored in imaging at the university developed the world's first underwater 3D imaging equipment and completed patent registration.” When the sentence of (10) is entered, the server separates the letters constituting the sentence one by one regardless of spaces or words and morphemes. Subsequently, through the semantic analysis of each word, a tag is added to a letter that can indicate profile information. As shown in FIG. 4, the major tag is assigned to the letter'zero' constituting the keyword'imageology', and the title tag is assigned to the letter'large' constituting the keyword representative. Characters, tags and data shown in the table (a) of FIG. 4 are used as learning data of the profile information generation server as profile preliminary information tagged with characters.
실시예에서는 각 글자에 태그를 부여하여 프로필 예비정보를 생성하면, 연속된 동일한 태그 정보가 부여된 글자들을 병합하여 키워드를 생성하고, 키워드에 태깅된 태그를 키워드 카테고리 정보로 구분하여 도 4의 b와 같은 프로필 정보를 생성할 수 있다.In an embodiment, when profile preliminary information is generated by tagging each letter, a keyword is generated by merging the letters with the same tag information consecutively, and the tag tagged to the keyword is divided into keyword category information, and b of FIG. You can create profile information such as
종래 한글 텍스트를 의미 분석하여 프로필 정보와 같은 유효정보를 추출할 때는 일반적으로 형태소 분석기를 사용한 결과로 나온 단어를 하나의 의미 단위로 사용한다. 위 문장을 형태소 분석기의 입력으로 사용하면 '영상학'이나 '대표'가 단어로 뽑히고, 해당 단어에 '전공'과 '직책'이라는 태그를 부여할 수 있다. 하지만, 형태소에 태그를 부여하는 방법은 고유명사나 새로운 단어가 많은 회사 이름, 성명 등은 인식되지 않기 때문에 부정확한 프로필 정보를 생성할 가능성이 높다. 실시예에 따른 프로필 생성서버는 형태소 분석기를 사용하지 않고 한 글자마다 태그를 부여하여 프로필 정보를 생성하기 때문에, 외래어, 새로운 단어나 고유명사가 많은 회사명칭이나 이름 등 중요한 프로필 정보를 정확하게 인식할 수 있도록 한다. When extracting valid information such as profile information by semantic analysis of conventional Hangul text, a word resulting from the use of a morpheme analyzer is generally used as a semantic unit. If the above sentence is used as the input of a morpheme analyzer,'image science' or'representative' can be selected as a word, and tags such as'major' and'position' can be assigned to the word. However, the method of tagging the morpheme is likely to generate inaccurate profile information because a proper noun, a company name with many new words, and a name are not recognized. Since the profile generation server according to the embodiment generates tag information by tagging every letter without using a morpheme analyzer, it is possible to accurately recognize important profile information such as foreign words, company names or names with many new words or proper nouns. To make.
이하에서는 프로필 정보 생성 방법에 대해서 차례로 설명한다. 실시예에 따른 프로필 정보 생성 방법의 작용(기능)은 프로필 정보 생성 서버의 기능과 본질적으로 같은 것이므로 도 1 내지 도 4와 중복되는 설명은 생략하도록 한다.Hereinafter, a method of generating profile information will be sequentially described. Since the operation (function) of the profile information generation method according to the embodiment is essentially the same as that of the profile information generation server, a description overlapping with FIGS. 1 to 4 will be omitted.
도 5는 실시예에 따른 프로필 정보 자동생성을 위한 데이터 처리 흐름을 나타낸 도면이다.5 is a diagram illustrating a data processing flow for automatically generating profile information according to an embodiment.
S510 단계에서 수집모듈은 프로필 자동생성 서버에서 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집한다.In step S510, the collection module periodically collects articles including articles, columns, and interviews from a web space including news sites and blogs on the profile auto-generation server.
S530 단계에서는 데이터베이스에 수집된 문서와 상기 문서의 출처 및 웹 공간 정보를 저장하고, 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장한다.In step S530, the document is collected in a database, and the source and web space information of the document are stored, and profile generation information including a keyword for generating profile information from the document and a tag indicating a category of information including a business information and keywords is generated. To save.
S550 단계에서 추출모듈은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 문장들에서 키워드를 추출하고, 키워드를 구성하는 글자에 프로필 카테고리 정보를 태깅(tagging)하여 프로필 예비정보를 생성한다.In step S550, the extraction module analyzes sentences included in the document to extract the profile information, extracts keywords from the sentences, and generates profile preliminary information by tagging profile category information in letters constituting the keyword. .
S570 단계에서 생성모듈은 추출된 프로필 예비정보를 수집하여 키워드는 프로필 정보 카테고리에 따라 분류하고, 연속으로 태깅된 글자를 병합하여 프로필 단어를 생성하고, 키워드와 프로필 단어를 수집하여 프로필 정보를 생성한다.In step S570, the generation module collects the extracted profile preliminary information, classifies the keywords according to the profile information category, generates the profile words by merging consecutively tagged letters, and collects keywords and profile words to generate profile information. .
S590 단계에서는 키워드와 프로필 단어를 카테고리에 따라 디스플레이 프로필 정보를 디스플레이 한다. In step S590, display profile information is displayed according to the category of keywords and profile words.
도 6은 실시예에 따른 프로필 예비정보 생성을 위한 데이터 처리과정을 나타낸 도면이다. 6 is a diagram illustrating a data processing process for generating profile preliminary information according to an embodiment.
S551 단계에서는 문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 추출하기 위한 머신러닝을 수행한다.In step S551, semantic analysis of the words included in the sentence and location information in the sentence of the word are grasped to infer the semantic relationship and correlation between words, and machine learning is performed to extract profile preliminary information.
S553 단계에서는 머신러닝 결과에 따라 입력된 문서에서 키워드를 추출한다.In step S553, keywords are extracted from the input document according to the result of the machine learning.
S555 단계에서는 추출된 키워드에 포함된 글자 각각에 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여하는 프로필 정보를 나타낼 프로필 예비정보를 생성한다. In step S555, profile preliminary information is generated to indicate profile information that assigns a tag indicating a category or metadata of the keyword to each letter included in the extracted keyword.
도 7은 실시예에 따른 프로필 정보 생성 과정을 설명하기 위한 도면이다. 7 is a view for explaining a process of generating profile information according to an embodiment.
도 7을 참조하면, 서버에 “이제 10년을 넘긴 프로 게임판의 게임캐스터 전용준 씨는 국내는 물론 세계 게임캐스터 분야를 개척하고 있는 인물이다.” (20)의 문장을 입력하면, 서버는 띄어쓰기에 따라 문장을 구성하는 단어와, 단어를 구성하는 글자를 분리한다. 이후, 각 단어의 의미 분석을 통해 프로필 정보를 나타낼 수 있는 글자에 태그를 부여한다. 도 7에 도시된 바와 같이, '게임캐스터'라는 키워드를 구성하는 '게' 글자에는 직책 태그가 부여되고, '전용준'라는 키워드를 구성하는 '전'라는 글자에는 성 태그가 부여된다. 각 글자에 태그를 부여하여 프로필 예비정보를 생성하면, 연속된 동일한 태그 정보가 부여된 글자들을 병합하여 키워드를 생성하고, 키워드에 태깅된 태그를 키워드 카테고리 정보로 구분하여 도 7의 b와 같은 프로필 정보를 생성할 수 있다.Referring to FIG. 7, the server says, “Jun Jeon Joon of the game board of a professional game board that has been over 10 years now is a person pioneering the field of domestic and global game casters.” When the sentence of (20) is entered, the server separates the words constituting the sentence and the letters constituting the word according to the spacing. Subsequently, through the semantic analysis of each word, a tag is added to a letter that can indicate profile information. As shown in FIG. 7, the title tag is assigned to the letter'crab' constituting the keyword'gamecaster', and the gender tag is assigned to the letter'before' constituting the keyword'dedicated'. When profile preliminary information is generated by tagging each letter, a keyword is generated by merging the letters with the same tag information consecutively, and the tag tagged to the keyword is divided into keyword category information, and the profile shown in FIG. Information can be generated.
실시예에 따른 프로필 정보 생성 서버 및 방법은 다양한 온라인 컨텐츠에서 인물, 기업, 제품에 관한 중요한 유효정보인 프로필 정보를 자동으로 정확하게 추출할 수 있도록 한다. The profile information generation server and method according to the embodiment enable automatic and accurate extraction of profile information, which is important effective information about people, companies, and products from various online contents.
머신러닝을 통해 추출된 프로필 데이터가 누적될수록 프로필 데이터 추출 정확도 및 속도를 향상 시킬 수 있도록 한다.As the profile data extracted through machine learning accumulates, the accuracy and speed of profile data extraction can be improved.
실시예에 따른 프로필 정보 생성 서버 및 방법은 프로필 정보의 신뢰도 연산, 동명이인의 프로필 데이터 분리 및 지속적인 프로필 정보의 업데이트를 자동으로 수행함으로써, 부정확한 프로필 정보의 생성 및 정보 확산을 막을 수 있도록 한다. The profile information generation server and method according to an embodiment automatically prevents the generation of incorrect profile information and the spread of information by automatically calculating the reliability of the profile information, separating profile data of the same person, and continuously updating the profile information. .
개시된 내용은 예시에 불과하며, 특허청구범위에서 청구하는 청구의 요지를 벗어나지 않고 당해 기술분야에서 통상의 지식을 가진 자에 의하여 다양하게 변경 실시될 수 있으므로, 개시된 내용의 보호범위는 상술한 특정의 실시예에 한정되지 않는다.The disclosed content is only an example, and can be variously modified by a person having ordinary skill in the art without departing from the gist of the claims claimed in the claims. It is not limited to the examples.
다양한 온라인 컨텐츠에서 인물, 기업, 제품에 관한 중요정보인 프로필 정보를 자동으로 정확하게 추출하여 부정확한 프로필 정보의 생성 및 정보 확산을 막을 수 있도록 한다. It automatically extracts profile information, which is important information about people, companies, and products, from various online contents automatically and prevents the generation of incorrect profile information and the spread of information.

Claims (13)

  1. 프로필 자동생성 서버에 있어서,In the automatic profile creation server,
    뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 수집모듈;A collection module for periodically collecting documents including articles, columns, and interviews in a web space including a news site and a blog;
    상기 수집된 문서와 상기 문서의 출처 및 웹 공간정보를 저장하고, 상기 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 데이터베이스;A database that stores the collected document, the source and web space information of the document, and stores profile generation information including keywords for generating profile information from the document and tags indicating information categories including keywords and business information. ;
    프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 추출모듈; 및An extraction module that analyzes sentences included in the document from which profile information is to be extracted, extracts keywords, and generates profile preliminary information by tagging tag information, which is profile category information, in each letter constituting the keyword; And
    상기 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 생성모듈; 을 포함하는 프로필 자동생성 서버.A generation module that collects the extracted profile preliminary information, merges continuously tagged texts to generate keywords that are profile information, and classifies the keywords and tags to generate profile information; Profile auto-generation server comprising a.
  2. 제 1항에 있어서, 상기 추출모듈은 According to claim 1, The extraction module
    문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 생성하기 위한 머신러닝을 수행하는 학습부;A learning unit performing semantic analysis of words included in a sentence and location information in a sentence to infer semantic relationships and correlations between words, and performing machine learning to generate profile preliminary information;
    상기 머신러닝 결과에 따라 입력된 문서에서 키워드를 추출하는 추출부;An extraction unit that extracts keywords from the input document according to the machine learning result;
    상기 추출된 키워드에 포함된 글자 각각에 상기 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여하는 태깅부; 를 포함하는 것을 특징으로 하는 프로필 자동생성 서버. A tagging unit that assigns a tag indicating a category or metadata of the keyword to each letter included in the extracted keyword; Profile auto-generation server, characterized in that it comprises a.
  3. 제 1항에 있어서, 상기 생성모듈은 The method of claim 1, wherein the generation module
    상기 추출모듈로부터 글자 각각에 태그가 부여된 프로필 예비정보를 수집하고, 연속적으로 동일한 태그가 부여된 글자를 병합하여 프로필 정보인 키워드를 생성하는 생성부;A generating unit that collects profile preliminary information tagged to each letter from the extraction module and continuously merges the letters tagged with the same tag to generate keywords that are profile information;
    상기 생성된 키워드가 포함되는 카테고리 또는 키워드의 태그정보에 따라 프로필 정보를 분류하는 분류부; 및 A classification unit that classifies the profile information according to the tag information of the category or keyword including the generated keyword; And
    상기 분류된 키워드와 키워드의 카테고리인 태그정보를 프로필 정보 형식에 따라 디스플레이 하는 출력부; 를 포함하는 것을 특징으로 하는 프로필 자동생성서버.An output unit that displays the classified keyword and tag information that is a category of the keyword according to a profile information format; Automatic profile generation server, characterized in that it comprises a.
  4. 제 1항에 있어서, 상기 프로필 자동생성 서버는The method of claim 1, wherein the automatic profile creation server
    수집된 문서에서 키워드와 태그가 추출된 횟수를 카운팅하고, 동일인물의 프로필 정보로 동일한 키워드가 반복 추출되는 경우, 상기 추출된 키워드에 대한 신뢰도를 산출하는 연산모듈; 을 더 포함하는 것을 특징으로 하는 프로필 자동생성 서버.An operation module for counting the number of times keywords and tags have been extracted from the collected documents, and calculating the reliability of the extracted keywords when the same keywords are repeatedly extracted with profile information of the same person; Profile auto-generation server, characterized in that it further comprises.
  5. 제 1항에 있어서, 상기 프로필 자동생성 서버는The method of claim 1, wherein the automatic profile creation server
    생성된 프로필 정보에서 성명을 비교하고, 성명이 같은 경우, 성명 이외의 다른 프로필정보를 비교하여 성명 외 동일한 프로필 정보가 존재하지 않는 경우, 상기 성명에 대한 동명이인의 프로필 정보를 생성하는 것을 특징으로 하는 프로필 자동생성 서버.Compare the name in the generated profile information, and if the name is the same, compare other profile information other than the name, and if the same profile information other than the name does not exist, it is characterized in that it generates profile information of the same name person for the name Automatic profile creation server.
  6. 제 5항에 있어서, 상기 프로필 자동생성서버는 The method of claim 5, wherein the automatic profile creation server
    동일한 이름으로 생성된 프로필 정보에서 나이 및 생년월일을 비교하여, 동일인에 대한 프로필로 판단되면, 다른 카테고리의 프로필 정보를 비교하여 다른 프로필 정보가 존재하는 경우, 프로필 정보가 생성된 시점에 따라 이전프로필을 업데이트 하는 것을 특징으로 하는 프로필 자동생성서버. If it is determined that the profile is for the same person by comparing the age and date of birth from the profile information created with the same name, if there is different profile information by comparing the profile information of different categories, the previous profile is displayed according to the time when the profile information was created. Automatic profile creation server characterized in that the update.
  7. 제 1항에 있어서, 상기 데이터베이스는 The method of claim 1, wherein the database
    학력, 나이, 학교, 부서, 직급을 포함하는 프로필 정보의 카테고리에 따라 키워드를 분류하고, 분류된 키워드 데이터를 저장하는 키워드 저장부;A keyword storage unit that classifies keywords according to categories of profile information including education, age, school, department, and position, and stores the classified keyword data;
    키워드 별 카테고리 또는 메타데이터를 태그정보로 생성하고, 상기 키워드를 구성하는 글자에 상기 키워드에 해당하는 카테고리 정보인 태그(tag)정보가 태깅된 글자들을 프로필 예비정보로 저장하고, 상기 태그정보를 저장하는 태그 저장부; 를 포함하는 것을 특징으로 하는 프로필 자동생성 서버. Creates category or metadata for each keyword as tag information, stores characters tagged with tag information corresponding to the keyword in text constituting the keyword as profile preliminary information, and stores the tag information Tag storage unit; Profile auto-generation server, characterized in that it comprises a.
  8. 프로필 자동생성 방법에 있어서,In the automatic profile creation method,
    (A) 수집모듈은 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 단계;(A) the collecting module periodically collects articles including articles, columns, and interviews from a web space including a news site and a blog;
    (B) 데이터베이스는 상기 수집된 문서와 상기 문서의 출처 및 웹 공간정보를 저장하고, 상기 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 단계;(B) The database stores the collected document and the source and web space information of the document, and generates a profile including a keyword for generating profile information from the document and tags indicating business information and a category of information including the keyword. Storing information;
    (C) 추출모듈은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 단계; 및(C) The extraction module analyzes sentences included in the document to extract profile information, extracts keywords, and generates profile preliminary information by tagging tag information, which is profile category information, in each letter constituting the keyword. To do; And
    (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 를 포함하는 프로필 자동생성방법.(D) the generation module collects the extracted profile preliminary information, merges the tagged text in succession to generate a keyword that is profile information, and classifies the keyword and tag to generate profile information; Automatic profile creation method comprising a.
  9. 제 8항에 있어서, 상기 (C) 추출모듈은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 단계; 는 The extraction module of claim 8, wherein the extracting module (C) analyzes sentences included in the document to extract profile information, extracts keywords, and tags tag information, which is profile category information, in each letter constituting the keyword. ) To generate profile preliminary information; The
    문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 생성하기 위한 머신러닝을 수행하는 단계;Semantic analysis of the words included in the sentence and the location information in the sentence of the word to determine the semantic relationship and correlation between words, and performing machine learning to generate profile preliminary information;
    상기 머신러닝 결과에 따라 입력된 문서에서 키워드를 추출하는 단계;Extracting keywords from the input document according to the machine learning result;
    상기 추출된 키워드에 포함된 글자 각각에 상기 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여하는 단계; 를 포함하는 것을 특징으로 하는 프로필 자동생성 방법. Assigning a tag indicating a category or metadata of the keyword to each letter included in the extracted keyword; Automatic profile generation method characterized in that it comprises a.
  10. 제 8항에 있어서, 상기 (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 는10. The method of claim 8, wherein the (D) generation module collects the extracted profile preliminary information, merges continuously tagged text to generate keywords that are profile information, and classifies the keywords and tags to generate profile information. step; The
    상기 추출모듈로부터 글자 각각에 태그가 부여된 프로필 예비정보를 수집하고, 연속적으로 동일한 태그가 부여된 글자를 병합하여 프로필 정보인 키워드를 생성하는 단계;Collecting profile preliminary information tagged with each letter from the extraction module, and subsequently generating keywords that are profile information by merging the letters with the same tag;
    상기 생성된 키워드가 포함되는 카테고리 또는 키워드의 태그정보에 따라 프로필 정보를 분류하는 단계; 및 Classifying profile information according to tag information of a category or keyword including the generated keyword; And
    상기 분류된 키워드와 키워드의 카테고리인 태그정보를 프로필 정보 형식에 따라 디스플레이 하는 단계; 를 포함하는 것을 특징으로 하는 프로필 자동생성방법.Displaying the classified keyword and tag information that is a category of the keyword according to a profile information format; Automatic profile generation method characterized in that it comprises a.
  11. 제 8항에 있어서, 상기 프로필 자동생성 방법은The method of claim 8, wherein the automatic profile generation method
    (E) 연산모듈에서 수집된 문서에서 키워드와 태그가 추출된 횟수를 카운팅하고, 동일인물의 프로필 정보로 동일한 키워드가 반복 추출되는 경우, 상기 추출된 키워드에 대한 신뢰도를 산출하는 단계; 를 더 포함하는 것을 특징으로 하는 프로필 자동생성방법.(E) counting the number of times keywords and tags have been extracted from the documents collected by the calculation module, and calculating the reliability of the extracted keywords when the same keywords are repeatedly extracted with profile information of the same person; Automatic profile generation method characterized in that it further comprises.
  12. 제 8항에 있어서, 상기 (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 는10. The method of claim 8, wherein the (D) generation module collects the extracted profile preliminary information, merges continuously tagged text to generate keywords that are profile information, and classifies the keywords and tags to generate profile information. step; The
    생성된 프로필 정보에서 성명을 비교하고, 성명이 같은 경우, 성명 이외의 다른 프로필정보를 비교하여 성명 외 동일한 프로필 정보가 존재하지 않는 경우, 상기 성명에 대한 동명이인의 프로필 정보를 생성하는 것을 특징으로 하는 프로필 자동생성방법.Compare the name in the generated profile information, and if the name is the same, compare other profile information other than the name, and if the same profile information other than the name does not exist, it is characterized in that it generates profile information of the same name person for the name Automatic profile creation method.
  13. 제 12항에 있어서, 상기 (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 는The method of claim 12, wherein the (D) generation module collects the extracted profile preliminary information, merges continuously tagged text to generate keywords that are profile information, and classifies the keywords and tags to generate profile information. step; The
    동일한 이름으로 생성된 프로필 정보에서 나이 및 생년월일을 비교하여, 동일인에 대한 프로필로 판단되면, 다른 카테고리의 프로필 정보를 비교하여 다른 프로필 정보가 존재하는 경우, 프로필 정보가 생성된 시점에 따라 이전프로필을 업데이트 하는 것을 특징으로 하는 프로필 자동생성방법. If it is determined that the profile is for the same person by comparing the age and date of birth from the profile information created with the same name, if there is different profile information by comparing the profile information of different categories, the previous profile is displayed according to the time when the profile information was created. Automatic profile creation method characterized by updating.
PCT/KR2019/016608 2018-11-29 2019-11-28 Automatic profile generation server and method WO2020111827A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0150670 2018-11-29
KR1020180150670A KR102185733B1 (en) 2018-11-29 2018-11-29 Server and method for automatically generating profile

Publications (1)

Publication Number Publication Date
WO2020111827A1 true WO2020111827A1 (en) 2020-06-04

Family

ID=70853579

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/016608 WO2020111827A1 (en) 2018-11-29 2019-11-28 Automatic profile generation server and method

Country Status (2)

Country Link
KR (1) KR102185733B1 (en)
WO (1) WO2020111827A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102244651B1 (en) * 2020-08-18 2021-04-26 (주)다하미 커뮤니케이션즈 A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same
CN113157937A (en) * 2021-03-04 2021-07-23 浙报融媒体科技(浙江)有限责任公司 Machine real-time automatic manuscript writing system and method based on flow calculation model

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102603206B1 (en) * 2022-11-17 2023-11-17 퍼포마스 주식회사 Apparatus and method for automatically generating persona for marketing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319449A1 (en) * 2008-06-21 2009-12-24 Microsoft Corporation Providing context for web articles
KR20140038834A (en) * 2012-09-21 2014-03-31 한양대학교 에리카산학협력단 Apparatus and method for analyzing web page
JP2015097025A (en) * 2013-11-15 2015-05-21 日本電信電話株式会社 Profile word extraction device, profile word extraction method, and program word extraction program
KR101607468B1 (en) * 2015-02-27 2016-03-30 고려대학교 산학협력단 Keyword tagging method and system for contents

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100901134B1 (en) 2008-09-09 2009-06-04 김수현 Tag display system for analysing morpheme and source code
KR102529262B1 (en) * 2017-03-20 2023-05-08 삼성전자주식회사 Electronic device and controlling method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319449A1 (en) * 2008-06-21 2009-12-24 Microsoft Corporation Providing context for web articles
KR20140038834A (en) * 2012-09-21 2014-03-31 한양대학교 에리카산학협력단 Apparatus and method for analyzing web page
JP2015097025A (en) * 2013-11-15 2015-05-21 日本電信電話株式会社 Profile word extraction device, profile word extraction method, and program word extraction program
KR101607468B1 (en) * 2015-02-27 2016-03-30 고려대학교 산학협력단 Keyword tagging method and system for contents

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM, HYEMIN ET AL.: "Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs", PROCEEDINGS OF THE 28TH ANNUAL CONFERENCE ON HUMAN AND COGNITIVE LANGUAGE TECHNOLOGY, 5 October 2016 (2016-10-05), XP055711898 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102244651B1 (en) * 2020-08-18 2021-04-26 (주)다하미 커뮤니케이션즈 A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same
CN113157937A (en) * 2021-03-04 2021-07-23 浙报融媒体科技(浙江)有限责任公司 Machine real-time automatic manuscript writing system and method based on flow calculation model

Also Published As

Publication number Publication date
KR102185733B1 (en) 2020-12-04
KR20200064490A (en) 2020-06-08

Similar Documents

Publication Publication Date Title
US11048882B2 (en) Automatic semantic rating and abstraction of literature
CN106650943B (en) Auxiliary writing method and device based on artificial intelligence
Gu et al. " what parts of your apps are loved by users?"(T)
Kasper Sentiment analysis for hotel reviews
US8200477B2 (en) Method and system for extracting opinions from text documents
CN109145216A (en) Network public-opinion monitoring method, device and storage medium
WO2020111827A1 (en) Automatic profile generation server and method
CN107491435A (en) Method and device based on Computer Automatic Recognition user feeling
CN112035675A (en) Medical text labeling method, device, equipment and storage medium
CN109783693B (en) Method and system for determining video semantics and knowledge points
Gugnani et al. Generating unified candidate skill graph for career path recommendation
Priya Emoji based sentiment analysis using KNN
Murakami et al. Statement map: assisting information crediblity analysis by visualizing arguments
Westerhout Definition extraction for glossary creation: a study on extracting definitions for semi-automatic glossary creation in Dutch
CN110008314B (en) Intention analysis method and device
Kasper et al. Monitoring and summarization of hotel reviews
CN114528851B (en) Reply sentence determination method, reply sentence determination device, electronic equipment and storage medium
Enăchescu Screening the Candidates in IT Field Based on Semantic Web Technologies: Automatic Extraction of Technical Competencies from Unstructured Resumes.
CN114722174A (en) Word extraction method and device, electronic equipment and storage medium
JP4428703B2 (en) Information retrieval method and system, and computer program
CN112364068A (en) Course label generation method, device, equipment and medium
Kasmuri et al. Building a Malay-English code-switching subjectivity corpus for sentiment analysis
WO2016076622A1 (en) Guideline providing method depending on document selection, computer-readable recording medium in which program for performing same is recorded, and application for terminal device, stored in medium
Varghese et al. Question-answering versus machine reading comprehension
CN111949781B (en) Intelligent interaction method and device based on natural sentence syntactic analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19888278

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19888278

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 01/10/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19888278

Country of ref document: EP

Kind code of ref document: A1