WO2018105979A1 - 온라인 커뮤니티에서 동일 사용자의 닉네임 목록을 추출하는 장치 및 방법 - Google Patents
온라인 커뮤니티에서 동일 사용자의 닉네임 목록을 추출하는 장치 및 방법 Download PDFInfo
- Publication number
- WO2018105979A1 WO2018105979A1 PCT/KR2017/014108 KR2017014108W WO2018105979A1 WO 2018105979 A1 WO2018105979 A1 WO 2018105979A1 KR 2017014108 W KR2017014108 W KR 2017014108W WO 2018105979 A1 WO2018105979 A1 WO 2018105979A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- nickname
- feature information
- user
- extracting
- same user
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000000605 extraction Methods 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000002068 genetic effect Effects 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims 2
- 239000006185 dispersion Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 235000019640 taste Nutrition 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0407—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
- H04L63/0421—Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/102—Entity profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
Definitions
- the present invention relates to an apparatus and method for extracting a nickname list of the same user in an online community.
- Representative online services include social network services (SNS) and online communities.
- SNS social network services
- Social network services are online services that allow users to share information and communicate with other users, including Facebook, Twitter, and Instagram.
- the online community is a service that provides space for users to produce and share information on common interests and tastes on the web and to gather together. This is a service provided from the beginning of the web.
- the online community is difficult to identify personal information because the personal information is not clearly revealed and the nickname is disconnected and the continuity with the past identity is broken, so the data including posts in the online community are rarely used for various analysis data. .
- the problem to be solved by the present invention is to provide an apparatus and method for extracting a list of nicknames of the same user so that even if the user changes the nickname in the anonymous online community to identify that the nickname before and after the change is the same person will be.
- a method for extracting a nickname of the same user by a device operated by at least one processor may include receiving a post uploaded from an online community from a server, and identifying the user who created the post in the post. Extracting at least one feature information, and extracting a nickname having a similarity level or more from a plurality of nickname sets as a nickname of the same user.
- the nickname extracting step includes nicknames having a similarity degree or more similar to the feature information in the candidate nickname set. Can be extracted as the nickname of the same user.
- the nickname that is determined to be not the same user may be a nickname that is a nickname in which a usage period overlaps.
- the extracting of the feature information may include at least one of word feature information for identifying interest information of the user, activity time feature information of the user, post feature information, and communication relationship feature information between the user and another user.
- word feature information for identifying interest information of the user
- activity time feature information of the user for identifying interest information of the user
- post feature information for identifying interest information of the user
- communication relationship feature information between the user and another user for identifying interest information of the user
- the above feature information can be extracted.
- the word feature information may include at least one or more feature words and frequency of use information of the feature words using morpheme analysis in the article text.
- the communication relationship characteristic information is first nickname characteristic information, which is nickname information in which a user writes a reply or expresses empathy with respect to at least one post written by the user, and nickname information of another user who made a reply or expressed empathy by the user. At least one of second nickname feature information and feature information combining the first nickname feature information and the second nickname feature information.
- a method for extracting a nickname of the same user by a device operated by at least one processor may include receiving a post uploaded from an online community from a server, and identifying the user's interest information in the post. Extracting feature information including at least two of feature word feature information, activity time feature information of the user, post feature information, and communication relationship feature information between the user and another user; Calculating a similarity degree of feature information, assigning different weighting values to the similarity level for each feature information, and extracting nicknames having a similarity level more than a predetermined criterion as nicknames of the same user.
- the nickname determined to be not the same user may be a nickname in which a period of use overlaps.
- the weighting value may be a value calculated through a genetic algorithm.
- An apparatus for extracting a nickname of the same user may include a post receiving unit receiving at least one post uploaded to an online community, and at least one feature information identifying a user who created the post in the post.
- the same user extracting unit selects a candidate nickname set except for a nickname that is determined to be not the same user in the plurality of nickname sets, and the nickname of the same user whose similarity of the feature information is greater than or equal to a predetermined criterion in the candidate nickname set.
- the nickname determined to be not the same user may be a nickname in which a period of use overlaps.
- the feature information extracting unit may include at least one feature information of word feature information for identifying interest information of the user, activity time feature information of the user, post feature information, and communication relationship feature information between the user and another user. Can be extracted.
- the word feature information may include at least one or more feature words and frequency of use of the feature words using morpheme analysis in the article text.
- the communication relationship characteristic information is first nickname characteristic information, which is nickname information in which a user writes a reply or expresses empathy with respect to at least one post written by the user, and nickname information of another user who made a reply or expressed empathy by the user. At least one of second nickname feature information and feature information combining the first nickname feature information and the second nickname feature information.
- An apparatus for extracting a nickname of the same user includes a post receiving unit for receiving at least one post uploaded to an online community, word feature information for identifying a user's interest information in the post, A feature information extractor for extracting feature information including at least two of user's activity time feature information, the post feature information, and communication relationship feature information between the user and another user, and the feature information between a plurality of nicknames And a similar user extracting unit for calculating a similarity degree, assigning different weighting values to the similarity level for each feature information, and extracting nicknames having a similarity level more than a predetermined criterion as nicknames of the same user.
- the same user extractor may select a candidate nickname set except for a nickname that is determined to be not the same user in the plurality of nicknames, and extract a nickname having a similarity or higher than a predetermined criterion from the candidate nickname set as a nickname of the same user. have.
- the nickname determined to be not the same user may be a nickname in which a period of use overlaps.
- the weighting value may be a value calculated through a genetic algorithm.
- an abusing user may be blocked in an anonymous online community.
- FIG. 1 is a block diagram of the same user tracking system according to an embodiment of the present invention.
- FIG. 2 is a flowchart illustrating a method of extracting a nickname user predicted to be the same user by the apparatus for extracting a nickname according to an embodiment of the present invention.
- FIG. 3 is a diagram illustrating the accuracy of a result of extracting a nickname user predicted to be the same user by using the word feature information according to an embodiment of the present invention.
- FIG. 4 is a diagram illustrating the accuracy of a result of extracting a nickname user predicted to be the same user using communication relationship feature information according to an embodiment of the present invention.
- 5 and 6 are exemplary results in which the nickname extraction apparatus infers the same user using the feature information according to an embodiment of the present invention.
- the online community may mainly be configured in the form of posting a post on a bulletin board established according to a particular hobby, a user interested in the topic, reply, display empathy, or share to other communities.
- the same user is extracted even when the nickname is changed according to the characteristic that the continuity with the past identity is disconnected as the nickname is changed in the online community, but the present invention is not necessarily limited thereto. It is also possible to create a plurality of accounts, and to extract the same user when using a social network service with each created account.
- the apparatus and method for extracting the same user described below can be utilized as a method for evaluating the degree of anonymity guarantee according to nickname change in the online community.
- the apparatus and method for extracting the same user described below can be utilized as a method of blocking cyber bullying that exploits the anonymity guarantee in the online community. That is, nickname tracking can identify the same user and systematically block the user from abusing.
- FIG. 1 is a block diagram of the same user tracking system according to an embodiment of the present invention.
- the user tracking system 10 receives a post information uploaded in an online community from an online community providing server 200 and an online community providing server 200, and extracts a nickname of the same user. 100 may be included.
- the online community providing server 200 provides post information uploaded in the online community to the nickname extraction apparatus 100.
- the online community providing server 200 collects posts of the online community over a period of time, and includes information displayed in the post, for example, post author nickname, post text, post creation time information, post reply author nickname, post reply text, and post reply.
- the database may store information such as creation time information, post consensus nickname, and post share nickname.
- the nickname extraction apparatus 100 is operated by at least one processor, and includes a post receiver 110, a feature information extractor 120, and the same user extractor 130.
- the post receiving unit 110 receives a post uploaded to the bulletin board of the online community from the online community providing server 200.
- the post is a reply that expresses the thoughts of online community users in short sentences, emoticons, and the like regarding general posts and general posts including at least one or more contents of text, images, and videos including a title written on a bulletin board. It may include.
- the feature information extractor 120 extracts feature information for identifying a user who wrote the post from the post received by the post receiver 110.
- the type of the feature information extracted by the feature information extractor 120 may vary.
- the feature information extraction unit 120 uses the stylistic features of the user reflected in the posts uploaded in the corresponding community, replies with other users about the posts, empathy, and communication relations between users using the shared information. Visual features, post length, number of words used, emoticons, image uploads, and post features using image information may be extracted to identify a user's own behavior pattern.
- the feature information extractor 120 may extract a word feature. Online community users create posts that include general posts and replies, which reflect user-specific features such as the author's interests and tastes. The feature information extractor 120 may extract feature words reflecting a user's unique feature by analyzing the title of the post, the content of the post, and the reply of the post.
- the feature information extractor 120 may extract an activity visual feature. Online community users may have different activity perspectives depending on their lifestyle. For example, workers may use the community primarily during lunch, commute, or after work, and students may have different patterns of activity time during the school year and during vacations.
- the feature information extractor 120 may extract information on creation time of a post including a general post and a reply.
- the feature information extractor 120 may extract a post feature. Online community users may have different post usage patterns based on their characteristics. For example, an online community user may include a user who mainly uploads an image, a user who posts a long post, and a user who only writes a reply without posting a general post.
- the feature information extractor 120 may extract the length of the text content, the number of words used, the number of emoticons, the number of image uploads, and the image information included in the post.
- the feature information extractor 120 may extract a communication relationship feature. There is no friend list in the online community that is explicitly revealed by social networking services such as making friends, followers / followers, etc. Therefore, you can check the relationship between users indirectly through replies that run in general posts. The longer the online community activity, the more users can interact through replies and remain unique even after the nickname is changed.
- the feature information extractor 120 creates a reply to a post written by the user, expresses empathy, extracts a list of other nickname users who have shared the post to other communities, and writes a reply or expresses empathy for each nickname user. Alternatively, you can extract the author list of shared posts to extract communication relationship information between users.
- the same user extractor 130 extracts a nickname group that can be predicted to be used by the same user in a plurality of nickname sets using at least one feature information among various feature information extracted by the feature information extractor 120.
- the same user extractor 130 may exclude a nickname group determined to be not the same user before extracting a nickname group predicted to be used by the same user using feature information from a plurality of nickname sets. have.
- the nickname group overlapping the period of use is determined not to be the same user, and the same user is excluded except for the overlapping nickname group.
- the predicted nickname candidate group may be extracted.
- the same user extractor 130 may calculate the similarity of feature information with a plurality of nickname users belonging to a nickname candidate group predicted to be the same user as any one nickname user.
- the same user extractor 130 uses the at least one feature information of the word feature information, the activity visual feature information, the post feature, and the communication relation feature extracted by the feature information extractor 120 to have a similarity level of the feature information more than a predetermined criterion.
- the nickname may be determined to be the same user.
- the same user extractor 130 sets weights on the word feature information, activity time feature information, post feature, and communication relationship feature information extracted by the feature information extractor 120, and calculates a weighted sum. It may be determined that the similar user has the same degree of feature information for a nickname having a predetermined criterion or more.
- certain feature information may reflect the unique characteristics of the actual user with a very high accuracy, while certain feature information may reflect the unique characteristics of the actual user with inaccurate accuracy. Accordingly, the same user extractor 130 may obtain a highly reliable result by assigning weights of different parameters to the word feature information, the activity visual feature information, the post feature information, and the communication relationship feature information.
- the same user extractor 130 may extract optimal parameters through genetic algorithms (GA).
- GA genetic algorithms
- Screening means transferring the top 10 individuals with high suitability to the next generation, and breeding is performed among remaining individuals except the top 10 individuals. It means to mix 30 objects in half and mix the weights in half. The remaining 10 individuals that have not been screened or crossed randomly change random feature information.
- the object having the highest suitability may be set as an optimal parameter for feature information.
- the nickname extracting apparatus 100 extracts a list of nicknames of the same user, thereby preventing disconnection of collected data for the same person. can do.
- FIG. 2 is a flowchart illustrating a method of extracting a nickname user predicted to be the same user by the apparatus for extracting a nickname according to an embodiment of the present invention.
- the nickname extraction apparatus 100 receives post information uploaded into the online community from the online community providing server 200 (S110).
- the nickname extracting apparatus 100 extracts feature information identifying a user who created a post from the post information (S120).
- the type of feature information extracted by the nickname extraction apparatus 100 may vary.
- the nickname extracting apparatus 100 may extract word feature information reflecting a user's unique characteristics such as the interest or taste of the author, post time information of a post, post feature information, and communication relationship feature information with other users. Can be.
- the word feature information may be extracted through stemming the title of the post, the content of the post, and the reply of the post.
- Post feature information may be extracted using the length of text content included in the post, the number of words used, the number of emoticons, the number of image uploads, and the average and variance values of the image information.
- Communication relationship feature information can be used to reply to a user's post, express empathy, extract a list of other nickname users who have shared the post with other communities, write a reply for each nickname user, express empathy, or share Can be extracted using the author list of a post.
- the nickname extraction apparatus 100 selects a candidate nickname set from the plurality of nickname sets by excluding the nickname group determined to be not the same user (S130).
- the nicknames with overlapping usage periods are determined not to be the same user, and the set of candidate nicknames is selected by excluding the overlapping nicknames. can do.
- the candidate nickname set CS Ni may be defined as in Equation 1.
- the nickname extracting apparatus 100 extracts a nickname user predicted to be used by the same user from the candidate nickname set based on the extracted feature information (S140).
- the nickname extracting apparatus 100 calculates a degree of similarity with the feature information of any one nickname user and the feature information of each nickname user included in the candidate nickname set predicted to be the same user as the nickname user.
- the nickname extraction apparatus 100 may calculate the similarity degree using the jacquard similarity with the feature information with a plurality of nickname users for the word feature information and the communication relationship specific information as shown in Table 1 below.
- the degree of similarity may be calculated using a dynamic time warping algorithm, and for the article feature information, the degree of similarity may be calculated using an average and a variance value.
- Feature Information Type Detailed feature information metric Word feature information General Title Title Features Words Jacquard Similarity General Content Content Word Jacquard Similarity Reply Feature Word Jacquard Similarity Activity visual feature information General writing time Dynamic Time Warping (DTW) Reply time Dynamic Time Warping (DTW) Post feature information General reply / reply rate ratio General Title Length Average Dispersion General article content length Average Dispersion General Title Title Word Count Average Dispersion General article content word count Average Dispersion Replies Average Dispersion Image count Average Dispersion views Average Dispersion Communication relationship feature information List of other users who responded to the post (list 1) Jacquard Similarity List of authors of other posts that responded (second list) Jacquard Similarity Union (first list, second list) Jacquard Similarity Intersection (first list, second list) Jacquard Similarity
- the nickname extracting apparatus 100 may determine that the nickname is the same user by extracting a nickname having a similar degree of feature information or more from a nickname user included in the candidate nickname set.
- detailed feature information (total 24) included in the word feature information, activity visual feature information, post feature information, and communication relationship feature information F ⁇ f1, f2,... , f24 ⁇ defines sim fi (CS Ni ) as a function that obtains the similarity between N i and candidate nicknames belonging to CS Ni in the form of key-value and returns it as a set of elements. .
- the candidate group set for any one detailed feature information f j may be defined as in Equation 2 below.
- a set having the highest k nicknames having high similarity as an element may be defined as the final candidate group set SubCS Ni, fj .
- the same user extractor 130 sets weights on word feature information, activity time feature information, post feature, and communication relationship feature information extracted by the feature information extractor 120, and calculates a weighted sum. It may be determined that the similar user has the same degree of feature information for a nickname having a predetermined criterion or more. In this case, the same user extractor 130 may obtain a highly reliable result by extracting an optimal weight through genetic algorithms (GA).
- GA genetic algorithms
- FIG. 3 is a diagram illustrating the accuracy of a result of extracting a nickname user predicted to be the same user using word feature information according to an embodiment of the present invention
- FIG. It is a diagram showing the accuracy of a result of extracting a nickname user predicted to be the same user by using the nickname extraction apparatus communication relationship feature information.
- the accuracy of the same user inference for N i is calculated as in Equation 3 below.
- Sol Ni is actually a set of nicknames used by the same user.
- the word feature information included in the title of the general article, the word feature information included in the content of the general article, and the word feature information included in the reply show high accuracy with respect to the same user inference. .
- words related to general texts show higher accuracy than replies, because generally, titles or contents of general texts use words that can show distinct characteristics of individuals reflecting user's interests or tastes.
- the reply can be confirmed that the relatively low accuracy because the main opinion expression on the content of the general article in which the reply is written.
- the author of another post in which a user responds to a post written by a particular nickname user, expresses empathy, or shares another user's (first list) feature information with a specific nickname user's response (second second) List) has higher accuracy than feature information. This may be interpreted as having higher accuracy in identifying a specific nickname because the first list feature information may include accumulated data compared to the second list feature information.
- the feature information derived from the union of the first list and the second list has a higher accuracy than the feature information derived from the intersection of the first list and the second list.
- the feature information derived from the union may include a large amount of accumulated data as compared with the feature information derived from the intersection, and thus may be interpreted as having higher accuracy in identifying a specific nickname.
- 5 and 6 are exemplary results in which the nickname extraction apparatus infers the same user using the feature information according to an embodiment of the present invention.
- FIG. 5 is a hitmap visualizing the accuracy of each feature information for a nickname, a column is a nickname, and a row is feature information. Each cell represents a percentage of correct answers, and a dark cell represents a high percentage of feature information. In general, it was confirmed that word feature information and communication relationship feature information show high accuracy.
- FIG. 6 is a result of clustering through the X-means algorithm in order to analyze the results of FIG. 5 precisely.
- Cluster 2 may identify a result having a high correct rate in the word feature information.
- Clusters 3 and 4 confirmed a result with a high percentage of correctness in word feature information and communication relationship feature information.
- the nickname extraction apparatus 100 may infer the same user through a weighted sum of feature information by giving different weights to each feature information.
- the nickname extraction apparatus has the same weight using a plurality of feature information extracted from a post, and the accuracy of the result of inferring the same user is about 55%. You can see that.
- the nickname extraction apparatus gives different weights to a plurality of feature information extracted from a post and infers the same user through a weighted sum. It can be confirmed that the improvement is further compared with the first embodiment.
- profiling of the individual can be performed in the online community where the anonymity is guaranteed.
- the profiling results can be used to obtain information suitable for analyzing corporate decision-making and social phenomena.
- the embodiments of the present invention described above are not only implemented through the apparatus and the method, but may be implemented through a program for realizing a function corresponding to the configuration of the embodiments of the present invention or a recording medium on which the program is recorded.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Information Transfer Between Computers (AREA)
- Operations Research (AREA)
Abstract
본 발명은 적어도 하나의 프로세서에 의해 동작하는 장치가 동일 사용자의 닉네임을 추출하는 방법으로서, 서버로부터 온라인 커뮤니티 내에 업로드 된 게시글을 수신하는 단계, 상기 게시글에서 상기 게시글을 작성한 사용자를 식별하는 적어도 하나 이상의 특징 정보를 추출하는 단계, 그리고 복수의 닉네임 집합에서 상기 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 단계를 포함한다.
Description
본 발명은 온라인 커뮤니티에서 동일 사용자의 닉네임 목록을 추출하는 장치 및 방법에 관한 것이다.
모바일 및 유무선 네트워크 기술의 발전에 따라 시간과 공간의 제약 없이 웹에 접근할 수 있게 되어 다양한 서비스들이 등장하고 있다. 대표적인 온라인 서비스로는 소셜 네트워크 서비스(Social Network Service, SNS), 그리고 온라인 커뮤니티(Online Community)가 있다.
소셜 네트워크 서비스는 사용자들이 정보를 공유하고, 다른 사용자들과 의사소통할 수 있는 온라인 서비스로서, 페이스북, 트위터, 인스타그램 등이 있다.
온라인 커뮤니티는 사용자들이 웹상에서 공통된 관심사 및 취향에 대한 정보를 생산, 공유하고 이들이 모여 활동할 수 있도록 공간을 마련해 주는 서비스로서, 웹의 초창기부터 제공된 형태의 서비스이다.
이러한 온라인 소셜 네트워크 서비스의 확산에 따라 온라인 소셜 네트워크 사용자들이 자발적으로 업로드한 다량의 글, 이미지, 위치 태그들을 이용하여 사회 현상을 분석하고, 선거 결과를 예측하는 등 다양한 분석 자료로 활용하는 연구가 지속되고 있다.
그러나 온라인 커뮤니티는 개인의 정보가 명확히 드러나지 않고, 닉네임을 변경함에 따라 과거의 신원과의 연속성이 단절되어 개인 정보를 식별하기 어려워 온라인 커뮤니티 내의 게시글을 비롯한 데이터들은 다양한 분석 자료로 활용되는 사례가 극히 드물다.
온라인 커뮤니티는 익명성을 보장하기 때문에 사용자들은 더욱 솔직한 의견을 게시할 수 있으므로, 온라인 커뮤니티에 포함된 다수의 데이터를 다양한 분석 자료로 활용할 수 있도록 개인 정보를 식별하기 위한 연구가 필요하다.
본 발명이 해결하고자 하는 과제는 익명성이 보장된 온라인 커뮤니티에서 사용자가 닉네임을 변경하더라도 변경 전 닉네임과 변경 후 닉네임이 동일인임을 식별할 수 있도록 동일 사용자의 닉네임 목록을 추출하는 장치 및 방법을 제공하는 것이다.
본 발명의 한 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 장치가 동일 사용자의 닉네임을 추출하는 방법은 서버로부터 온라인 커뮤니티 내에 업로드 된 게시글을 수신하는 단계, 상기 게시글에서 상기 게시글을 작성한 사용자를 식별하는 적어도 하나 이상의 특징 정보를 추출하는 단계, 그리고 복수의 닉네임 집합에서 상기 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 단계를 포함한다.
상기 복수의 닉네임 집합에서 동일 사용자가 아닌 것으로 확정되는 닉네임을 제외하여 후보 닉네임 집합을 선별하는 단계를 더 포함하고, 상기 닉네임 추출 단계는 상기 후보 닉네임 집합에서 상기 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출할 수 있다.
상기 동일 사용자가 아닌 것으로 확정되는 닉네임은 사용 기간이 중첩되는 닉네임인 닉네임일 수 있다.
상기 특징 정보를 추출하는 단계는 상기 사용자의 관심 정보를 식별할 수 있는 단어 특징 정보, 상기 사용자의 활동 시간 특징 정보, 상기 게시글 특징 정보, 그리고 상기 사용자와 다른 사용자와의 커뮤니케이션 관계 특징 정보 중 적어도 하나 이상의 특징 정보를 추출할 수 있다.
상기 단어 특징 정보는 상기 게시글 텍스트에서 형태소 분석을 이용하여 적어도 하나 이상의 특징 단어, 그리고 상기 특징 단어의 사용 빈도 수 정보를 포함할 수 있다.
상기 커뮤니케이션 관계 특징 정보는 상기 사용자가 작성한 적어도 하나의 게시글에 대하여 답글을 작성하거나 공감을 표현한 닉네임 정보인 제1 닉네임 특징 정보, 상기 사용자가 답글을 작성하거나, 공감을 표현한 타 사용자의 게시글 작성자 닉네임 정보인 제2 닉네임 특징 정보, 그리고 상기 제1 닉네임 특징 정보와 상기 제2 닉네임 특징 정보를 조합한 특징 정보 중 적어도 하나 이상일 수 있다.
본 발명의 한 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 장치가 동일 사용자의 닉네임을 추출하는 방법은 서버로부터 온라인 커뮤니티 내에 업로드 된 게시글을 수신하는 단계, 상기 게시글에서 사용자의 관심 정보를 식별할 수 있는 단어 특징 정보, 상기 사용자의 활동 시간 특징 정보, 상기 게시글 특징 정보, 그리고 상기 사용자와 다른 사용자와의 커뮤니케이션 관계 특징 정보 중 적어도 둘 이상을 포함하는 특징 정보를 추출하는 단계, 복수의 닉네임 간 상기 특징 정보들의 유사 정도를 계산하는 단계, 상기 특징 정보마다 서로 다른 가중값을 상기 유사 정도에 부여하는 단계, 그리고 상기 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 단계를 포함한다.
상기 복수의 닉네임에서 동일 사용자가 아닌 것으로 확정되는 닉네임을 제외하여 후보 닉네임 집합을 선별하는 단계를 더 포함하고, 상기 닉네임 추출 단계는 상기 후보 닉네임 집합에서 상기 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출할 수 있다.
상기 동일 사용자가 아닌 것으로 확정되는 닉네임은 사용 기간이 중첩되는 닉네임일 수 있다.
상기 가중값은 유전 알고리즘을 통해 산출된 값일 수 있다.
본 발명의 한 실시예에 따른 동일한 사용자의 닉네임을 추출하기 위한 장치는 온라인 커뮤니티에 업로드된 적어도 하나의 게시글을 수신하는 게시글 수신부, 상기 게시글에서 상기 게시글을 작성한 사용자를 식별하는 적어도 하나 이상의 특징 정보를 추출하는 특징 정보 추출부, 그리고 상기 특징 정보를 기초로 복수의 닉네임 집합에서 상기 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 동일 사용자 추출부를 포함한다.
상기 동일 사용자 추출부는 상기 복수의 닉네임 집합에서 동일 사용자가 아닌 것으로 확정되는 닉네임을 제외하여 후보 닉네임 집합을 선별하고, 상기 후보 닉네임 집합에서 상기 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출할 수 있다.
상기 동일 사용자가 아닌 것으로 확정되는 닉네임은 사용 기간이 중첩되는 닉네임일 수 있다.
상기 특징 정보 추출부는 상기 사용자의 관심 정보를 식별할 수 있는 단어 특징 정보, 상기 사용자의 활동 시간 특징 정보, 상기 게시글 특징 정보, 그리고 상기 사용자와 다른 사용자와의 커뮤니케이션 관계 특징 정보 중 적어도 하나 이상의 특징 정보를 추출할 수 있다.
상기 단어 특징 정보는 상기 게시글 텍스트에서 형태소 분석을 이용하여 적어도 하나 이상의 특징 단어, 그리고 상기 특징 단어의 사용 빈도수 정보를 포함할 수 있다.
상기 커뮤니케이션 관계 특징 정보는 상기 사용자가 작성한 적어도 하나의 게시글에 대하여 답글을 작성하거나 공감을 표현한 닉네임 정보인 제1 닉네임 특징 정보, 상기 사용자가 답글을 작성하거나, 공감을 표현한 타 사용자의 게시글 작성자 닉네임 정보인 제2 닉네임 특징 정보, 그리고 상기 제1 닉네임 특징 정보와 상기 제2 닉네임 특징 정보를 조합한 특징 정보 중 적어도 하나 이상일 수 있다.
본 발명의 한 실시예에 따른 동일한 사용자의 닉네임을 추출하기 위한 장치는 온라인 커뮤니티에 업로드된 적어도 하나의 게시글을 수신하는 게시글 수신부, 상기 게시글에서 사용자의 관심 정보를 식별할 수 있는 단어 특징 정보, 상기 사용자의 활동 시간 특징 정보, 상기 게시글 특징 정보, 그리고 상기 사용자와 다른 사용자와의 커뮤니케이션 관계 특징 정보 중 적어도 둘 이상을 포함하는 특징 정보를 추출하는 특징 정보 추출부, 그리고 복수의 닉네임 간 상기 특징 정보들의 유사 정도를 계산하고, 상기 특징 정보마다 서로 다른 가중값을 상기 유사 정도에 부여하며, 상기 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 동일 사용자 추출부를 포함한다.
상기 동일 사용자 추출부는 상기 복수의 닉네임에서 동일 사용자가 아닌 것으로 확정되는 닉네임을 제외하여 후보 닉네임 집합을 선별하고, 상기 후보 닉네임 집합에서 상기 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출할 수 있다.
상기 동일 사용자가 아닌 것으로 확정되는 닉네임은 사용 기간이 중첩되는 닉네임일 수 있다.
상기 가중값은 유전 알고리즘을 통해 산출된 값일 수 있다.
본 발명의 실시예에 따르면 온라인 커뮤니티에서 사용자가 닉네임을 변경하더라도 동일 사용자의 닉네임 목록을 추출함으로써 서로 다른 닉네임으로 활동한 데이터를 일인(一人)의 자료로 수집할 수 있다.
본 발명의 실시예에 따르면 익명성이 보장된 온라인 커뮤니티에서 어뷰징(abusing)을 일삼는 사용자를 차단할 수 있다.
도 1은 본 발명의 한 실시예에 따른 동일 사용자 추적 시스템의 구성도이다.
도 2는 본 발명의 한 실시예에 따른 닉네임 추출 장치가 동일 사용자로 예측되는 닉네임 사용자를 추출하는 방법의 흐름도이다.
도 3은 본 발명의 한 실시예에 따른 닉네임 추출 장치가 단어 특징 정보를 이용하여 동일 사용자인 것으로 예측되는 닉네임 사용자를 추출한 결과의 정확도를 나타내는 도면이다.
도 4는 본 발명의 한 실시예에 따른 닉네임 추출 장치가 커뮤니케이션 관계 특징 정보를 이용하여 동일 사용자인 것으로 예측되는 닉네임 사용자를 추출한 결과의 정확도를 나타내는 도면이다.
도 5 및 도 6은 본 발명의 한 실시예에 따른 닉네임 추출 장치가 특징 정보를 이용하여 동일 사용자를 추론한 예시적 결과이다.
도 7은 본 발명의 제1 실시예 및 제2 실시예와 종래 기술을 비교한 결과이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
다음에서, 온라인 커뮤니티는 주로 특정 취미에 따라 개설된 게시판에 게시글을 올리고 해당 주제에 관심 있는 사용자가 답글을 달거나, 공감을 표시하거나, 다른 커뮤니티로 공유하는 형태로 구성될 수 있다.
다음에서, 온라인 커뮤니티 내에서 닉네임을 변경함에 따라 과거의 신원과의 연속성이 단절되는 특성에 따라 닉네임 변경에도 동일한 사용자를 추출할 것을 그 예로 들었으나, 본 발명은 반드시 이에 한정하는 것은 아니며 동일 사용자가 복수의 계정을 생성하고, 각각 생성한 계정으로 소셜 네트워크 서비스를 이용할 때, 동일 사용자를 추출하는 방법으로도 확장 가능하다.
또한, 다음에서 설명하는 동일한 사용자를 추출하는 장치 및 방법은 온라인 커뮤니티 내에서 닉네임 변경에 따른 익명성 보장이 어느 정도 수준으로 이루어지는지 평가할 수 있는 방법으로 활용 가능하다.
온라인 커뮤니티에서는 익명성이 일정 수준 보장되기 때문에 보다 자유롭게 자신의 의견을 드러낼 수 있다. 온라인 커뮤니티에서 자신이 드러낸 신상 정보에 의해 개인이 식별될 가능성이 있기 때문에, 자신의 신원이 노출되는 것을 꺼리는 사용자들은 닉네임을 변경함으로써 자신의 익명성을 보장하고자 하는데, 닉네임 추적에 따라 동일인으로 식별될 수 있는 정도를 정량적으로 분석함으로써, 익명성 보장에 대한 기준을 마련할 수 있다.
또한, 다음에서 설명하는 동일한 사용자를 추출하는 장치 및 방법은 온라인 커뮤니티 내에서 익명성 보장을 악용한 사이버 괴롭힘(cyber bullying)을 차단하는 방법으로 활용 가능하다. 즉, 닉네임 추적을 통해 동일 사용자를 식별하고 시스템적으로 어뷰징을 일삼는 사용자를 차단할 수 있다.
도 1은 본 발명의 한 실시예에 따른 동일 사용자 추적 시스템의 구성도이다.
도 1을 참고하면, 사용자 추적 시스템(10)은 온라인 커뮤니티 제공 서버(200), 그리고 온라인 커뮤니티 제공 서버(200)로부터 온라인 커뮤니티 내에 업로드된 게시글 정보를 전송받아 동일 사용자의 닉네임을 추출하는 닉네임 추출 장치(100)를 포함할 수 있다.
온라인 커뮤니티 제공 서버(200)는 온라인 커뮤니티 내에 업로드된 게시글 정보를 닉네임 추출 장치(100)로 제공한다. 온라인 커뮤니티 제공 서버(200)는 일정 기간의 온라인 커뮤니티의 게시글을 수집하고, 게시글에 나타난 정보, 예를 들어 게시글 작성자 닉네임, 게시글 텍스트, 게시글 작성 시각 정보, 게시글 답글 작성자 닉네임, 게시글 답글 텍스트, 게시글 답글 작성 시각 정보, 게시글 공감자 닉네임, 게시글 공유자 닉네임 등의 정보를 데이터베이스화하여 저장하고 있을 수 있다.
닉네임 추출 장치(100)는 적어도 하나의 프로세서에 의해 동작하고, 게시글 수신부(110), 특징 정보 추출부(120), 그리고 동일 사용자 추출부(130)를 포함한다.
게시글 수신부(110)는 온라인 커뮤니티 제공 서버(200)로부터 온라인 커뮤니티의 게시판에 업로드된 게시글을 수신한다. 본 실시예에서 게시글은 게시판에 작성되는 제목을 포함하여 텍스트, 이미지, 그리고 영상 중 적어도 하나 이상의 내용을 포함하는 일반 글, 일반 글에 대하여 온라인 커뮤니티 사용자의 생각을 짧은 문장, 이모티콘 등으로 표현한 답글을 포함할 수 있다.
특징 정보 추출부(120)는 게시글 수신부(110)에서 수신한 게시글에서 게시글을 작성한 사용자를 식별할 수 있는 특징 정보를 추출한다. 특징 정보 추출부(120)가 추출하는 특징 정보의 종류는 다양할 수 있다.
특징 정보 추출부(120)는 해당 커뮤니티 내에 업로드한 게시글에 반영된 사용자의 문체 특징, 게시글에 대한 타 사용자와의 답글, 공감, 공유 정보를 이용한 사용자 간의 커뮤니케이션 관계 특징, 게시글 업로드 시각 정보를 이용한 커뮤니티 활동 시각 특징, 게시글 길이, 사용 단어 개수, 이모티콘 개수, 이미지 업로드 수, 그리고 이미지 정보를 이용한 게시글 특징 등을 추출하여 사용자 고유의 행동 패턴을 식별하도록 할 수 있다.
한 실시예에 따르면 특징 정보 추출부(120)는 단어 특징을 추출할 수 있다. 온라인 커뮤니티 사용자는 일반글과 답글을 포함하는 게시글을 작성하고, 여기에는 작성자의 관심사나 취향과 같은 사용자 고유의 특징이 반영된다. 특징 정보 추출부(120)는 게시글의 제목, 게시글의 내용, 게시글의 답글을 형태소 분석하여 사용자의 고유 특징을 반영한 특징 단어들을 추출할 수 있다.
한 실시예에 따르면 특징 정보 추출부(120)는 활동 시각 특징을 추출할 수 있다. 온라인 커뮤니티 사용자는 라이프 스타일에 따라 서로 다른 활동 시각을 가질 수 있다. 예를 들면 직장인들은 점심시간이나 출퇴근 시간, 또는 퇴근시간 이후에 주로 커뮤니티를 사용할 수 있고, 학생은 학기 중과 방학 중에 커뮤니티의 활동 시간 패턴이 달라질 수 있다. 특징 정보 추출부(120)는 일반글, 답글을 포함하는 게시글의 작성 시각 정보를 추출할 수 있다.
한 실시예에 따르면 특징 정보 추출부(120)는 게시글 특징을 추출할 수 있다. 온라인 커뮤니티 사용자는 자신의 특징에 따라 게시글 사용 패턴이 달라질 수 있다. 예를 들어 온라인 커뮤니티 사용자 중에는 이미지 업로드를 주로 수행하는 사용자, 장문의 글을 게시하는 사용자, 일반글은 게시하지 않고 답글만을 작성하는 사용자 등을 포함할 수 있다. 특징 정보 추출부(120)는 게시글에 포함된 텍스트 내용의 길이, 사용 단어 개수, 이모티콘 개수, 이미지 업로드 수, 그리고 이미지 정보를 추출할 수 있다.
한 실시예에 따르면 특징 정보 추출부(120)는 커뮤니케이션 관계 특징을 추출할 수 있다. 온라인 커뮤니티에는 소셜 네트워크 서비스에 존재하는 친구 맺기, 또는 팔로워/팔로잉 등으로 명시적으로 드러나는 친구 리스트가 없다. 따라서 일반글과 일반글에 달리는 답글을 통해 간접적으로 사용자들 사이의 관계를 확인할 수 있다. 온라인 커뮤니티 활동 시간이 길어 질수록 답글을 통해 교류하는 사용자들이 형성될 수 있고, 닉네임이 변경된 이후에도 고유하게 유지될 수 있다. 특징 정보 추출부(120)는 사용자가 작성한 게시글에 대하여 답글을 작성하거나, 공감을 표현하거나, 다른 커뮤니티로 게시글을 공유한 다른 닉네임 사용자 목록을 추출하고, 닉네임 사용자마다 답글을 작성하거나, 공감을 표현하거나, 공유한 게시글의 작성자 목록을 추출하여 사용자간의 커뮤니케이션 관계 정보를 추출할 수 있다.
동일 사용자 추출부(130)는 특징 정보 추출부(120)에서 추출한 다양한 특징 정보 중 적어도 하나 이상의 특징 정보를 이용하여 복수의 닉네임 집합에서 동일 사용자가 이용한 것으로 예측할 수 있는 닉네임 그룹을 추출한다.
한 실시예에 따르면 동일 사용자 추출부(130)는 복수의 닉네임 집합에서 특징 정보를 이용하여 동일 사용자가 이용한 것으로 예측되는 닉네임 그룹을 추출하기 전에, 동일한 사용자가 아닌 것으로 확정되는 닉네임 그룹을 제외할 수 있다.
즉, 동일한 사용자라면 일정 사용 기간 이내에서는 두 개 이상의 닉네임을 사용할 수는 없기 때문에 사용 기간이 중첩하는 닉네임 그룹은 동일한 사용자가 아닌 것으로 확정하고, 사용 기간이 중첩하는 닉네임 그룹을 제외하여 동일 사용자인 것으로 예측되는 닉네임 후보 그룹을 추출할 수 있다.
동일 사용자 추출부(130)는 어느 하나의 닉네임 사용자와 동일 사용자 인 것으로 예측되는 닉네임 후보 그룹에 속하는 복수의 닉네임 사용자와의 특징 정보 유사도를 각각 계산할 수 있다.
동일 사용자 추출부(130)는 특징 정보 추출부(120)에서 추출한 단어 특징 정보, 활동 시각 특징 정보, 게시글 특징, 커뮤니케이션 관계 특징 중 적어도 하나 이상의 특징 정보를 이용하여 특징 정보의 유사 정도가 일정 기준 이상인 닉네임 에 대하여 동일 사용자인 것으로 결정할 수 있다.
한편, 한 실시예에서 동일 사용자 추출부(130)는 특징 정보 추출부(120)에서 추출한 단어 특징 정보, 활동 시각 특징 정보, 게시글 특징, 커뮤니케이션 관계 특징 정보에 가중치를 설정하고, 가중 합을 계산하여 특징 정보의 유사 정도가 일정 기준 이상인 닉네임에 대하여 동일 사용자인 것으로 결정할 수도 있다.
특징 정보의 종류에 따라 어느 특징 정보는 실제 사용자의 고유 특성을 매우 높은 정확도로 반영하고 있는 반면, 일정 특징 정보는 실제 사용자의 고유 특성을 미진한 정확도로 반영할 수 있다. 따라서, 동일 사용자 추출부(130)는 단어 특징 정보, 활동 시각 특징 정보, 게시글 특징 정보, 커뮤니케이션 관계 특징 정보에 서로 다른 파라미터의 가중치를 부여하여 신뢰성이 높은 결과를 획득할 수 있다.
동일 사용자 추출부(130)는 유전자 알고리즘(genetic algorithms, GA)를 통해 최적의 파라미터를 추출할 수 있다. 먼저, 동일 사용자 추출부(130)는 각 특징 정보에 대한 가중치를 임의로 설정한 50개의 개체를 무작위로 선택하여 초기 세대를 생성한다. 그리고 각각 단계마다 각 개체들에 대한 적합도를 수행하고, 각 개체에 할당된 가중치를 적용하여 얻은 정확도를 해당 개체의 적합 정도로 판단한다.
이후, 각 개체의 후손을 남기기 위하여 선별, 교배, 돌연변이 방법을 선택하는데, 선별은 적합 정도가 높은 상위 10개의 개체를 다음 세대로 전달하는 것을 의미하고, 교배는 상위 10개의 개체를 제외한 나머지 개체 중 30개의 개체를 두 개씩 짝지어 가중치를 반반 섞는 것을 의미한다. 그리고 나머지 선별, 교배가 이루어지지 않은 나머지 개체 10개는 임의의 특징 정보를 무작위로 변경한다.
상술한 과정을 수회, 수십 회 반복한 다음, 적합도가 가장 높은 개체를 특징 정보에 대한 최적의 파라미터로 설정할 수 있다.
이와 같이 본 발명의 실시예에 따른 닉네임 추출 장치(100)는 온라인 커뮤니티에서 사용자가 닉네임을 변경하더라도 동일 사용자의 닉네임 목록을 추출함으로써 서로 다른 닉네임으로 활동한 경우에도 동일 인물에대한 수집 데이터 단절을 방지할 수 있다.
도 2는 본 발명의 한 실시예에 따른 닉네임 추출 장치가 동일 사용자로 예측되는 닉네임 사용자를 추출하는 방법의 흐름도이다.
닉네임 추출 장치(100)는 온라인 커뮤니티 제공 서버(200)로부터 온라인 커뮤니티 내에 업로드 된 게시글 정보를 수신한다(S110).
닉네임 추출 장치(100)는 게시글 정보에서 게시글을 작성한 사용자를 식별하는 특징 정보를 추출한다(S120). 닉네임 추출 장치(100)가 추출하는 특징 정보의 종류는 다양할 수 있다. 예를 들어, 닉네임 추출 장치(100)는 작성자의 관심사나 취향과 같은 사용자 고유의 특징이 반영된 단어 특징 정보, 게시글의 작성 시각 정보, 게시글 특징 정보, 타 사용자들과의 커뮤니케이션 관계 특징 정보를 추출할 수 있다.
단어 특징 정보는 게시글의 제목, 게시글의 내용, 게시글의 답글을 형태소 분석을 통해 추출될 수 있다. 게시글 특징 정보는 게시글에 포함된 텍스트 내용의 길이, 사용 단어 개수, 이모티콘 개수, 이미지 업로드 수, 그리고 이미지 정보의 평균 및 분산 값을 이용하여 추출될 수 있다. 커뮤니케이션 관계 특징 정보는 사용자가 작성한 게시글에 대하여 답글을 작성하거나, 공감을 표현하거나, 다른 커뮤니티로 게시글을 공유한 다른 닉네임 사용자 목록을 추출하고, 닉네임 사용자마다 답글을 작성하거나, 공감을 표현하거나, 공유한 게시글의 작성자 목록을 이용하여 추출될 수 있다.
닉네임 추출 장치(100)는 복수의 닉네임 집합에서 동일한 사용자가 아닌 것으로 확정되는 닉네임 그룹을 제외하여 후보 닉네임 집합을 선별한다(S130).
동일한 사용자라면 온라인 커뮤니티 내의 일정 사용 기간 이내에서는 두 개 이상의 닉네임을 사용할 수는 없기 때문에 사용 기간이 중첩하는 닉네임은 동일한 사용자가 아닌 것으로 확정하고, 사용 기간이 중첩하는 닉네임을 제외하여 후보 닉네임 집합을 선별할 수 있다.
전체 닉네임 집합 N={N1, N2,…,Nm}중 어느 하나의 원소인 Ni에 대하여 사용 인터벌 NTNi=[tp, tq]을 가질 때, 후보 닉네임 집합(CSNi)은 수학식 1과 같이 정의될 수 있다.
[수학식 1]
그리고 닉네임 추출 장치(100)는 추출한 특징 정보를 기초로 후보 닉네임 집합에서 동일한 사용자가 이용한 것으로 예측되는 닉네임 사용자를 추출한다(S140).
닉네임 추출 장치(100)는 어느 하나의 닉네임 사용자의 특징 정보, 그리고 닉네임 사용자와 동일한 사용자일 것으로 예측되는 후보 닉네임 집합에 포함된 각 닉네임 사용자의 특징 정보와의 유사 정도를 계산한다.
본 실시예에서 닉네임 추출 장치(100)는 하기 표 1과 같이 단어 특징 정보 및 커뮤니케이션 관계 특정 정보에 대해서는 복수의 닉네임 사용자와의 특징 정보와의 자카드 유사도를 이용하여 유사 정도를 계산할 수 있고, 활동 시각 특징 정보에 대해서는 동적 타임 워핑(Dynamic time warping) 알고리즘을 이용하여 유사 정도를 계산할 수 있으며, 게시글 특징 정보에 대해서는 평균 및 분산 값을 이용하여 유사 정도를 계산할 수 있다.
특징 정보 종류 | 세부 특징 정보 | metric |
단어 특징 정보 | 일반글 제목 특징 단어 | 자카드 유사도 |
일반글 내용 특징 단어 | 자카드 유사도 | |
답글 특징 단어 | 자카드 유사도 | |
활동 시각 특징 정보 | 일반글 작성 시간 | 동적타임워핑(DTW) |
답글 작성 시간 | 동적타임워핑(DTW) | |
게시글 특징 정보 | 일반글/답글 작성 비율 | 비율 |
일반글 제목 길이 | 평균 | |
분산 | ||
일반글 내용 길이 | 평균 | |
분산 | ||
일반글 제목 단어 수 | 평균 | |
분산 | ||
일반글 내용 단어 수 | 평균 | |
분산 | ||
답글 수 | 평균 | |
분산 | ||
이미지 수 | 평균 | |
분산 | ||
조회수 | 평균 | |
분산 | ||
커뮤니케이션 관계 특징 정보 | 게시글에 대해 반응을 보인 타 사용자 목록(제1목록) | 자카드 유사도 |
반응을 보인 타 게시글의 작성자 목록(제2 목록) | 자카드 유사도 | |
합집합(제1 목록, 제2목록) | 자카드 유사도 | |
교집합(제1 목록, 제2 목록) | 자카드 유사도 |
그리고 닉네임 추출 장치(100)는 후보 닉네임 집합에 포함된 닉네임 사용자 중에서 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 추출하여 동일 사용자인 것으로 결정할 수 있다.
표 1과 같이 단어 특징 정보, 활동 시각 특징 정보, 게시글 특징 정보, 그리고 커뮤니케이션 관계 특징 정보에 포함된 세부 특징 정보(총 24개) F={f1, f2, …, f24}에 대해 Ni와 CSNi에 속하는 후보 닉네임들과의 유사도를 키 값(key-value) 형태로 구하고 이를 원소로 하는 집합의 형태로 리턴 해주는 함수를 simfi(CSNi) 라고 정의한다.
그리고 이때 어느 하나의 세부 특징 정보 fj에 대한 후보군 집합은 다음의 수학식 2와 같이 정의할 수 있다.
[수학식 2]
그리고 후보군 집합에 속하는 닉네임 중에서 유사도가 높은 상위 k 개 닉네임들을 원소로 가지는 집합을 최종 후보군 집합 SubCSNi,fj으로 정의할 수 있다.
한편, 다른 실시예에서 동일 사용자 추출부(130)는 특징 정보 추출부(120)에서 추출한 단어 특징 정보, 활동 시각 특징 정보, 게시글 특징, 커뮤니케이션 관계 특징 정보에 가중치를 설정하고, 가중 합을 계산하여 특징 정보의 유사 정도가 일정 기준 이상인 닉네임에 대하여 동일 사용자인 것으로 결정할 수도 있다. 이때, 동일 사용자 추출부(130)는 유전자 알고리즘(genetic algorithms, GA)를 통해 최적의 가중치를 추출하여 신뢰성이 높은 결과를 획득할 수 있다.
도 3은 본 발명의 한 실시예에 따른 닉네임 추출 장치가 단어 특징 정보를 이용하여 동일 사용자인 것으로 예측되는 닉네임 사용자를 추출한 결과의 정확도를 나타내는 도면이고, 도 4는 본 발명의 한 실시예에 따른 닉네임 추출 장치가 커뮤니케이션 관계 특징 정보를 이용하여 동일 사용자인 것으로 예측되는 닉네임 사용자를 추출한 결과의 정확도를 나타내는 도면이다.
한편, 본 발명의 한 실시예에서 Ni에 대한 동일 사용자 추론의 정확도는 하기의 수학식 3과 같이 구하였다.
[수학식 3]
여기서, SolNi는 실제 동일 사용자가 사용한 닉네임들의 집합이다.
도 3을 참고하면, 일반글의 제목에 포함된 단어 특징 정보, 일반글의 내용에 포함된 단어 특징 정보, 답글에 포함된 단어 특징 정보 순서대로 동일 사용자 추론에 대해 높은 정확도를 보이는 것을 확인할 수 있다.
전반적으로 답글보다는 일반글과 관련된 단어들이 높은 정확도를 보이는데, 이는 일반적으로 일반글의 제목이나 내용은 사용자의 관심사나 취향을 반영하여 개인별로 뚜렷한 특징을 보일 수 있는 단어들이 많이 사용되기 때문이다.
반면에 답글은 해당 답글이 작성된 일반글의 내용에 대한 의견 표현이 주를 이루기 때문에 상대적으로 낮은 정확도인 것을 확인할 수 있다.
도 4를 참고하면, 특정 닉네임 사용자가 작성한 게시글에 대하여 답글을 작성하거나, 공감을 표현하거나, 공유한 다른 사용자(제1 목록) 특징 정보가 특정 닉네임 사용자가 반응을 보인 타 게시글의 작성자(제2 목록) 특징 정보보다 높은 정확도를 갖는다. 이는 제1 목록 특징 정보가 제2 목록 특징 정보에 비하여 누적된 데이터를 포함할 수 있기 때문에 특정 닉네임을 식별하는데에 더욱 높은 정확도를 가지는 것으로 해석할 수 있다.
한편, 제1 목록과 제2 목록의 합집합으로부터 도출한 특징 정보가 제1 목록과 제2 목록의 교집합으로부터 도출한 특징 정보보다 높은 정확도를 갖는다. 마찬가지로 합집합으로부터 도출한 특징 정보는 교집합으로부터 도출한 특징 정보에 비하여 누적된 데이터를 다량 포함할 수 있으므로, 특정 닉네임을 식별하는데에 더욱 높은 정확도를 가지는 것으로 해석할 수 있다.
도 5 및 도 6은 본 발명의 한 실시예에 따른 닉네임 추출 장치가 특징 정보를 이용하여 동일 사용자를 추론한 예시적 결과이다.
도 5는 닉네임에 대한 특징 정보별 정확도를 시각화한 hitmap이며, 열은 닉네임이고, 행은 특징 정보들이다. 각 셀은 정답률을 의미하는 것으로 어둡게 나타나는 셀은 특징 정보에 대한 정답률이 높은 것을 의미한다. 대체적으로 단어 특징 정보와 커뮤니케이션 관계 특징 정보가 높은 정확도를 보이는 것을 확인할 수 있었다.
도 6은 도 5의 결과를 정밀하게 분석하기 위하여 위해 X-means 알고리즘을 통해 클러스터링한 결과이다.
클러스터 1의 경우, 특징 정보가 닉네임 식별 정보를 충분히 반영하지 않아 닉네임 식별을 할 수 없는 결과를 나타낸다.
클러스터 2는 단어 특징 정보들에서 높은 정답률을 갖는 결과를 확인할 수 있다.
클러스터 3, 4는 단어 특징 정보, 커뮤니케이션 관계 특징 정보들에서 높은 정답률을 갖는 결과를 확인하였다.
도 3 내지 도 6의 결과를 참고하면, 동일 사용자 추론의 정확도는 각 특징 정보 마다 다른 정확도를 나타내는 것을 확인할 수 있다.
따라서, 본 발명의 다른 실시예에 따른 닉네임 추출 장치(100)는 각 특징 정보에 서로 다른 가중치를 부여하여 특징 정보들의 가중 합을 통해 동일 사용자를 추론할 수 있다.
도 7은 본 발명의 제1 실시예 및 제2 실시예와 종래 기술을 비교한 결과이다.
도 7을 참고하면, 종래 기술(jaro distance)에 따라 특징 정보의 유사도를 계산하여 동일 사용자를 추론한 결과의 정확도는 약 17%로 비교적 낮은 것을 확인할 수 있다.
반면 본 발명의 제1 실시예에 따른 닉네임 추출 장치가 게시글에서 추출한 복수의 특징 정보를 이용하여 동일 가중치를 두고, 동일 사용자를 추론한 결과의 정확도는 약 55%인 것으로 종래 기술에 비해 정확도가 향상된 것을 확인할 수 있다.
한편, 본 발명의 제2 실시예에 따른 닉네임 추출 장치가 게시글에서 추출한 복수의 특징 정보에 서로 다른 가중치를 부여하여 가중 합을 통해 동일 사용자를 추론한 결과는 정확도가 약 75%로 종래 기술 및 제1 실시예에 비하여 더욱 향상한 것을 확인할 수 있다.
이와 같이, 본 발명의 실시예에 따르면 닉네임 변경이 가능한 온라인 커뮤니티 내에서 동일 사용자에 속하는 닉네임을 추출함으로써, 익명성이 보장된 온라인 커뮤니티에서도 개인에 대한 프로파일링을 수행할 수 있다. 이러한 프로파일링 결과를 이용하여 기업의 의사 결정이나 사회 현상을 분석하기 적합한 정보를 획득할 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
Claims (20)
- 적어도 하나의 프로세서에 의해 동작하는 장치가 동일 사용자의 닉네임을 추출하는 방법으로서,서버로부터 온라인 커뮤니티 내에 업로드 된 게시글을 수신하는 단계,상기 게시글에서 상기 게시글을 작성한 사용자를 식별하는 적어도 하나 이상의 특징 정보를 추출하는 단계, 그리고복수의 닉네임 집합에서 상기 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 단계를 포함하는 닉네임 추출 방법.
- 제1항에서,상기 복수의 닉네임 집합에서 동일 사용자가 아닌 것으로 확정되는 닉네임을 제외하여 후보 닉네임 집합을 선별하는 단계를 더 포함하고,상기 닉네임 추출 단계는상기 후보 닉네임 집합에서 상기 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 닉네임 추출 방법.
- 제2항에서,상기 동일 사용자가 아닌 것으로 확정되는 닉네임은 사용 기간이 중첩되는 닉네임인 닉네임 추출 방법.
- 제1항에서,상기 특징 정보를 추출하는 단계는상기 사용자의 관심 정보를 식별할 수 있는 단어 특징 정보, 상기 사용자의 활동 시간 특징 정보, 상기 게시글 특징 정보, 그리고 상기 사용자와 다른 사용자와의 커뮤니케이션 관계 특징 정보 중 적어도 하나 이상의 특징 정보를 추출하는 닉네임 추출 방법.
- 제4항에서,상기 단어 특징 정보는상기 게시글 텍스트에서 형태소 분석을 이용하여 적어도 하나 이상의 특징 단어, 그리고 상기 특징 단어의 사용 빈도 수 정보를 포함하는 닉네임 추출 방법.
- 제4항에서,상기 커뮤니케이션 관계 특징 정보는상기 사용자가 작성한 적어도 하나의 게시글에 대하여 답글을 작성하거나 공감을 표현한 닉네임 정보인 제1 닉네임 특징 정보,상기 사용자가 답글을 작성하거나, 공감을 표현한 타 사용자의 게시글 작성자 닉네임 정보인 제2 닉네임 특징 정보, 그리고상기 제1 닉네임 특징 정보와 상기 제2 닉네임 특징 정보를 조합한 특징 정보 중 적어도 하나 이상인 닉네임 추출 방법.
- 적어도 하나의 프로세서에 의해 동작하는 장치가 동일 사용자의 닉네임을 추출하는 방법으로서,서버로부터 온라인 커뮤니티 내에 업로드 된 게시글을 수신하는 단계,상기 게시글에서 사용자의 관심 정보를 식별할 수 있는 단어 특징 정보, 상기 사용자의 활동 시간 특징 정보, 상기 게시글 특징 정보, 그리고 상기 사용자와 다른 사용자와의 커뮤니케이션 관계 특징 정보 중 적어도 둘 이상을 포함하는 특징 정보를 추출하는 단계,복수의 닉네임 간 상기 특징 정보들의 유사 정도를 계산하는 단계,상기 특징 정보마다 서로 다른 가중값을 상기 유사 정도에 부여하는 단계, 그리고상기 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 단계를 포함하는 닉네임 추출 방법.
- 제7항에서,상기 복수의 닉네임에서 동일 사용자가 아닌 것으로 확정되는 닉네임을 제외하여 후보 닉네임 집합을 선별하는 단계를 더 포함하고,상기 닉네임 추출 단계는상기 후보 닉네임 집합에서 상기 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 닉네임 추출 방법.
- 제8항에서,상기 동일 사용자가 아닌 것으로 확정되는 닉네임은 사용 기간이 중첩되는 닉네임인 닉네임 추출 방법.
- 제7항에서,상기 가중값은 유전 알고리즘을 통해 산출된 값인 닉네임 추출 방법.
- 동일한 사용자의 닉네임을 추출하기 위한 장치로서,온라인 커뮤니티에 업로드된 적어도 하나의 게시글을 수신하는 게시글 수신부,상기 게시글에서 상기 게시글을 작성한 사용자를 식별하는 적어도 하나 이상의 특징 정보를 추출하는 특징 정보 추출부, 그리고상기 특징 정보를 기초로 복수의 닉네임 집합에서 상기 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 동일 사용자 추출부를 포함하는 닉네임 추출 장치.
- 제11항에서,상기 동일 사용자 추출부는상기 복수의 닉네임 집합에서 동일 사용자가 아닌 것으로 확정되는 닉네임을 제외하여 후보 닉네임 집합을 선별하고,상기 후보 닉네임 집합에서 상기 특징 정보의 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 닉네임 추출 장치.
- 제12항에서,상기 동일 사용자가 아닌 것으로 확정되는 닉네임은 사용 기간이 중첩되는 닉네임인 닉네임 추출 장치.
- 제11항에서,상기 특징 정보 추출부는상기 사용자의 관심 정보를 식별할 수 있는 단어 특징 정보, 상기 사용자의 활동 시간 특징 정보, 상기 게시글 특징 정보, 그리고 상기 사용자와 다른 사용자와의 커뮤니케이션 관계 특징 정보 중 적어도 하나 이상의 특징 정보를 추출하는 닉네임 추출 장치.
- 제14항에서,상기 단어 특징 정보는상기 게시글 텍스트에서 형태소 분석을 이용하여 적어도 하나 이상의 특징 단어, 그리고 상기 특징 단어의 사용 빈도 수 정보를 포함하는 닉네임 추출 장치.
- 제14항에서,상기 커뮤니케이션 관계 특징 정보는상기 사용자가 작성한 적어도 하나의 게시글에 대하여 답글을 작성하거나 공감을 표현한 닉네임 정보인 제1 닉네임 특징 정보,상기 사용자가 답글을 작성하거나, 공감을 표현한 타 사용자의 게시글 작성자 닉네임 정보인 제2 닉네임 특징 정보, 그리고상기 제1 닉네임 특징 정보와 상기 제2 닉네임 특징 정보를 조합한 특징 정보 중 적어도 하나 이상인 닉네임 추출 장치.
- 동일한 사용자의 닉네임을 추출하기 위한 장치로서,온라인 커뮤니티에 업로드된 적어도 하나의 게시글을 수신하는 게시글 수신부,상기 게시글에서 사용자의 관심 정보를 식별할 수 있는 단어 특징 정보, 상기 사용자의 활동 시간 특징 정보, 상기 게시글 특징 정보, 그리고 상기 사용자와 다른 사용자와의 커뮤니케이션 관계 특징 정보 중 적어도 둘 이상을 포함하는 특징 정보를 추출하는 특징 정보 추출부, 그리고복수의 닉네임 간 상기 특징 정보들의 유사 정도를 계산하고, 상기 특징 정보마다 서로 다른 가중값을 상기 유사 정도에 부여하며, 상기 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 동일 사용자 추출부를 포함하는 닉네임 추출 장치.
- 제17항에서,상기 동일 사용자 추출부는상기 복수의 닉네임에서 동일 사용자가 아닌 것으로 확정되는 닉네임을 제외하여 후보 닉네임 집합을 선별하고, 상기 후보 닉네임 집합에서 상기 유사 정도가 일정 기준 이상인 닉네임을 동일 사용자의 닉네임으로 추출하는 닉네임 추출 장치.
- 제18항에서,상기 동일 사용자가 아닌 것으로 확정되는 닉네임은 사용 기간이 중첩되는 닉네임인 닉네임 추출 장치.
- 제17항에서,상기 가중값은 유전 알고리즘을 통해 산출된 값인 닉네임 추출 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/340,551 US11010557B2 (en) | 2016-12-07 | 2017-12-04 | Apparatus and method for extracting nickname list of identical user in online community |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2016-0166144 | 2016-12-07 | ||
KR1020160166144A KR101797234B1 (ko) | 2016-12-07 | 2016-12-07 | 온라인 커뮤니티에서 동일 사용자의 닉네임 목록을 추출하는 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018105979A1 true WO2018105979A1 (ko) | 2018-06-14 |
Family
ID=60386156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2017/014108 WO2018105979A1 (ko) | 2016-12-07 | 2017-12-04 | 온라인 커뮤니티에서 동일 사용자의 닉네임 목록을 추출하는 장치 및 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11010557B2 (ko) |
KR (1) | KR101797234B1 (ko) |
WO (1) | WO2018105979A1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11170018B2 (en) * | 2019-08-26 | 2021-11-09 | International Business Machines Corporation | Identifying an appropriate contact across collaborative applications |
KR102693782B1 (ko) * | 2022-05-26 | 2024-08-08 | 주식회사 카카오게임즈 | 닉네임 간 유사도를 이용하여 다중 접속계정을 탐지하기 위한 방법 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100001650A (ko) * | 2008-06-27 | 2010-01-06 | 쏠스펙트럼(주) | 웹상에서 콘텐츠 반응 행태 분석을 통한 친구 추천 장치 및방법 |
KR20130091392A (ko) * | 2012-02-08 | 2013-08-19 | 숭실대학교산학협력단 | 키워드 추천 장치 및 그 방법 |
KR20150031341A (ko) * | 2012-08-16 | 2015-03-23 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | 자연인 정보 설정 방법 및 전자 장치 |
KR20150101536A (ko) * | 2014-02-26 | 2015-09-04 | 에스케이플래닛 주식회사 | 쇼핑몰의 동일 상품 판별 장치 및 방법 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1991011771A1 (en) * | 1990-01-23 | 1991-08-08 | Massachusetts Institute Of Technology | Genetic algorithm technique for, e.g., designing neural networks |
US6209100B1 (en) * | 1998-03-27 | 2001-03-27 | International Business Machines Corp. | Moderated forums with anonymous but traceable contributions |
US20080091684A1 (en) * | 2006-10-16 | 2008-04-17 | Jeffrey Ellis | Internet-based bibliographic database and discussion forum |
KR101224660B1 (ko) | 2008-07-09 | 2013-01-21 | 고려대학교 산학협력단 | 유사 문장 검색 장치, 검색 방법, 저장 매체, 자동 대화서비스 시스템 및 서비스 방법 |
KR101005337B1 (ko) * | 2008-09-29 | 2011-01-04 | 주식회사 버즈니 | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 |
CN102315953B (zh) | 2010-06-29 | 2016-08-03 | 百度在线网络技术(北京)有限公司 | 基于帖子的出现规律来检测垃圾帖子的方法及设备 |
US9639518B1 (en) * | 2011-09-23 | 2017-05-02 | Amazon Technologies, Inc. | Identifying entities in a digital work |
US9584526B2 (en) * | 2015-04-06 | 2017-02-28 | BetterCompany Inc. | Anonymous discussion forum |
CN105589847B (zh) | 2015-12-22 | 2019-02-15 | 北京奇虎科技有限公司 | 带权重的文章标识方法和装置 |
KR101946022B1 (ko) | 2016-09-30 | 2019-02-08 | 에스케이플래닛 주식회사 | 댓글을 분석하고 표시할 수 있는 방법 및 이를 위한 장치 |
-
2016
- 2016-12-07 KR KR1020160166144A patent/KR101797234B1/ko active IP Right Grant
-
2017
- 2017-12-04 US US16/340,551 patent/US11010557B2/en active Active
- 2017-12-04 WO PCT/KR2017/014108 patent/WO2018105979A1/ko active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100001650A (ko) * | 2008-06-27 | 2010-01-06 | 쏠스펙트럼(주) | 웹상에서 콘텐츠 반응 행태 분석을 통한 친구 추천 장치 및방법 |
KR20130091392A (ko) * | 2012-02-08 | 2013-08-19 | 숭실대학교산학협력단 | 키워드 추천 장치 및 그 방법 |
KR20150031341A (ko) * | 2012-08-16 | 2015-03-23 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | 자연인 정보 설정 방법 및 전자 장치 |
KR20150101536A (ko) * | 2014-02-26 | 2015-09-04 | 에스케이플래닛 주식회사 | 쇼핑몰의 동일 상품 판별 장치 및 방법 |
Non-Patent Citations (1)
Title |
---|
KIM, MIN JAE ET AL.: "Measures of Abnormal User Activities in Online Comments Based on Cosine Similarity", JOURNAL OF THE KOREA INSTITUTE OF INFORMATION SECURITY & CRYTOLOGY, vol. 24, no. 2, 30 April 2014 (2014-04-30), pages 335 - 343, XP055491219 * |
Also Published As
Publication number | Publication date |
---|---|
KR101797234B1 (ko) | 2017-11-13 |
US11010557B2 (en) | 2021-05-18 |
US20200050663A1 (en) | 2020-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | To what extent we repeat ourselves? Discovering daily activity patterns across mobile app usage | |
Shi et al. | Detecting malicious social bots based on clickstream sequences | |
ElSherief et al. | # notokay: Understanding gender-based violence in social media | |
Chakraborty et al. | Who makes trends? understanding demographic biases in crowdsourced recommendations | |
Fernquist et al. | Political bots and the Swedish general election | |
Gökçe et al. | Twitter and politics: Identifying Turkish opinion leaders in new social media | |
Zhang et al. | Hybrid EGU-based group event participation prediction in event-based social networks | |
Chagas | WhatsApp and digital astroturfing: A social network analysis of Brazilian political discussion groups of Bolsonaro’s supporters | |
Strufe | Profile popularity in a business-oriented online social network | |
Khazraee | Mapping the political landscape of Persian Twitter: The case of 2013 presidential election | |
Jin et al. | Modeling mass protest adoption in social network communities using geometric brownian motion | |
Truong et al. | Analysis of collaboration networks in OpenStreetMap through weighted social multigraph mining | |
Jones et al. | Behind the mask: A computational study of Anonymous' presence on Twitter | |
WO2018105979A1 (ko) | 온라인 커뮤니티에서 동일 사용자의 닉네임 목록을 추출하는 장치 및 방법 | |
Lu et al. | Who are your “real” friends: analyzing and distinguishing between offline and online friendships from social multimedia data | |
Lee | Epidemiologic research and web 2.0—the user-driven web | |
Li et al. | Loneliness recognition based on mobile phone data | |
Adnan et al. | Social dynamics of twitter usage in London, Paris, and New York City | |
Chung et al. | Privacy leakage in event-based social networks: A meetup case study | |
Messing et al. | How social media introduces biases in selecting and processing news content | |
Zhang et al. | How Do Explicitly Expressed Emotions Influence Interpersonal Communication and Information Dissemination?: A Field Study of Emoji's Effects on Commenting and Retweeting on a Microblog Platform | |
Duskin et al. | Echo Chambers in the Age of Algorithms: An Audit of Twitter’s Friend Recommender System | |
Canh et al. | A spatial LDA model for discovering regional communities | |
Plotkowiak | The influence of social capital on information diffusion in twitter’s interest-based social networks | |
Bastos | Network spillover effects and the dyadic interactions of virtual, social, and spatial |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17877912 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17877912 Country of ref document: EP Kind code of ref document: A1 |