KR101158183B1 - 웹 문서 평가 판단 장치 및 방법 - Google Patents

웹 문서 평가 판단 장치 및 방법 Download PDF

Info

Publication number
KR101158183B1
KR101158183B1 KR1020090118419A KR20090118419A KR101158183B1 KR 101158183 B1 KR101158183 B1 KR 101158183B1 KR 1020090118419 A KR1020090118419 A KR 1020090118419A KR 20090118419 A KR20090118419 A KR 20090118419A KR 101158183 B1 KR101158183 B1 KR 101158183B1
Authority
KR
South Korea
Prior art keywords
evaluation
image
images
web document
text
Prior art date
Application number
KR1020090118419A
Other languages
English (en)
Other versions
KR20110061884A (ko
Inventor
배태면
Original Assignee
에스케이플래닛 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이플래닛 주식회사 filed Critical 에스케이플래닛 주식회사
Priority to KR1020090118419A priority Critical patent/KR101158183B1/ko
Publication of KR20110061884A publication Critical patent/KR20110061884A/ko
Application granted granted Critical
Publication of KR101158183B1 publication Critical patent/KR101158183B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 웹 문서 평가 판단 장치는 웹 문서에 포함된 텍스트를 분석하여 텍스트 평가 결과를 산출하는 텍스트 처리부 및 상기 웹 문서에 포함된 유효 이미지의 개수를 산출하고, 상기 산출된 유효 이미지의 개수를 상기 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수와 비교하여 상기 웹 문서의 평가를 판단하는 평가 판단부를 포함함으로써, 웹 문서에서 이루어지는 소정 목적물에 대한 평가를 신뢰성있게 판단할 수 있다.
웹 문서, 평가, 판단, 텍스트, 이미지, 목적물, 영화, 드라마, 인물

Description

웹 문서 평가 판단 장치 및 방법{APPARATUS AND METHOD FOR JUDGING MEASUREMENT OF WEB DOCUMENT}
본 발명은 웹 문서 평가 판단 장치 및 방법에 관한 것으로서, 보다 상세하게 설명하면 웹 문서에 포함된 텍스트뿐만 아니라 유효 이미지의 개수를 참조하여 일정 대상에 대한 평가가 긍정적인지 부정적인지 신뢰성 있게 판단하는 웹 문서 평가 판단 장치 및 방법에 관한 것이다.
의견 또는 평가 검색은 단순한 사실에 대한 설명(description)이 아니라 작성자의 의견을 반영하는 문서를 찾는 검색 방법이다. 기존의 검색이 사용자의 쿼리(query)에 해당하는 키워드(key word)를 입력으로 하여 키워드를 포함하는 문서를 검색하는 것인 반면, 의견 검색은 쿼리에 해당하는 키워드에 대한 평가를 담은 문서를 검색한다. 현재 의견 검색은 오피니언 마이닝(opinion mining)이라는 기술로 연구되고 있으며, 기본적인 원리는 다음과 같다.
먼저 사용자의 의견/평가에 해당하는 단어를 찾는다. 예를 들어 '좋다', '나 쁘다', '훌륭하다', '싸다', '비싸다'와 같은 단어가 해당한다. 의견에 해당하는 단어가 검색되면 단어가 포함된 구문을 분석하여 의견의 대상과 구문의 연관관계를 문법을 기반으로 해석한다. 가장 단순한 방법은 의견에 해당하는 단어를 카운팅(counting)하는 방법이다. 최근에는 쿼리의 특징을 나타내는 키워드를 찾고 키워드에 대한 의견을 나타내는 구문을 찾아 구문을 카운팅하는 방법 또한 사용되고 있다. 이렇게 의견을 나타내는 단어나 구문이 일정 비율 이상인 경우 의견/평가가 포함된 문서로 검출한다.
의견 검색은 이러한 의견이 포함되었는지 여부뿐만 아니라, 의견이 긍정적인지 부정적인지를 검출한다. 일반적으로 긍정/부정 검출은 검출해낸 의견을 나타내는 단어 또는 구문이 긍정적인지 부정적인지를 확인하고 긍정과 부정의 단어 또는 구문의 비율을 보고 결정한다.
현재 의견 검색 기술은 크게 두가지 접근법으로 나눌 수 있다. 하나는 룰 베이스드(rule based) 접근 방식으로 구문 분석시 마이닝을 통해 찾은 룰을 적용화여 의견의 긍정/부성을 결정한다. 다른 하나는 머신 학습(machine learning)을 통해 의견을 나타내는 단어와 주위 단어를 분류기(classifier)의 입력으로 하여 분류기를 학습시켜 의견 검색의 결과를 얻는 방법이 사용되고 있다.
본 발명은 영화, 드라마 등의 일정 대상에 대한 의견/평가를 포함하는 문서가 긍정적인 평가를 포함하는지 부정적인 평가를 포함하는지를 텍스트뿐만 아니라 유효 이미지의 개수를 이용하여 판단하는 웹 문서 평가 판단 장치 및 방법을 제공하기 위한 것이다.
상기한 목적을 달성하기 위하여 본 발명에 따른 웹 문서 평가 판단 장치는 웹 문서에 포함된 텍스트를 분석하여 텍스트 평가 결과를 산출하는 텍스트 처리부; 및 상기 웹 문서에 포함된 유효 이미지의 개수를 산출하고, 상기 산출된 유효 이미지의 개수를 상기 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수와 비교하여 상기 웹 문서의 평가를 판단하는 평가 판단부를 포함할 수 있다.
이때, 상기 평가 판단부는 상기 유효 이미지의 개수가 상기 설정 이미지 개수보다 크면 긍정으로 판단하고, 상기 유효 이미지의 개수가 상기 설정 이미지 개수 이하이면 부정으로 판단할 수 있다.
또한, 상기 설정 이미지 개수는 서포트 벡터 머신(SVM, Support Vector Machine)에 의해 지능적으로 수정될 수 있다.
또한, 상기 텍스트 처리부는, 상기 텍스트의 형태소 분석을 수행하고 품사 정보를 결정하는 언어 처리부 및 상기 결정된 품사 정보를 근거로 쿼리(query) 연 관 단어와 상기 연관 단어 주변의 단어 및 배열에 따라 텍스트 평가 결과로서 긍정 또는 부정 확률을 추정하는 확률 계산부를 포함할 수 있다.
또한, 상기 평가 판단부는, 상기 웹 문서에 포함된 이미지에서 유효 이미지를 추출하는 이미지 필터링부, 상기 유효 이미지의 개수를 산출하는 이미지 개수 산출부 및 상기 텍스트 처리부의 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수를 추출하여 상기 산출된 유효 이미지의 개수와 비교하여 상기 웹 문서의 평가를 판단하는 이미지 개수 비교부를 포함할 수 있다. 여기서, 다른 경로를 통해 판단된 상기 웹 문서의 평가를 상기 이미지 개수 비교부의 판단 결과와 비교하여 상기 설정 이미지 개수를 수정하는 설정 이미지 개수 수정부를 더 포함할 수 있다. 이때, 상기 설정 이미지 개수 수정부는 서포트 벡터 머신(SVM, Support Vector Machine)을 포함할 수 있다.
또한, 상기 이미지 필터링부는 상기 이미지의 폭 또는 높이 중 적어도 하나가 기설정값보다 큰 경우 유효 이미지로 처리할 수 있다.
또한, 상기 이미지 필터링부는 상기 이미지의 폭과 높이 비율이 기설정 비율에 포함되는 경우 유효 이미지로 처리할 수 있다.
또한, 상기 평가 판단부는, 상기 웹 문서에 유효 이미지가 포함되어 있지 않은 경우 상기 텍스트 처리부의 평가 결과만으로 상기 웹 문서의 평가를 판단할 수 있다.
한편, 본 발명에 따른 웹 문서 평가 판단 방법은 (a) 웹 문서에 포함된 텍스 트를 분석하여 텍스트 평가 결과를 산출하는 단계, (b) 상기 웹 문서에 유효 이미지가 존재하는지 여부를 판단하는 단계, (c) 상기 유효 이미지가 존재하는 경우, 상기 유효 이미지의 개수를 산출하여 상기 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수와 비교함으로써 상기 웹 문서의 평가를 판단하는 단계 및 (d) 상기 유효 이미지가 존재하지 않는 경우, 상기 텍스트 평가 결과에 따라 상기 웹 문서의 평가를 판단하는 단계를 포함할 수 있다.
이때, 상기 (c) 단계는, 상기 산출된 유효 이미지의 개수가 설정 이미지 개수보다 크면 긍정으로 판단하는 단계 및 상기 산출된 유효 이미지의 개수가 설정 이미지 개수 이하이면 부정으로 판단하는 단계를 포함할 수 있다.
또한, 상기 (c) 단계의 판단 결과를 다른 경로로 획득한 판단 결과와 비교하여 상기 설정 이미지 개수를 수정하는 단계를 더 포함할 수 있다. 이때, 상기 수정 단계는 서포트 벡터 머신(SVM, Support Vector Machine)에 의해 수행될 수 있다.
이상에서 설명된 바와 같이 본 발명에 따른 웹 문서 평가 판단 장치 및 방법은 웹 문서에 포함된 텍스트뿐만 아니라 상기 웹 문서에 포함된 유효 이미지의 개수를 적용하여 소정 대상에 대한 평가를 신뢰성 있게 판단할 수 있다.
구체적으로 텍스트만을 이용하여 웹 문서의 평가를 판단하게 되면 실질적으로 긍정적인 평가를 부정적으로 판단하는 경우가 많게 되는데, 긍정적인 평가를 내린 웹 문서일수록 많은 이미지를 포함하는 점을 이용함으로써 신뢰성 있는 판단이 가능하다.
이하, 본 발명과 관련된 웹 문서 평가 판단 장치 및 방법에 대하여 도면을 참조하여 보다 상세하게 설명한다.
도 1은 본 발명과 관련된 웹 문서 평가 판단 장치를 나타낸 블럭도이다.
도 1에 도시된 웹 문서 평가 판단 장치는 웹 문서에 포함된 텍스트를 분석하여 텍스트 평가 결과를 산출하는 텍스트 처리부(110) 및 상기 웹 문서에 포함된 유효 이미지의 개수를 산출하고, 상기 산출된 유효 이미지의 개수를 상기 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수와 비교하여 상기 웹 문서의 평가를 판단하는 평가 판단부(130)를 포함하고 있다.
상기 텍스트 처리부(110)는 웹 문서를 분석하여 텍스트를 추출한 후 텍스트를 구성하는 형태소, 단어 등을 분석하여 품사를 결정하게 된다. 이렇게 결정된 품사에서 웹 문서가 평가하는 대상인 목적물의 파악이 가능하며 목적물에 대한 평가 또한 파악이 가능하다. 예를 들어 '좋다', '훌륭하다', '나쁘다', '싸다', '비싸다'와 같은 사용자의 평가 관련 언어를 기등록시켜놓고 기등록된 언어의 출현 빈도를 이용하여 목적물에 대한 평가를 확률적으로 파악하는 것이 가능하다. 다른 방안에 의해서도 웹 문서에 포함된 텍스트를 분석하여 목적물에 대한 평가 결과, 즉 텍스트 평가 결과를 산출할 수 있는데 이상에서 살펴본 텍스트를 이용한 평가 결과 산출은 예로서 미국 NIST(National Institute of Standard and Techonology)에서 주관하는 Text Retrieval Conference(TREC)의 'KLE at TREC 2008 blog Track: Blog Post and Feed Retrieval'에 소개되어 있다. 아울러, 텍스트 평가 결과는 후술할 서포트 벡터 머신(Support Vector Machine, SVM)이 적용되어 지능적으로 학습된 결과일 수 있다.
도 2는 본 발명과 관련된 웹 문서 평가 판단 장치의 텍스트 처리부(110)를 나타낸 블럭도이다.
도 2에 도시된 텍스트 처리부는 상기 텍스트의 형태소 분석을 수행하고 품사 정보를 결정하는 언어 처리부(111) 및 상기 결정된 품사 정보를 근거로 쿼리(query) 연관 단어와 상기 연관 단어 주변의 단어 및 배열에 따라 텍스트 평가 결과로서 긍정 또는 부정 확률을 추정하는 확률 계산부(113)를 포함할 수 있다.
언어 처리부(111)는 텍스트의 형태소를 분석함으로써 단어의 품사 정보를 결정하고 쿼리 연관 단어 즉, '좋다', '훌륭하다', '나쁘다', '싸다', '비싸다', '좋은', '훌륭한', '나쁜', '싼', '비싼', '~하지 못하다', '~하지 못한' 등과 같이 평가 관련 언어를 결정한다. 언어 처리부의 처리 대상은 한글에만 국한되지 않으며 'good', 'bad'와 같이 영어도 가능하며 그외 일본어 등 다양한 언어가 적용될 수 있다.
확률 계산부(113)는 쿼리 연관 단어 및 쿼리 연관 단어 주변의 '~하지 못하다'와 같이 의미를 변경할 수 있는 단어 및 이러한 단어들의 배열 순서를 검색하여 일정 문장에 담긴 평가를 파악한다. 이러한 평가 파악은 전 텍스트에 대해 이루어 지게 된다. 그 결과 긍정적인 문장과 부정적인 문장의 비율 등을 파악하여 텍스트 평가 결과를 산출하게 된다.
평가 판단부(130)는 텍스트 처리부에서 이루어진 텍스트 평가 결과와 웹 문서에 포함된 유효 이미지의 개수를 이용하여 웹 문서의 평가를 판단하게 된다. 웹 문서의 평가는 웹 문서에 기재되어 있는 소정 목적물에 대한 평가가 된다. 이러한 목적물에는 드라마, 영화, 제품, 인물 등 다양한 소재가 포함될 수 있다.
텍스트만을 이용하여 웹 문서의 평가가 긍정적인지 부정적인지 판단하는 기존 기술에서는 그 정확도가 낮은 문제가 있다. 특히, 실질적으로 긍정적인 평가인 경우에도 텍스트만을 이용한 경우 부정적인 평가로 판단한 경우가 많음을 실험적으로 확인할 수 있었다.
본 발명의 발명자는 이와 같은 오차를 분석하는 과정에서 실질적으로 긍정적인 평가가 이루어진 웹 문서에는 목적물과 관련한 이미지가 포함되어 있음을 확인할 수 있었다. 그렇다 하더라도, 텍스트 평가 결과를 무시하고 이미지가 포함되어 있다고 해서 목적물에 대한 평가가 긍정적이라고 판단하는 것 또한 신뢰성 있는 판단이 불가능한 점을 감안하여 평가 판단부를 구성하였다.
평가 판단부는 웹 문서에 포함된 이미지 중 평가의 대상물, 즉 목적물과 관련된 이미지인 유효 이미지의 개수를 산출하고, 이를 설정 이미지 개수와 비교함으로써 웹 문서의 평가를 판단한다. 설정 이미지 개수는 텍스트 평가 결과에 대응되어 테이블화되어 있는 값이다. 이에 따라 평가 판단부는 설정 이미지 개수의 저장을 위해서 저장부(미도시)를 포함할 수 있다. 즉, 설정 이미지 개수는 텍스트 처리 부에서 산출된 텍스트 평가 결과에 따라 추출되는 기설정된 값이 된다. 예를 들어 텍스 평가 결과가 확률적으로 표시될 경우 설정 이미지 개수는 다음의 표 1과 같이 테이블화될 수 있다.
텍스트 평가 결과 설정 이미지 개수
0~0.2 9
0.21~0.4 7
0.41~0.6 5
0.61~0.8 3
0.81~1 1
이와 같은 경우 텍스트 평가 결과가 0.5인 경우 설정 이미지 개수는 5가 된다. 이와 같이 텍스트 평가 결과에 따라 추출된 설정 이미지 개수를 유효 이미지의 개수와 비교함으로써 웹 문서의 목적물에 대한 평가를 판단하게 된다.
유효 이미지의 개수가 많을수록 긍정적인 의견을 반영한 경우가 많은 것을 실험적으로 확인하였으므로, 유효 이미지의 개수가 설정 이미지 개수보다 크면 긍정으로 판단하고, 상기 유효 이미지의 개수가 상기 설정 이미지 개수 이하이면 부정으로 판단한다. 위 예의 경우 유효 이미지 개수가 5개보다 많이 산출된 경우 긍정으로 판단하게 된다. 이와 반대로 유효 이미지 개수가 5개 이하인 경우 부정으로 판단하게 된다.
이상에 따르면 평가 판단부에서 이루어지는 웹 문서의 평가 판단에서 설정 이미지 개수가 중요하게 작용함을 알 수 있다. 따라서, 설정 이미지 개수를 신뢰성 있게 설정할 필요가 있는데, 이를 획일적으로 정하는 것에 무리가 따를 수 있다.
예를 들어, 영화에 대한 평가와 연예인에 대한 평가에서 해당 평가를 웹 문서화하는 사용자의 연령층, 취향, 성별에 따라 차이를 보일 수 있기 때문이다. 영화의 경우 액션물일 경우 영화에 대한 평가를 수행하는 주사용자가 20대, 30대의 남성층인 경우가 많다. 액션 영화 취향의 20,30대 남성의 경우가 사용하는 문체와 반어법 등의 문장 표현 구사, 이미지를 삽입하는 노력을 실험적으로 측정하여 설정 이미지 개수를 설정한 경우, 액션 영화에 대한 평가에 대해서는 신뢰성 있는 판단이 이루어질 것이나, 만화 영화, 멜로 영화, 가족 영화와 같이 평가를 수행하는 주사용자가 다른 경우에는 판단에 대한 신뢰성을 보장할 수 없게 된다.
또한 연예인에 대한 평가인 경우에도 여자 연예인, 남자 연예인, 영화배우, 코미디언에 따라 인물평을 웹 문서화하는 사용자층이 다름으로써 획일적인 설정 이미지 개수로는 신뢰성 있는 평가 판단이 어렵게 된다.
따라서, 기본적으로 일반적인 대중의 취향에 맞게 설정 이미지 개수를 실험적으로 설정해 놓고, 지능적으로 학습하여 설정 이미지 개수를 수정하도록 할 수 있다. 일예로 평가 판단부는 서포트 벡터 머신(SVM, Support Vector Machine)을 이용하여 설정 이미지 개수를 지능적으로 수정할 수 있다.
서포트 벡터 머신은 통계 분류와 회귀 분석을 쓰는 지도 학습 방법을 가리키는 말로 현재 알려져 있는 많은 수법 중에서 가장 인식 성능이 뛰어난 학습 모델의 하나이다. 이는 커널 트릭을 써서 비선형 분류 문제에 선형 분류의 테크닉을 적용한다. 서포트 벡터 머신이 뛰어난 인식 성능을 발휘할 수 있는 이유는 미학습 데이터에 대해서 높은 식별 성능을 얻기 위한 궁리가 있는 것이다. 서포트 벡터 머신은 선형 문턱 소자를 이용하고, 2 클래스의 패턴 식별기를 구성하는 수법이다. 훈련 샘플로부터 「마진 최대화」라고 하는 기준으로 선형 문턱 소자의 파라미터를 학습한다. 1960년대에 Vapnik등이 고안 한 Optimal Separating Hyperplane를 기원으로 하고 있어, 1990년대가 되어 커넬 학습법과 조합한 비선형 분류 수법으로 확장되었다.
도 3은 본 발명과 관련된 웹 문서 평가 판단 장치의 평가 판단부(130)를 나타낸 블럭도이다.
도 3에 도시된 평가 판단부는 웹 문서에 포함된 이미지에서 유효 이미지를 추출하는 이미지 필터링부(131), 상기 유효 이미지의 개수를 산출하는 이미지 개수 산출부(133) 및 상기 텍스트 처리부의 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수를 추출하여 상기 산출된 유효 이미지의 개수와 비교하여 상기 웹 문서의 평가를 판단하는 이미지 개수 비교부(135)를 포함할 수 있다.
이미지 필터링부(131)는 웹 문서에서 유효 이미지를 추출한다. 유효 이미지는 앞에서 설명한 바와 같이 웹 문서의 평가 대상인 목적물과 관련된 이미지를 의미한다. 그런데 웹 문서에는 문서 단락을 구분하기 위한 선, 이모티콘 등과 같이 유효 이미지와 상관없는 이미지가 포함될 수 있다.
이와 같이 유효 이미지가 아닌 이미지를 평가 판단에 이용하게 되면 오류가 발생할 수 있으므로 유효 이미지만을 추출하는 방안이 요구된다. 이미지 필터링부는 이와 같이 유효 이미지가 아닌 이미지를 필터링함으로써 유효 이미지만을 추출하게 된다.
유효 이미지는 일반적으로 이모티몬 등의 이미지보다 그 크기가 크다. 예를 들어 '웃음', '화남' 등의 감정을 나타내는 이모티콘의 크기는 글자의 크기와 유사하거나 또는 약간 큰 정도이다. 이에 비해 유효 이미지의 경우 드라마, 영화, 인물을 나타내는 한 장면으로 글자에 비하여 수배에서 수십배 크게 삽입된다. 이러한 현실을 고려하여 이미지 필터링부는 웹 문서에 포함된 이미지의 폭 또는 높이 중 적어도 하나가 기설정값보다 큰 경우 유효 이미지로 처리함으로써 유효 이미지를 추출할 수 있다.
즉, 웹 문서에 포함된 이미지의 폭을 측정하여 기설정값보다 큰 경우에 유효 이미지로 처리하거나, 높이를 측정하여 기설정값보다 큰 경우에 유효 이미지로 처리할 수 있다. 또한 폭과 높이가 모두 기설정값보다 큰 경우에만 유효 이미지로 처리할 수 있다. 폭과 높이를 모두 사용하는 경우는 폭 또는 높이만으로 처리할 경우 예상되는 문제를 방지하기 위해서이다. 예를 들어 문단을 구분하는 선과 같은 경우 폭만을 기준으로 할 경우 유효 이미지로 처리될 수 있기 때문이다. 이와 마찬가지로 테두리를 쳐놓은 문서에서는 측면 테두리의 높이가 기설정값 이상이므로 유효 이미지로 처리할 수 있다.
또한, 경우에 따라서 이미지 필터링부는 이미지의 폭과 높이 비율이 기설정 비율에 포함되는 경우 유효 이미지로 처리할 수도 있다. 이모티콘의 크기가 크거나 할 경우 폭 또는 높이를 사용할 경우 각종 이모티콘 등도 유효 이미지로 처리될 수 있기 때문이다. 일반적으로 웹 문서에 포함되는 유효 이미지는 영화사, 드라마 제작사, 사진 작가가 제공하는 이미지를 그대로 삽입된 경우가 많은데 이에 따라 웹 문서에 포함되는 유효 이미지는 일반적인 폭과 높이 비율(크기 비율)을 갖게 된다. 따라서 이러한 크기 비율을 기설정해 놓고 웹 문서의 이미지의 크기 비율이 기설정된 크기 비율을 만족하는 경우에 유효 이미지로 처리할 수 있다. 다만 이와 같이 크기 비율을 적용할 경우 사용자가 영화사 등에서 제공한 이미지를 편집하여 삽입할 경우 오류가 발생할 가능성이 있다. 따라서, 이상에서 살펴본 유효 이미지 추출 방안을 적절하게 혼합하여 적용함으로써 최적의 이미지 필터링이 수행되도록 하는 것이 바람직하다.
이미지 개수 산출부(133)는 이미지 필터링부에서 필터링되고 남은 유효 이미지의 개수를 산출하여 이미지 개수 비교부(135)로 전송한다. 이미지 개수 산출부는 이미지 필터링부와 일체로 형성되거나, 이미지 개수 비교부와 일체로 형성될 수도 있다.
이미지 개수 비교부(135)는 텍스트 처리부의 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수를 추출한 후, 이미지 개수 산출부에서 산출된 유효 이미지의 개수와 비교하여 상기 웹 문서의 평가를 판단하게 된다.
간단히 말하면 유효 이미지의 개수와 설정 이미지 개수를 비교하여 판단하는 것으로 이때 설정 이미지 개수는 텍스트 처리부의 텍스트 평가 결과에 따라 다른 값이 적용된다. 그 예는 앞의 표 1에 개시한 바 있다. 실험적으로 유효 이미지의 개수가 많을수록 긍정적인 평가가 이루어진 점을 고려하여 유효 이미지 개수가 설정 이미지 개수보다 많은 경우 긍정으로 평가한 것으로 판단한다.
한편, 평가 판단부는 다른 경로를 통해 판단된 웹 문서의 평가를 이미지 개수 비교부의 판단 결과와 비교하여 설정 이미지 개수를 수정하는 설정 이미지 개수 수정부(137)를 더 포함할 수 있다.
이미지 개수 비교부의 출력은 평가 판단부의 최종 출력으로서 웹 문서의 목적물 평가에 대하여 긍정 또는 부정과 같은 판단을 수행한다. 이때 텍스트 평가 결과에 따라 설정되는 설정 이미지 개수가 중요하게 작용하는데 앞에서 살펴본 문제로 인하여 설정 이미지 개수를 텍스트 평가 결과에 따라 고정하는 경우 문제가 발생할 수 있음을 언급하였다.
따라서, 상황에 맞게 설정 이미지 개수를 수정/보정할 필요가 있는데 이를 위해서 설정 이미지 개수 수정부(137)가 이용된다.
설정 이미지 개수 수정부는 웹 문서 평가 판단 장치의 관리자 등이 웹 문서를 읽고 웹 문서의 평가를 판단한 결과와 같이 다른 경로를 통해 판단된 웹 문서의 평가를 이미지 개수 비교부의 판단 결과와 비교한다. 비교 결과 오차가 발생한 경우 설정 이미지 개수를 늘이거나 줄이는 등의 수정을 가하고 이와 같은 과정을 반복함으로써 신뢰성 있는 설정 이미지 개수가 도출된다. 이를 위해 지능적으로 학습하는 시스템을 도입할 수 있으며, 이에 따라 설정 이미지 개수 수정부는 앞에서 살펴본 서포트 벡터 머신(SVM, Support Vector Machine)을 포함할 수 있다.
한편, 웹 문서에 유효 이미지가 포함되어 있지 않은 경우가 있을 수 있다. 이와 같은 경우 유효 이미지의 개수를 고려하여 웹 문서의 평가를 판단할 수 없게 된다. 따라서, 이와 같은 경우는 어쩔 수 없이 기존과 같이 텍스트 처리부의 평가 결과만으로 웹 문서의 평가를 판단하여야 한다. 즉, 평가 판단부는 유효 이미지의 개수가 0인 경우 표 1의 설정 이미지 개수와의 비교를 수행하는 대신, 텍스트 처리부의 평가 결과만으로 웹 문서의 평가를 판단한다.
도 4는 본 발명과 관련된 웹 문서 평가 판단 방법을 나타낸 흐름도로서 앞에서 살펴본 웹 문서 평가 판단 장치의 동작으로서 설명될 수도 있다.
먼저, (a) 웹 문서에 포함된 텍스트를 분석하여 텍스트 평가 결과를 산출한다(S 510). 텍스트 처리부에서 수행되는 과정으로 텍스트 문석만으로 긍정/부정의 결과 또는 확률값이 산출된다.
(b) 웹 문서에 유효 이미지가 존재하는지 여부를 판단한다(S 520). 평가 판단부에서 수행되며, 유효 이미지가 존재하는지 파악하여 텍스트 평가 결과가 반영된 설정 이미지 개수를 유효 이미지 개수와 비교할지 비교하지 않을지를 판단한다.
(c) 유효 이미지가 존재하는 것으로 판단되면, 유효 이미지의 개수를 산출하여 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수와 비교함으로써 상기 웹 문서의 평가를 판단한다(S 530). 평가 판단부에서 수행되면 예를 들어 표 1과 같이 기설정된 테이블에서 텍스트 평가 결과에 대응되는 설정 이미지 개수를 추출한 후 유효 이미지의 개수와 비교하고 비교 결과에 따라 웹 문서의 평가를 판단한다.
(d) 만약 유효 이미지가 존재하지 않는 것으로 판단되면, 텍스트 평가 결과에 따라 웹 문서의 평가를 판단한다(S 540). 평가 판단부에서 수행되며 유효 이미지가 존재하지 않는 경우 설정 이미지 개수를 적용하는 것이 의미가 없게 되므로 텍스트 평가 결과만으로 웹 문서의 평가를 판단하게 된다.
이상에서 (c) 단계를 구체적으로 살펴보면 도 5에서와 같이 산출된 유효 이미지의 개수가 설정 이미지 개수보다 크면(S 531) 긍정으로 판단하고(S 533), 산출된 유효 이미지의 개수가 설정 이미지 개수 이하이면(S 531) 부정으로 판단한다(S 535). 또한, (d) 단계는 텍스트 평가 결과를 분석하여 긍정확률이 부정확률보다 큰 경우(S 541), 긍정으로 판단하고(S 533), 긍정확률이 부정확률 이하인 경우(S 541), 부정으로 판단한다(S 535).
한편, (c) 단계에서 이루어진 판단 결과를 다른 경로로 획득한 판단 결과와 비교하여 설정 이미지 개수를 수정하는 단계(S 550)를 더 포함할 수 있다. 설정 이미지 개수를 보정/수정함으로써 점진적으로 판단에 대한 신뢰성을 향상시키기 위한 단계로 평가 판단부에 포함되는 서포트 벡터 머신(SVM, Support Vector Machine)에 의해 수행될 수 있다.
이상에 따르면 본 발명에 따른 웹 문서 평가 판단 장치 및 방법은 텍스트 평가 결과가 반영된 유효 이미지 개수 판단을 통하여 보다 신뢰성 있는 평가 판단이 가능하다.
한편, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
웹 문서에서 이루어진 소정 목적물에 대한 평가를 판단할 수 있다.
특히, 웹 상에서 특정 상품에 대한 평가에 대한 통계를 얻거나 실제 평가를 포함하는 웹 문서를 검색하는데 주로 사용될 수 있다.
도 1은 본 발명과 관련된 웹 문서 평가 판단 장치를 나타낸 블럭도.
도 2는 본 발명과 관련된 웹 문서 평가 판단 장치의 텍스트 처리부(110)를 나타낸 블럭도.
도 3은 본 발명과 관련된 웹 문서 평가 판단 장치의 평가 판단부(130)를 나타낸 블럭도.
도 4는 본 발명과 관련된 웹 문서 평가 판단 방법을 나타낸 흐름도.
도 5는 본 발명과 관련된 웹 문서 평가 판단 방법에서 평가 판단 단계를 구체적으로 나타낸 흐름도.
< 도면의 주요부분에 대한 부호의 설명 >
110...텍스트 처리부 111...언어 처리부
113...확률 계산부 130...평가 판단부
131...이미지 필터링부 133...이미지 개수 산출부
135...이미지 개수 비교부 137...설정 이미지 개수 수정부

Claims (14)

  1. 웹 문서에 포함된 텍스트를 분석하여 쿼리(query) 단어에 대한 텍스트 평가 결과를 산출하는 텍스트 처리부; 및
    상기 웹 문서에 포함된 쿼리(query) 단어에 대한 유효 이미지의 개수를 산출하고, 상기 산출된 유효 이미지의 개수를 상기 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수와 비교하여 상기 웹 문서의 평가를 판단하는 평가 판단부;를 포함하고,
    상기 평가 판단부는 상기 유효 이미지의 개수가 상기 설정 이미지 개수보다 크면 긍정으로 판단하고, 상기 유효 이미지의 개수가 상기 설정 이미지 개수 이하이면 부정으로 판단하는 웹 문서 평가 판단 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 설정 이미지 개수는 서포트 벡터 머신(SVM, Support Vector Machine)에 의해 지능적으로 수정되는 웹 문서 평가 판단 장치.
  4. 제 1 항에 있어서,
    상기 텍스트 처리부는,
    상기 텍스트의 형태소 분석을 수행하고 품사 정보를 결정하는 언어 처리부; 및
    상기 결정된 품사 정보를 근거로 쿼리(query) 연관 단어와 상기 연관 단어 주변의 단어 및 배열에 따라 텍스트 평가 결과로서 긍정 또는 부정 확률을 추정하는 확률 계산부를 포함하는 웹 문서 평가 판단 장치.
  5. 제 1 항에 있어서,
    상기 평가 판단부는,
    상기 웹 문서에 포함된 이미지에서 유효 이미지를 추출하는 이미지 필터링부;
    상기 유효 이미지의 개수를 산출하는 이미지 개수 산출부; 및
    상기 텍스트 처리부의 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수를 추출하여 상기 산출된 유효 이미지의 개수와 비교하여 상기 웹 문서의 평가를 판단하는 이미지 개수 비교부를 포함하는 웹 문서 평가 판단 장치.
  6. 제 5 항에 있어서,
    다른 경로를 통해 판단된 상기 웹 문서의 평가를 상기 이미지 개수 비교부의 판단 결과와 비교하여 상기 설정 이미지 개수를 수정하는 설정 이미지 개수 수정부를 더 포함하는 웹 문서 평가 판단 장치.
  7. 제 6 항에 있어서,
    상기 설정 이미지 개수 수정부는 서포트 벡터 머신(SVM, Support Vector Machine)을 포함하는 웹 문서 평가 판단 장치.
  8. 제 5 항에 있어서,
    상기 이미지 필터링부는 상기 이미지의 폭 또는 높이 중 적어도 하나가 기설정값보다 큰 경우 유효 이미지로 처리하는 웹 문서 평가 판단 장치.
  9. 제 5 항에 있어서,
    상기 이미지 필터링부는 상기 이미지의 폭과 높이 비율이 기설정 비율에 포함되는 경우 유효 이미지로 처리하는 웹 문서 평가 판단 장치.
  10. 제 1 항에 있어서,
    상기 평가 판단부는,
    상기 웹 문서에 유효 이미지가 포함되어 있지 않은 경우 상기 텍스트 처리부의 평가 결과만으로 상기 웹 문서의 평가를 판단하는 웹 문서 평가 판단 장치.
  11. (a) 웹 문서에 포함된 텍스트를 분석하여 쿼리(query) 단어에 대한 텍스트 평가 결과를 산출하는 단계;
    (b) 상기 웹 문서에 쿼리(query) 단어에 대한 유효 이미지가 존재하는지 여부를 판단하는 단계;
    (c) 상기 쿼리(query) 단어에 대한 유효 이미지가 존재하는 경우, 상기 유효 이미지의 개수를 산출하여 상기 텍스트 평가 결과에 따라 기설정된 설정 이미지 개수와 비교함으로써 상기 웹 문서의 평가를 판단하는 단계; 및
    (d) 상기 유효 이미지가 존재하지 않는 경우, 상기 텍스트 평가 결과에 따라 상기 웹 문서의 평가를 판단하는 단계;를 포함하고,
    상기 (c) 단계는,
    상기 산출된 유효 이미지의 개수가 설정 이미지 개수보다 크면 긍정으로 판단하고, 상기 산출된 유효 이미지의 개수가 설정 이미지 개수 이하이면 부정으로 판단하는 것을 특징으로 하는 웹 문서 평가 판단 방법.
  12. 삭제
  13. 제 11 항에 있어서,
    상기 (c) 단계의 판단 결과를 다른 경로로 획득한 판단 결과와 비교하여 상기 설정 이미지 개수를 수정하는 단계를 더 포함하는 웹 문서 평가 판단 방법.
  14. 제 13 항에 있어서,
    상기 수정 단계는 서포트 벡터 머신(SVM, Support Vector Machine)에 의해 수행되는 웹 문서 평가 판단 방법.
KR1020090118419A 2009-12-02 2009-12-02 웹 문서 평가 판단 장치 및 방법 KR101158183B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090118419A KR101158183B1 (ko) 2009-12-02 2009-12-02 웹 문서 평가 판단 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090118419A KR101158183B1 (ko) 2009-12-02 2009-12-02 웹 문서 평가 판단 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110061884A KR20110061884A (ko) 2011-06-10
KR101158183B1 true KR101158183B1 (ko) 2012-06-19

Family

ID=44396164

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090118419A KR101158183B1 (ko) 2009-12-02 2009-12-02 웹 문서 평가 판단 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101158183B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016068407A1 (ko) * 2014-10-31 2016-05-06 고려대학교 산학협력단 문서에 대한 실시간 의견 분석 시스템 및 방법
KR102117534B1 (ko) * 2018-12-28 2020-06-01 아주대학교산학협력단 온라인 데이터의 신뢰도 예측 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023011A (ja) * 2000-07-11 2002-01-23 Fuji Xerox Co Ltd 信号処理装置及び光伝送媒体
KR20070021678A (ko) * 2005-08-19 2007-02-23 (주)수도프리미엄엔지니어링 인터넷 웹 문서 검색 시스템 및 그 방법
KR20080097753A (ko) * 2007-05-03 2008-11-06 인하대학교 산학협력단 다중 클래스 svm을 이용한 영역 기반 이미지 검색 방법
KR20090034052A (ko) * 2007-10-02 2009-04-07 동국대학교 산학협력단 감정정보 추출 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023011A (ja) * 2000-07-11 2002-01-23 Fuji Xerox Co Ltd 信号処理装置及び光伝送媒体
KR20070021678A (ko) * 2005-08-19 2007-02-23 (주)수도프리미엄엔지니어링 인터넷 웹 문서 검색 시스템 및 그 방법
KR20080097753A (ko) * 2007-05-03 2008-11-06 인하대학교 산학협력단 다중 클래스 svm을 이용한 영역 기반 이미지 검색 방법
KR20090034052A (ko) * 2007-10-02 2009-04-07 동국대학교 산학협력단 감정정보 추출 장치 및 방법

Also Published As

Publication number Publication date
KR20110061884A (ko) 2011-06-10

Similar Documents

Publication Publication Date Title
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
Katz et al. ConSent: Context-based sentiment analysis
Davidov et al. Semi-supervised recognition of sarcasm in Twitter and Amazon
Mishra et al. FACTIFY: A Multi-Modal Fact Verification Dataset.
Savoy Authorship attribution based on specific vocabulary
CN106445998A (zh) 一种基于敏感词的文本内容审核方法及系统
US10691892B2 (en) Online contextual advertisement intellectualization apparatus and method based on language analysis for automatically recognizing coined word
Bacciu et al. Cross-domain authorship attribution combining instance-based and profile-based features notebook for PAN at CLEF 2019
Gordo et al. Document classification and page stream segmentation for digital mailroom applications
US20220414603A9 (en) Automatic document classification
CN112214984A (zh) 内容抄袭识别方法、装置、设备及存储介质
CN111985244A (zh) 一种针对文档内容的洗稿检测方法及装置
KR101158183B1 (ko) 웹 문서 평가 판단 장치 및 방법
Rouvier et al. Audio-based video genre identification
Salton et al. Idiom type identification with smoothed lexical features and a maximum margin classifier
Qi et al. Automated coding of political video ads for political science research
Ferreira et al. Multi-entity polarity analysis in financial documents
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
Barrón-Cedeno et al. Monolingual text similarity measures: A comparison of models over wikipedia articles revisions
Zayed et al. Named entity recognition of persons’ names in Arabic tweets
Wijaya et al. A Simplified Method to Identify the Sarcastic Elements of Bahasa Indonesia in Youtube Comments
Ferret Finding document topics for improving topic segmentation
Nisioi et al. A clustering approach for translationese identification
Pinzhakova et al. Feature Similarity-based Regression Models for Authorship Verification.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150528

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170608

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190605

Year of fee payment: 8