KR20080068825A

KR20080068825A - 디스플레이를 위한 고품질 리뷰 선택

Info

Publication number: KR20080068825A
Application number: KR1020087010131A
Authority: KR
Inventors: 쿠샬 비. 데이브; 제레미 에이. 힐튼
Original assignee: 구글 인코포레이티드
Priority date: 2005-09-30
Filing date: 2006-09-29
Publication date: 2008-07-24
Also published as: US20070078670A1; JP2009510637A; EP2428928A1; CA2624066A1; KR101498001B1; JP2012160201A; WO2007041545A3; EP1949332A4; CA2755195A1; JP2013168186A; JP5281405B2; CN101313330A; EP1949332A2; WO2007041545A2; JP5662961B2

Abstract

디스플레이를 위해 리뷰들을 선택하는 방법 및 시스템이 기술된다. 서브젝트에 대한 리뷰들이 식별된다. 식별된 리뷰들의 서브세트는 미리 규정된 품질 기준을 기초로 선택된다. 또한, 선택은 제로 이상의 다른 미리 규정된 기준을 기초로 할 수 있다. 선택된 리뷰들로부터의 콘텐츠를 포함하는 응답이 생성된다. 콘텐츠는 선택된 리뷰들 중 적어도 일부의 전체 콘텐츠 또는 스니피트들을 포함할 수 있다.

Description

디스플레이를 위한 고품질 리뷰 선택{SELECTING HIGH QUALITY REVIEWS FOR DISPLAY}

본 출원은 아래의 출원들에 관한 것이며, 그 각각은 참조로 본 발명에 포함된다:

2005년 9월 30일자로 제출된 미국 특허출원번호 제11/241,698호, "Selecting Representative Reviews for Display";

2005년 9월 30일자로 제출된 미국 특허출원번호 제11/241,702호, "Selecting High Quality Text Within Identified Reviews for Display in Review Snippets";

2005년 9월 30일자로 제출된 미국 특허출원번호 제11/241,694호, "Identifying Clusters of Similar Reviews and Displaying Representative Reviews from Multiple Clusters"; 및

2005년 9월 30일자로 제출된 미국 특허출원번호 제11/241,693호, "System and Methods for Reputation Management".

개시된 실시예들은 일반적으로 검색 엔진들에 관한 것이다. 보다 구체적으로는, 개시된 실시예들은 프리젠테이션을 위한 리뷰들로부터의 콘텐츠 선택 및 리뷰들의 선택을 위한 방법 및 시스템에 관한 것이다.

많은 인터넷 사용자들은 제품 또는 서비스를 획득하기 이전에 이를 검색한다. 또한, 많은 인터넷 사용자들은 그 제공자를 후원하기 이전에 제품 또는 서비스의 제공자를 검색한다. 현재, 많은 사용자들이 추종하는 방법은 제품들, 서비스들 및/또는 이들의 제공자들에 대한 등급(rating) 및 리뷰(review)를 제공하는 웹 사이트를 이용하는 것이다. 예를 들어, www.pricegrabber.com, www.bizrate.com, 및 www.resellerratings.com과 같은 웹 사이트들은 제품들과 그 제공자들에 대한 등급 및 리뷰를 제공한다.

제품, 서비스, 또는 제공자에 대한 등급과 리뷰의 전체적인 뷰(holistic view)를 획득하기 위해, 사용자는 등급과 리뷰를 제공하는 다수의 웹 사이트들을 방문하고, 그러한 웹 사이트들에 의해 제공되는 다수의 등급들 및 리뷰들을 읽는다. 그러나, 이러한 프로세스는 매우 시간-소모적이고 성가시다. 사용자들은 다양한 웹 사이트들에 대한 리뷰들과 등급들을 통한 시간 소모를 방지하기 위해, 등급들과 리뷰들의 간단한 요약에 만족할 수 있다.

따라서, 사용자들이 확득하고자 관심을 갖는(예, 구매, 임대, 렌탈, 또는 다른 유사한 거래에 의해) 제품들과 서비스들에 대한 검색을 보다 효율적으로 수행할 수 있도록 하는 것이 매우 바람직하다.

본 발명의 몇몇 실시예들에서, 리뷰들을 처리하는 방법은, 다수의 리뷰들을 식별하는 단계; 적어도 미리 규정된 품질 기준을 기초로 상기 다수의 리뷰들의 서브세트를 선택하는 단계; 및 상기 선택된 서브세트로부터 콘텐츠를 포함하는 응답을 생성하는 단계를 포함한다.

도 1은 본 발명의 몇몇 실시예들에 따른 네트워크를 도시한다.

도 2는 본 발명의 몇몇 실시예들에 따른 리뷰 요약들에 대한 요청들을 수신 및 응답하기 위한 프로세스의 흐름도이다.

도 3은 본 발명의 몇몇 실시예들에 따른 대표적인 리뷰들을 선택하기 위한 프로세스의 흐름도이다.

도 4는 본 발명의 몇몇 실시예들에 따른 고품질 리뷰들을 선택하기 위한 프로세스의 흐름도이다.

도 5는 본 발명의 몇몇 실시예들에 따라, 리뷰들을 클러스터링하고 클러스터들로부터 리뷰들을 선택하기 위한 프로세스의 흐름도이다.

도 6은 본 발명의 몇몇 실시예들에 따라, 리뷰 내의 고품질 콘텐츠로부터 스니피트를 생성하기 위한 프로세스의 흐름도이다.

도 7은 본 발명의 몇몇 실시예들에 따른 리뷰들을 처리하기 위한 시스템을 도시한다.

도면들에 걸쳐서 동일한 참조 번호들은 동일한 부분들을 지칭한다.

서브젝트(subject)(제품, 서비스, 또는 그 제공자)에 대한 검색을 수행하는 사용자들은 몇몇 웹 사이트들에서 많은 리뷰들 및 등급들(ratings)을 읽는 시간을 소비하길 원하지 않을 수 있고, 서브젝트에 대한 리뷰들 및 등급들의 요약에 만족 할 수 있다. 요약은 서브젝트에 대한 리뷰들의 샘플을 포함할 수 있다. 그러나, 샘플의 포함을 위해 단지 임의로 리뷰들을 선택하는 것은 사용자에게 유용하지 않다. 개시된 실시예들은 미리 규정된 넌-랜덤(non-random) 기준을 기초로 리뷰 샘플의 포함을 위해 리뷰들을 선택하고, 리뷰의 스니피트(snippet)의 사용을 위해 리뷰로부터 텍스트를 선택한다.

도 1은 본 발명의 몇몇 실시예들에 따른 네트워크를 도시한다. 네트워크(100)는 하나 이상의 클라이언트들(102), 하나 이상의 문서 호스트들(104), 및 리뷰 엔진(106)을 포함한다. 네트워크(100)는 또한 이러한 구성요소들을 결합하는 네트워크(108)를 포함한다.

문서 호스트들(104)은 문서들을 저장하고 문서들에 대한 액세스를 제공한다. 문서는 텍스트, 그래픽, 멀티미디어 콘텐츠 등의 임의의 조합을 포함하는 임의의 기계-판독가능한 데이터일 수 있다. 몇몇 실시예들에서, 문서는 텍스트, 그래픽, 및 하이퍼텍스트 마크업 언어(HTML)로 기록된 가능한 다른 형태의 정보, 즉 웹 페이지들의 조합일 수 있다. 문서는 다른 문서들로의 하나 이상의 하이퍼링크들을 포함할 수 있다. 문서 호스트(102)에 저장된 문서는 고유 리소스 로케이터(URL), 또는 웹 어드레스, 또는 임의의 다른 적절한 형태의 식별 및/또는 위치에 의해 식별 및/또는 위치될 수 있다. 또한, 문서 호스트들(104)은 사용자들에 의해 이들에게 제출된 리뷰들을 저장하고, 웹 페이지들과 같은 문서들을 통한 리뷰들에 대한 액세스를 제공한다.

클라이언트(102)는 사용자들이 웹 페이지들과 같은 문서들에 액세스할 수 있 는 클라이언트 애플리케이션들을 포함한다. 몇몇 실시예들에서, 클라이언트 애플리케이션들은 웹 브라우저를 포함한다. 웹 브라우저들의 예들은 Firefox, Internet Explorer 및 Opera를 포함한다. 몇몇 실시예들에서, 사용자들은 문서 호스트들(104)로 리뷰을 제출할 수 있거나, 클라이언트(102)를 통하여 리뷰 엔진(106)으로 리뷰들을 제출할 수 있다.

리뷰는 서브젝트 또는 세브젝트들의 클래스에 관한 콘텐츠(예, 코멘트, 평가, 견해 등)를 포함한다. 몇몇 실시예들에서, 콘텐츠는 텍스트이다. 다른 실시예들에서, 콘텐츠는 오디오, 비디오, 또는 텍스트, 오디오 및 비디오의 임의의 조합을 포함할 수 있다.

리뷰의 서브젝트는 리뷰내의 콘텐츠가 코멘트, 평가, 견해 등을 제공하는 임의의 특정한 실체 또는 대상이다. 몇몇 실시예들에서, 리뷰의 서브젝트는 서브젝트의 타입에 따라 분류될 수 있다. 서브젝트 타입의 예들은 제품들, 서비스들, 제품들의 제공자들, 서비스들의 제공자들 등을 포함한다. 리뷰는 서브젝트들의 클래스에 관한 것일 수 있다. 서브젝트들의 클래스는 공통의 특색, 특성 또는 특징을 공유하는 다수의 특정한 실체들 또는 대상들을 포함한다. 예를 들어, 특정한 제품 라인은 리뷰의 서브젝트일 수 있는 서브젝트들의 클래스일 수 있다. 다른 예로서, 특정 브랜드를 가진 모든 제품들은 리뷰의 서브젝트일 수 있는 서브젝트들의 클래스일 수 있다.

등급은 리뷰와 연관되고 리뷰와 함께 저장될 수 있다. 등급(또는 "등급 스코어(rating score")는 리뷰의 서브젝트(또는 서브젝트들의 클래스)에 대한 미리 규정된 스케일의 스코어를 나타낸다. 등급의 형태는 수치값일 수 있거나, 수치값으로 맵핑될 수 있는 임의의 비-수치 형태일 수 있다. 예를 들어, 비-수치 만족(thumbs-up) 또는 불만족(thumbs-down) 등급들은 각각 이진값 1 또는 0으로 맵핑될 수 있다. 등급들의 형태들의 예들은 심볼 또는 서술적 형태들(포지티브/네거티브, 만족/불만족 등) 및 수치 형태들(1-3, 1-5, 1-10, 1-100)을 포함한다. 몇몇 실시예들에서, 등급과 더불어, 리뷰는 특정 실시예들의 서브젝트에 대한 서브-등급들과 연관될 수도 있다. 서브-등급들은 특정 실시예들의 서브젝트에 대한 스코어일 수 있다.

리뷰 엔진(106)은 리뷰 서버(110), 리뷰 저장소(repository)(112), 및 리뷰 수집기(114), 및 문서 저장소(116)를 포함한다. 리뷰 서버(110)는 클라이언트들(102)로의 전송을 위해 리뷰들의 스니피트들 및/또는 리뷰들을 포함하는 응답들을 생성한다. 또한, 리뷰 서버(110)는 리뷰들과 등급들을 리뷰 엔진(106)으로 제출하기 위한 클라어인트들(102)의 사용자들에 대한 인터페이스를 제공한다.

리뷰 수집기(114)는 문서들로부터 리뷰들을 수집한다. 리뷰 수집기(114)는 문서들을 파싱(parsing)하고, 문서들로부터 리뷰들, 등급들, 및 다른 적절한 정보(리뷰들의 독자, 리뷰 날짜, 리뷰의 서브젝트들과 같은)를 추출한다. 추출된 리뷰들은 저장을 위해 리뷰 저장소(112)로 전송된다. 리뷰 수집기(114)가 리뷰들을 추출하는 문서들은 문서 호스트들(104) 및/또는 문서 저장소(116)에 저장될 수 있다.

문서 저장소(116)는 문서 호스트들(104)에 저장된 적어도 서브세트의 문서들의 복사본들의 저장소이다. 문서 저장소(116)에 저장된 문서들은 문서 호스트 들(104)로부터 수집되고 검색 엔진(106)에 의해 저장될 수 있다. 몇몇 실시예들에서, 문서 저장소(116)는 리뷰 엔진(106)에 액세스가능한 검색 엔진(미도시)에 위치될 수 있고, 검색 엔진은 문서 호스트들(104)로부터 문서들을 수집하고 이들을 문서 저장소(116)에 저장하기 위한 것이다.

리뷰 엔진(106)에 저장된 리뷰들은 클라이언트들(102)의 사용자들에 의해 기록되고 문서 호스트들(104) 또는 리뷰 엔진(106)으로 제출된다. 문서 호스트들(104)에 제출된 리뷰들은 문서 호스트들(104)에 저장된 문서들로부터 또는 문서 저장소(116)에 저장된 문서들의 복사본들로부터 추출될 수 있다. 또한, 리뷰들은 사용자들에 의해 리뷰 엔진(106)에 제출될 수 있다. 리뷰 엔진(106)에 제출된 리뷰들 및 문서들로부터 추출된 리뷰들은 저장을 위해 리뷰 저장소(112)로 전송된다.

문서 호스트들(104) 또는 검색 엔진(106)은 사용자들이 리뷰들을 이들에게 제출하는 능력을 제공할 수 있다. 예를 들어, 문서 호스트들(104) 또는 리뷰 엔진(106)은 사용자들이 이들의 리뷰들과 등급들을 기입한 다음 제출할 수 있도록, 온라인 서식들(online forms)을 제공할 수 있다. 리뷰들은 제출 및 저장 이후, 웹 페이지들과 같은 문서들을 통해 다른 사용자들에 의해 액세스될 수 있다.

리뷰의 소스는 리뷰가 제출된 실체(entity)이다. 소스는 리뷰가 제출되었던 문서 호스트(104)의 위치 및/또는 식별자에 의해 식별될 수 있다. 몇몇 실시예들에서, 리뷰의 소스는 리뷰가 제출된 문서 호스트(104)의 도메인에 의해 식별될 수 있다. 예를 들어, 리뷰가 도메인 "www.xyz.com" 하에서 문서 호스트에 제출되었다면, 추출된 리뷰의 소스는 "xyz.com"일 수 있다. 사용자들에 의해 리뷰 엔진(106) 으로 제출된 리뷰들의 경우, 리뷰 엔진(106)은 소스로서 고려될 수 있다.

리뷰 저장소(112)는 리뷰들 및 연관된 등급들을 저장한다. 또한, 리뷰 저장소(112)는 각각의 리뷰에 대해, 서브젝트 또는 서브젝트들의 클래스, 및 서브젝트 타입(즉, 서브젝트 또는 서브젝트들의 클래스가 제품, 제품 제공자 등인지 여부)을 저장한다. 리뷰 저장소(112)는 소스, 독자, 및 각각의 리뷰에 대한 날짜를 저장할 수도 있다. 몇몇 실시예들에서, 리뷰 및 등급은 리뷰 저장소(112)에서, 리뷰 및 등급 자체의 하나 이상의 평가들과 연관될 수 있다. 리뷰 및 등급의 평가는 리뷰 및 등급의 유용성 및/또는 신뢰성을 평가할 수 있다. 예를 들어, 리뷰 및 등급의 평가는 유용한/무용한 등급을 포함할 수 있다. 다른 예로서, 리뷰 및 등급은 그 독자의 평판(reputation)의 측정치를 기초로 하는 계측값과 연관될 수 있다. 평판-기반 계측값의 일 예는 2005년 9월 30일자로 제출된 미국 특허출원번호 제11/241,693호, "Systems and Methods for Reputation Management"에 개시되어 있고, 그 명세서는 참조로 본 발명에 포함된다.

리뷰 엔진(106)의 각각의 구성요소들은 다수의 컴퓨터들에 대해 분배될 수 있다는 것을 고려해야 한다. 예를 들어, 리뷰 저장소(112)는 리뷰들이 각각의 M 서버들에 저장되는지를 결정하는데 사용되는 "모듈로(modulo) M" 기능과 같은 맵핑 기능을 갖는 M 서버들에 대해 배치될 수 있다. 유사하게, 리뷰 서버(110)가 다수의 서버들에 대해 분배될 수 있고, 리뷰 수집기(114)와 문서 저장소(116)는 다수의 컴퓨터들에 대해 각각 분배될 수 있다. 그러나, 설명의 편의를 위해, 단일 컴퓨터에서 구현되는 것으로서 리뷰 엔진(106)의 구성요소들을 논의할 것이다.

도 2는 본 발명의 몇몇 실시예들에 따라, 리뷰 요약들에 대한 요청들을 수신 및 응답하기 위한 프로세스의 흐름도이다. 전술한 것처럼, 검색 엔진(106)은 사용자들에 의해 검색 엔진(106)에 제출된 리뷰들 뿐만 아니라, 문서 호스트들(104)에 제출된 리뷰들을 수집 및 저장한다. 사용자들은 제품, 서비스, 또는 제공자와 같은 서브젝트에 대한 리뷰 정보를 클라이언트(102)를 통하여 리뷰 엔진으로부터 요청할 수 있다. 예를 들어, 사용자는 클라이언트(102)상에 디스플레이되는 웹 페이지에서 링크를 클릭하여, 리뷰 엔진(106)에 대한 요청의 전송을 트리거한다. 그러한 요청을 처리하기 위한 예시적인 프로세스는 이하에서 기술된다.

클라이언트(102)를 통하여, 사용자는 리뷰 엔진(106)으로부터 서브젝트 또는 서브젝트들의 클래스에 대한 리뷰 요약을 요청할 수 있다. 리뷰 엔진(106)은 서브젝트에 대한 리뷰 요약에 대한 요청을 클라이언트(102)로부터 수신한다(202). 리뷰 저장소(112)에 저장된 서브젝트에 대한 리뷰들이 식별된다(204). 식별된 리뷰들의 서브세트가 선택된다(206). 선택된 서브세트로부터의 콘텐츠를 포함하는 응답이 생성된다(208). 응답은 클라이언트(102)로 전송된다(210). 응답 수신시, 클라이언트(102)는 사용자에게 표시하기 위해, 웹 브라우저와 같은 클라이언트 애플리케이션에서 응답을 제공한다.

생성된 응답은 사용자에게 제공 및 표시를 위해 클라이언트(102)로 전송되는 문서이다. 응답 문서는 서브젝트에 대한 리뷰 요약을 포함할 수 있다. 리뷰 요약은 서브젝트에 대한 종합 등급과 같은 정보를 포함하고, 그 추가적인 세부사항들은 도 3과 관련하여 이하에서 기술된다. 리뷰 요약은 가능하다면, 리뷰 소스들에 의 해 주어진 서브젝트에 대한 집합적인 등급들(collective ratings)을 포함할 수도 있다. 리뷰 소스에 의해 서브젝트에 주어진 집합적인 등급은 그 소스에 제출된 서브젝트에 대한 리뷰들과 연관된 등급들을 기초로, 리뷰 소스에 의해 결정되는 등급이다. 집합적인 등급이 결정되는 방법은 리뷰 소스에 의해 변화될 수 있지만 본 발명의 관심사는 아니다. 다양한 이유들 때문에 모든 리뷰 소스들이 서브젝트에 대한 집합적 등급을 갖는 것은 아니다. 예를 들어, 몇몇 리뷰 소스들은 집합적 등급들을 전혀 갖지 않도록 결정할 수 있는 반면에, 다른 리뷰 소스들은 집합적 등급이 결정되어 주어지기 이전에, 서브젝트에 대한 등급들의 수가 미리 규정된 최소치에 도달할 것을 요구할 수 있다. 리뷰 요약에 집합적 등급들의 포함은 선택사항이다.

또한, 리뷰 요약은 리뷰 샘플을 포함한다. 몇몇 실시예들에서, 리뷰 샘플은 선택된 리뷰들 중 적어도 일부의 전체 콘텐츠를 포함할 수 있다. 텍스트-기반 리뷰들에 대해, 리뷰의 전체 콘텐츠는 리뷰의 전체 텍스트이다. 비디오-기반 리뷰들에 대해, 리뷰의 전체 콘텐츠는 리뷰의 전체 비디오 클립이다. 몇몇 다른 실시예들에서, 리뷰 샘플은 선택된 리뷰들 중 적어도 일부의 스니피트들을 포함할 수 있고, 그 추가적인 세부사항들은 도 6과 관련하여 이하에서 기술된다. 그러나, 몇몇 실시예들에서, 리뷰 샘플은 몇몇 선택된 리뷰들의 전체 콘텐츠 및 다른 선택된 리뷰들의 스니피트들을 모두 포함할 수 있다는 것을 고려해야 한다. 리뷰 샘플은 전체 콘텐츠 또는 스니피트들이 리뷰 샘플에 포함되는 리뷰들의 소스들에 대한 하나 이상의 링크들을 포함할 수도 있다.

도 3은 본 발명의 몇몇 실시예들에 따른 대표 리뷰들을 선택하기 위한 프로세스의 흐름도이다. 서브젝트에 대한 리뷰 요약에 대한 요청을 사용자로부터 수신할 때, 리뷰 엔진(106)은 서브젝트의 리뷰 샘플에 포함시키기 위해, 다수의 리뷰들을 선택할 수 있고, 이에 따라 샘플의 리뷰들이 서브젝트에 대한 종합 등급(overall rating)을 대표한다.

특정 서브젝트에 대한 리뷰들 및 리뷰들의 소스들이 식별된다(302). 리뷰들은 특정 서브젝트와 연관된 모든 리뷰들에 대해 리뷰 저장소(112)를 검색함으로써 리뷰 저장소(112)로부터 식별될 수 있다. 식별된 리뷰들은 특정 서브젝트에 대한 리뷰들의 코퍼스(corpus)를 형성한다. 서브젝트에 대한 집합적 등급들은 가능하다면, 각각의 식별된 소스로부터 식별된다(304). 각각의 식별된 리뷰 소스에 대해, 각각의 소스에 있는 코퍼스의 리뷰들의 수가 식별된다(306). 이는 얼마나 많은 코퍼스의 리뷰들이 각각의 소스에 포함되어 있는지에 대한 간단한 카운트이다.

서브젝트에 대해 종합 등급 스코어가 결정된다(308). 종합 등급 스코어는 리뷰 소스들에 의해 주어진 서브젝트에 대한 집합적 등급들의 수학적 조합일 수 있다. 몇몇 실시예들에서, 종합 등급 스코어는 집합적 등급들의 가중 평균이다. 가중치들은 각각의 소스에 포함되는 코퍼스의 리뷰들의 수를 기초로 한다. 따라서, 코퍼스의 많은 리뷰들을 갖는 소스들로부터 집합적 등급들은 가중 평균을 받는다. 종합 등급을 계산하기 위한 예시적인 공식은 다음과 같다:

여기서, OR은 종합 등급이고, S는 코퍼스의 적어도 하나의 리뷰(즉 서브젝트에 대한 적어도 하나의 리뷰)를 갖는 리뷰 소스들의 수이며, 서브젝트에 대한 합산 등급(aggregated rating) r_i는 소스 i로부터의 집합적 등급(collective rating)이며, n_i는 소스 i에 있는 코퍼스의 리뷰들의 수이다. 리뷰 소스들이 각각 이들의 집합적 등급들에 대한 상이한 스케일들 및/또는 서식들(forms)을 이용하면, 집합적 등급들은 먼저 종합 등급에 대해 사용된 스케일/서식과 동일한 스케일 및 서식으로 변환 및/또는 정규화된다. 몇몇 실시예들에서, 종합 등급은 1-5 수치 등급 스케일을 기초로 하고, 이에 따라 집합적 등급들은 그 스케일로 변환 및/또는 정규화될 수 있다. 그러나, 대안적인 등급 스케일들이 종합 등급에 대해 사용될 수 있다는 것을 고려해야 한다. 몇몇 실시예들에서, 집합적 등급들은 상기 공식에 나타낸 것처럼, 각각의 리뷰 소스에 있는 코퍼스의 리뷰들의 개수들의 로그(logarithms)에 의해 가중된다. 로그는 베이스 2, 베이스 10 또는 베이스 e와 같은 임의의 적절한 베이스일 수 있다. 몇몇 다른 실시예들에서, 집합적 등급들은 다음의 공식에 나타낸 것처럼, 각각의 리뷰 소스에 있는 코퍼스의 리뷰들의 개수들에 의해 가중된다:

종합 등급을 결정할 때, 전제 등급이 속하는 등급 범위가 식별된다(310). 등급 스케일은 2개 이상의 등급 범위들로 분할될 수 있다. 예를 들어, 1-5 스케일은 3 범위들로 분할될 수 있다. 3.66 내지 5의 등급은 포괄적으로, 서브젝트의 경험이 전체적으로 포지티브(positive)였다는 것을 나타낼 수 있다. 1 내지 2.33의 등급은 포괄적으로, 서브젝트의 경험이 전체적으로 네거티브(negative)였다는 것을 나타낼 수 있다. 2.34 내지 3.65의 등급은 포괄적으로, 서브젝트의 경험이 전체적으로 혼합되어있다는 것을 나타낼 수 있다. 다른 예로서, 동일한 1-5 스케일은 4 범위들로 분할될 수 있다. 4.1 내지 5의 등급은 포괄적으로, 우수한(excellent) 등급을 나타낼 수 있다. 3.1 내지 4의 등급은 포괄적으로, 양호한(good) 등급을 의미할 수 있다. 2.1 내지 3의 등급은 포괄적으로, 적정(fair) 등급을 의미할 수 있다. 1 내지 2의 등급은 포괄적으로, 나쁜(poor) 등급을 의미할 수 있다. 상기한 등급 범위 예들은 단지 예시적인 것이며 대안적인 방식의 등급 스케일 분할이 사용될 수 있다는 것을 고려해야 한다. 그러나, 설명의 편의를 위해, 등급 스케일이 다음의 3개의 범위들로 분할되는 것으로서 도 3에 도시된 프로세스를 논의할 것이다: 높음/포지티브 범위, 낮음/네거티브 범위, 및 중간/혼합된 범위.

종합 등급이 낮은 범위에 속하는 경우(310 - 낮음), 낮은 범위의 등급들에 연관된 코퍼스의 리뷰들이 선택된다(312). 리뷰들은 전체적으로 코퍼스로부터 선 택되거나 단위 소스 기반으로 선택될 수 있다. 리뷰들이 단위 소스 기반으로 선택되면, 낮은 범위의 등급들과 연관된 미리 규정된 제 1 리뷰 개수까지 각각의 소스로부터 선택될 수 있다. 리뷰들이 전체적으로 코퍼스로부터 선택되면, 리뷰 소스와의 관련 없이, 미리 규정된 제 2 리뷰 개수까지 코퍼스로부터 선택될 수 있다.

종합 등급이 중간 범위에 속하는 경우(310 - 중간), 높은 범위의 등급들과 연관된 코퍼스에 있는 리뷰들, 및 낮은 범위의 등급들과 연관된 코퍼스에 있는 리뷰들이 선택된다(314). 즉, 선택된 리뷰들 중에서, 높은 범위의 등급들과 연관된 리뷰들 및 낮은 범위의 등급들과 연관된 리뷰들이 있다. 대안적인 실시예들에서, 중간 범위의 등급들과 연관된 코퍼스의 리뷰들이 선택된다. 전술한 것처럼, 리뷰들은 단위 소스 기반으로 선택되거나 전반적으로 코퍼스로부터 선택될 수 있다.

종합 등급이 높은 범위에 속하는 경우(310 - 높음), 높은 범위의 등급들과 연관된 코퍼스에 있는 리뷰들이 선택된다(316). 전술한 것처럼, 리뷰들은 단위 소스 기반으로 선택되거나 전체적으로 리뷰들의 세트로부터 선택될 수 있다.

몇몇 실시예들에서, 부가적인 선택 기준이 포함될 수 있다. 예를 들어, 부가적인 기준은 선택될 리뷰들이 세속적 또는 성적 노골적인 콘텐츠와 같은 불쾌한 콘텐츠를 갖지 않도록 하는 것일 수 있다. 다른 예로서, 부가적인 기준은 선택될 리뷰들이 미리 규정된 임계치를 초과하는 평판-기반 계측값을 가져야 하는 것일 수 있다. 보다 일반적으로, 종합 등급이 속하고 제로 이상의 다른 미리 규정된 기준을 충족시키는, 등급 범위의 등급들과 연관된 리뷰들이 선택될 수 있다.

선택된 리뷰들로부터의 콘텐츠를 포함하는 응답이 생성된다(318). 생성된 응답은 사용자에게 제공 및 프리젠테이션하기 위해 클라이언트(102)로 전송되는 문서이다. 응답 문서는 서브젝트에 대한 리뷰 요약을 포함한다. 리뷰 요약은 서브젝트에 대한 종합 등급, 및 선택사항으로서 리뷰 소스들에 의해 주어진 서브젝트에 대한 집합적 등급들과 같은 정보를 포함할 수 있다. 또한, 리뷰 요약은 전술한 것처럼, 선택된 리뷰들 또는 이들의 스니피트를 포함하는 리뷰 샘플을 포함한다.

도 4는 본 발명의 몇몇 실시예들에 따라, 고품질 리뷰들을 선택하기 위한 프로세스의 흐름도이다. 서브젝트에 대한 리뷰 요약에 대한 요청을 사용자로부터 수신할 때, 리뷰 엔진(106)은 서브젝트의 리뷰 샘플에 포함하기 위한 리뷰들의 개수를 선택함으로써, 리뷰들이 고품질 콘텐츠를 포함한다.

특정 서브젝트에 대한 리뷰들 및 리뷰들의 소스들이 식별된다(402). 리뷰들은 특정 서브젝트에 연관된 모든 리뷰들에 대해 리뷰 저장소(112)를 검색함으로써 리뷰 저장소(112)로부터 식별될 수 있다. 식별된 리뷰들은 서브젝트에 대한 리뷰들의 코퍼스를 형성한다. 몇몇 실시예들에서, 불쾌한 콘텐츠를 포함한 임의의 리뷰들을 제거하기 위해, 처음에 또는 프로세스의 나중 단계에서, 식별된 리뷰들이 필터링된다(402).

각각의 식별된 리뷰에 대해 품질 스코어가 결정된다(404). 품질 스코어는 리뷰의 콘텐츠의 품질의 측정치이다. 품질 스코어는 리뷰들을 이들의 품질과 관련하여 서로 비교하기 위한 근거를 제공한다. 품질 스코어는 하나 이상의 미리 규정된 인자들을 기초로 할 수 있다. 몇몇 실시예들에서, 미리 규정된 인자들은 리뷰의 길이, 리뷰의 문장들의 길이, 리뷰의 단어들과 연관된 값들, 및 리뷰의 문법적 품질을 포함한다. 리뷰에 대한 품질 스코어를 결정하도록 결합되는 서브-스코어들 및 각각의 인자를 기초로, 서브-스코어가 리뷰에 대해 결정될 수 있다. 그러나, 부가적인 및/또는 대안적인 인자들이 포함될 수 있다는 것을 고려해야 한다.

리뷰의 문법적 품질과 관련하여, 적절한 문법 및 대문자사용(예, 실제적인 사용 문장들, 전체적으로 대문자가 아닌 리뷰)이 선호된다. 따라서, "적절한" 문법 및 대문자사용을 가진 리뷰들은 이러한 인자에 대해 더 높은 서브-스코어들을 획득한다. 나쁜 문법 및 부적절한 대문자사용을 가진 리뷰들은 읽히지 않는 경향이 있다. 더욱이, 전체적으로 대문자인 리뷰들은 종종 조잡한(rude) 것으로 간주된다. 몇몇 실시예들에서, 리뷰의 문장들의 검출은 리뷰 주기들과 같은, 문장 구획문자(delimiter)의 검출을 기초로 할 수 있다. 몇몇 실시예들에서, 리뷰들은 주어-동사 일치, 행바꾸기 없는(run-on) 문장들 또는 단편들(fragments)의 부재 등과 같은 문법적 품질의 부가적인 표시에 대한 충실도에 대해 평가될 수 있다. 몇몇 실시예들에서, 리뷰의 문법 및 대문자사용의 평가는 문법 검사기(grammar checker)를 이용하여 수행될 수 있고, 이는 종래기술에 공지되어 있으며 추가적으로 기술될 필요가 없다.

리뷰의 길이에 관하여, 너무 길지 않고 너무 짧지 않은 리뷰들이 선호된다. 짧은 리뷰들(예, 몇 단어들)은 정보 가치가 없는 경향이 있고, 긴 리뷰들(예, 많은 문단들)은 보다 짧은 리뷰만큼 읽히지 않는 경향이 있다. 몇몇 실시예들에서, 리뷰 길이는 단어 카운트를 기초로 할 수 있다. 몇몇 다른 실시예들에서, 리뷰 길이는 문자 카운트 또는 문장 카운트를 기초로 할 수 있다. 리뷰 길이 서브-스코어는 리뷰의 길이와 미리 규정된 "최적" 리뷰 길이 간의 차이를 기초로 할 수 있다.

몇몇 실시예들에서, 리뷰들의 문장들의 길이들 또한 고려될 수 있다. 리뷰 엔진은 매우 길거나 짧은 문장들보다는 "적절한(reasonable)" 길이의 문장들을 선호할 수 있다. 몇몇 실시예들에서, 리뷰에 대한 문장 길이 서브-스코어는 리뷰의 문장들의 길이들과 미리 규정된 "최적" 문장 길이 간의 차이들의 평균을 기초로 할 수 있다.

리뷰의 단어들에 연관된 값들과 관련하여, 높은 값 단어들을 갖는 리뷰들은 낮은 값 단어들을 가진 리뷰들에 비해 선호된다. 몇몇 실시예들에서, 단어 값들은 단어들과 연관된 역 문서 빈도(Inverse Document Frequency:IDF)를 기초로 한다. 높은 IDF 값들을 가진 단어들은 일반적으로 보다 "가치있는" 것으로서 고려된다. 단어의 IDF는 단어의 적어도 하나의 발생(occurence)을 포함하는 세트에서 텍스트들의 수로 나누어지는 텍스트들의 세트의 텍스트들 수를 기초로 한다. 리뷰 엔진(106)은 리뷰 저장소(112)의 리뷰들에 대한 IDF 값들을 결정하고, 하나 이상의 테이블들에 값들을 저장할 수 있다. 몇몇 실시예들에서, IDF 값들의 테이블들은 각각의 타입의 리뷰들에 대해 생성된다. 예를 들어, IDF 값들의 테이블은 모든 제품 리뷰들에 대해 생성되고; 모든 제품 제공자 리뷰들에 대해 테이블이 생성된다. 즉, 제품 리뷰들에 대한 IDF 값들의 테이블을 결정하기 위해 사용되는 텍스트들의 세트는 리뷰 저장소(112)의 모든 제품 리뷰들이고; 제품 제공자 리뷰들에 대한 IDF 값들의 테이블을 결정하기 위해 사용되는 텍스트들의 세트는 리뷰 저장소(11)의 모든 제품 제공자 리뷰들이다. 각각의 서브젝트 타입은 하나의 서브젝트 타입에 대 한 리뷰들에서 가치있는 단어들이 다른 서브젝트 타입에 대한 리뷰들에서 가치가 없을 수 있기 때문에, 그 자신의 IDF 값들의 테이블을 갖는다.

임의의 식별된 리뷰에 대해, 리뷰의 각각의 개별 단어에 대한 빈도는 그 단어에 대한 IDF에 의해 결정 및 곱해진다. 리뷰에 대한 단어 값 서브-스코어는 다음과 같다:

여기서, WV_R은 리뷰 R에 대한 단어 값 서브-스코어이고, f_w,R은 리뷰 R에서 개별 단어 w의 발생 개수(용어 빈도 또는 "TF")이며, log IDF_w는 단어 w에 대한 IDF 값의 로그이다. 단어들 w에 대한 IDF 값들은 리뷰의 서브젝트 타입에 적절한 IDF 값들의 테이블로부터 획득된다. 예를 들어, 리뷰 R의 서브젝트가 제품이면, IDF_w 값들은 제품 리뷰들에 대한 IDF 값들의 테이블로부터 획득된다.

몇몇 다른 실시예들에서, 단어 값들은 리뷰 문맥상 가치있는 것으로 간주된 단어들의 미리 규정된 사전을 기초로 한다. 상이한 단어들이 상이한 서브젝트 타입들에 관한 리뷰들에 사용하기에 가치가 있을 수 있기 때문에, 개별 사전들이 상이한 서브젝트 타입들에 대해 규정될 수 있다. 예를 들어, 서브젝트가 제품인 리뷰들에 대한 가치있는 단어들의 사전, 및 서브젝트가 제공자인 리뷰들에 대한 가치있는 단어들의 다른 사전이 있을 수 있다. 이러한 실시예들에서, 단어 값 서브-스코어는 미리 규정된 사전에 얼마나 많은 단어들이 각각의 리뷰에 포함되는지의 카 운트를 기초로 할 수 있다.

리뷰 엔진(106)은 각각의 미리 규정된 인자를 기초로 각각의 식별된 리뷰를 평가하고, 그 평가를 기초로 각각의 인자에 대한 서브-스코어를 결정한다. 각각의 인자들에 대한 서브-스코어들은 아래의 예시적인 식을 이용하는 품질 스코어에 조합될 수 있다:

여기서, Q는 리뷰에 대한 품질 스코어이고, F는 품질 스코어에 들어가는 인자들의 개수, q_j는 인자 j에 대한 서브-스코어, weight_j는 인자 j에 대한 가중치이다. 몇몇 실시예들에서, 가중치들은 모두 1과 같고, 이 경우 품질 스코어 Q는 인자들에 대한 스코어들의 합이다. 몇몇 다른 실시예들에서, 가중치들은 각각의 인자에 대해 상이하게 규정될 수 있다. 일반적으로, 가중치들은 품질 스코어에 대한 각각의 인자의 중요도, 및 인자가 리뷰의 품질에 포지티브 또는 네거티브 기여하는지 여부를 기초로 규정될 수 있다.

몇몇 실시예들에서, 리뷰의 시기(age)는 리뷰의 품질 스코어의 인자로서 고려될 수 있다. 일반적으로, 리뷰 서브젝트의 최근 경험을 보다 반영하기 때문에, 보다 새로운 리뷰들이 선호된다. 품질 스코어를 증가시키는 보너스 포인트들이 리뷰의 시기를 기초로 리뷰의 품질 스코어에 적용될 수 있다. 예를 들어, 하루가 경과한 리뷰는 품질 스코어의 증가를 획득하는 반면에(덧셈 또는 곱셈에 의해), 일년이 지난 리뷰는 보너스를 획득하지 못한다.

리뷰들은 품질 스코어들을 기초로 선택된다(406). 가장 높은 품질 스코어들을 가진 리뷰들이 선택된다. 리뷰들은 단위 소스 기반으로 선택되거나, 전체적으로 코퍼스로부터 선택될 수 있다. 리뷰들이 단위 소스 기반으로 선택되면, 각각의 소스에 대한 최상위 스코어링 리뷰들의 수가 선택된다. 예를 들어, 10 최상위 스코어링 리뷰들이 소스 당 선택될 수 있다. 몇몇 실시예들에서, 선택은 품질 스코어들에 의해 리뷰들을 분류함으로써 수행되고, 리뷰들은 목표된 수의 리뷰들이 선택될 때까지 최상위 스코어링 리뷰들로부터 획득된다.

몇몇 실시예들에서, 미리 규정된 콘텐츠 기준은 리뷰들을 선택하기 위한 부가적인 기준일 수도 있다. 미리 규정된 기준을 충족시키는 콘텐츠와 관련하여, 세속적 및 성적으로 불쾌한 콘텐츠, 서브젝트의 이해와 거의 무관하거나 전혀 무관하여 리뷰들을 읽는 사용자를 불편하게 할 수 있는 단어들 및 문장들과 같은, 사용자에게 불쾌할 수 있는 리뷰들의 콘텐츠를 갖는 리뷰들을 제외시키기 위해, 기준이 규정될 수 있다. 무례하거나 불쾌한 콘텐츠와 일반적으로 연관된 콘텐츠의 사전을 규정하고 사전에 대해 리뷰의 콘텐츠를 매칭함으로써, 미리 규정된 기준을 충족시키는 콘텐츠에 대한 리뷰의 평가가 수행될 수 있다. 세속적 또는 성적으로 불쾌한 언어와 같은 불쾌한 콘텐츠를 갖는 리뷰는 선택을 위한 고려에서 제외된다. 미리 규정된 콘텐츠 기준을 충족시키는 콘텐츠에 대한 리뷰의 콘텐츠의 평가는 스코어 결정 동안(404) 또는 리뷰 선택시 수행될 수 있고, 평가가 수행되는 시기는 설계의 선택 사항이다.

몇몇 실시예들에서, 등급 스코어 기준은 리뷰 선택을 위한 부가적인 기준일 수 있다. 예를 들어, 전술한 것처럼, 대표적인 리뷰들을 선택하기 위한 프로세스는 서브젝트의 종합 등급을 대표하는 고품질 리뷰들이 선택되도록 하기 위해, 현재의 프로세스와 조합될 수 있다. 따라서, 종합 등급이 속하는 등급 범위의 등급들과 연관되고 고품질 스코어들을 갖는 리뷰들이 선택될 수 있다.

전술한 부가적인 기준은 단지 예시적인 것이며, 상기 기준 및 다른 기준의 임의의 조합이 리뷰 선택을 위해 부가적으로 고려될 수 있다는 것을 이해해야 한다. 보다 일반적으로, 리뷰 엔진은 제로 이상의 다른 미리 규정된 기준을 충족시키는 최상위 스코어링(품질 스코어 면에서) 리뷰들을 선택할 수 있다.

선택된 리뷰들을 포함하는 응답이 생성된다(408). 생성된 응답은 사용자에게 제공 및 프리젠테이션하기 위해 클라이언트(102)로 전송되는 문서이다. 응답 문서는 서브젝트에 대한 리뷰 요약을 포함한다. 리뷰 요약은 서브젝트에 대한 종합 등급, 및 선택사항으로서 리뷰 소스들에 의해 주어진 서브젝트에 대한 집합적 등급들과 같은 정보를 포함할 수 있다. 또한, 리뷰 요약은 도 2와 관련하여 전술한 것처럼, 선택된 리뷰들로부터의 콘텐츠를 포함하는 리뷰 샘플을 포함한다.

도 5는 본 발명의 몇몇 실시예들에 따라, 리뷰들을 클러스터링하고 클러스터들(clusters)로부터 리뷰들을 선택하기 위한 프로세스의 흐름도이다. 특정 서브젝트에 대한 리뷰들이 식별된다(502). 리뷰들은 특정 서브젝트와 연관된 모든 리뷰들에 대해 리뷰 저장소(112)를 검색함으로써 리뷰 저장소(112)로부터 식별될 수 있다. 식별된 리뷰들은 서브젝트에 대한 리뷰들의 코퍼스를 형성한다.

리뷰들의 단어 값 벡터들이 생성된다(504). 단어 값 벡터들은 용어 빈도 - 리뷰들에 있는 단어들에 대한 역 문서 빈도 값들을 포함한다. 용어 빈도 - 역 문서 빈도("TF-IDF" 또는 "TFIDF"로서 공지됨)는 문서에서 또는 이러한 실시예들의 경우 리뷰에서, 단어들의 중요도를 평가하기 위한 기술이다. 리뷰에 관련된 단어의 값은 단어가 리뷰에 나타나는 횟수에 의해 증가되지만, 그 단어를 포함하는 리뷰들의 코퍼스에 있는 리뷰들의 수에 의해 오프셋된다. 식별된 리뷰들의 코퍼스의 임의의 리뷰에 대해, 단어 값들의 벡터가 생성될 수 있다. 예를 들어, 리뷰 R은 가중 벡터를 가질 수 있다:

여기서, v₁ 내지 v_n은 리뷰 T와 관련하여, 리뷰들의 코퍼스에 있는 모든 개별 단어들의 단어 값들이다. 몇몇 실시예들에서, 단어 및 그 관련 서식들은 함께 카운트된다. 예를 들어, 동사의 동사 시제(tense)들은 스펠링이 상이할 수 있기 때문에 단순히 개별 단어들로서가 아니라, 동일한 동사의 발생으로서 카운트될 수 있다.

리뷰 R에 관한 단어 w의 값은 다음과 같은 예시적인 식에 의해 결정될 수 있다:

여기서, v_w,R은 리뷰 R에 관한 단어 w의 값이고, f_w,R은 리뷰 R내에 있는 단어 w의 발생 수(용어 빈도)이며, log IDF_w는 전술한 것처럼, 단어 w에 대한 IDF 값의 로그이다. 리뷰 R이 단어 w(f_w,R=0)을 갖는 경우, 단어 값 v_w,R은 0이다. f_w,R≥0이고(발생 횟수는 (-)가 아님) log IDF_w≥0이므로, 단어 값 v_w,R은 (-)일 수 없다.

코퍼스에 있는 각각의 리뷰에 대하여 단어 값 벡터들의 생성시, 코퍼스의 리뷰들은 단어 값 벡터들을 기초로 클러스터들로 구성된다(506). 단어 값 벡터들은 벡터 공간내에 포함되고, 각각의 단어 값 벡터는 그 벡터 공간내의 "점(point)"이다. "점들"은 클러스터링 알고리즘을 이용하여 하나 이상의 클러스터들로 그룹화될 수 있다. 하나의 예시적인 클러스터링 알고리즘은 K-평균 클러스터링 알고리즘이다. K-평균 클러스터링 알고리즘은 종래기술에 공지되어 있다. 그러나, 개시된 실시예들의 이해를 돕기 위해, K-평균 알고리즘은 아래에서 기술된다.

이하의 의사코드(pseudocode)는 K-평균 알고리즘의 기본 단계들을 도시한다:

K-평균 알고리즘에서, 임의의 수 k가 미리 규정된다. 몇몇 실시예들에서, k는 2 내지 16의 값이고, 몇몇 다른 실시예들에서 k는 2 내지 50의 값이다. 단어 값 벡터들의 벡터 공간에 있는 K 랜덤 벡터들이 생성된다. k 랜덤 벡터들은 벡터 공간에 대한 초기 중심들(initial centroids)이다. 각각의 초기 중심은 클러스터의 "중심"을 나타낸다. 즉, k 초기 클러스터들 및 이들의 중심들은 임의로 규정된다. 각각의 단어 값 벡터는 각각의 단어 값 벡터와 각각의 중심 간의 유사성(거리)을 기초로 k 클러스터들 중 하나에 할당된다. 단어 값 벡터는 가장 유사한 중 심(가장 짧은 거리)에 할당된다.

몇몇 실시예들에서, 단어 값 벡터와 중심 사이의 유사성(거리)은 코사인 유사성("코사인 거리"로도 공지됨)이다:

여기서, X·Y는 벡터 X 및 Y의 도트 곱이고,

는 벡터 X의 길이 곱하기 벡터 Y의 길이이며, cosθ는 코사인 유사성이다. 벡터 X 및 Y가 정확히 동일하면, 코사인 유사성 값은 1이다. 이러한 실시예들에서 코사인 유사성에 대한 값들의 범위는 포괄적으로, 0 내지 1이다(코사인 유사성은 단어 값들이 (-)일 수 없기 때문에 (-)일 수 없다). 따라서, 1과 보다 가까운 코사인 유사성을 갖는 리뷰들이 더 유사하고(더 짧은 거리), 0에 보다 가까운 코사인 유사성을 갖는 리뷰들은 더 상이하다(더 긴 거리). 몇몇 다른 실시예들에서, 거리 또는 유사성을 결정하는 대안적인 방식들이 사용될 수 있다.

몇몇 실시예들에서, 미리 규정된 다수의 정규(canonical) 리뷰들이 초기 중심들로서 사용될 수 있다. 정규 리뷰들은 특정 실시예들의 서브젝트에 대해 코멘트하는 리뷰들의 예들로서 제공되는 미리 규정된 리뷰들의 세트이다. 정규 리뷰들의 세트는 리뷰들의 코퍼스의 서브젝트가 무엇인지에 따라 변화될 수 있다. 예를 들어, 사용의 용이함 및 성능과 같은 특징들에 대한 정규 리뷰들을 포함할 수 있는 제품인 서브젝트에 대한 정규 리뷰들의 세트는, 고객 서비스 및 선적 스케쥴과 같 은 특징들에 대한 정규 리뷰들을 포함할 수 있는 제품 제공자인 서브젝트에 대한 정규 리뷰들의 세트와 상이할 수 있다.

단어 값 벡터들이 k 클러스터들에 할당된 이후, k 클러스터들에 대한 중심들이 다시 결정된다. 즉, 각각의 클러스터에 대해 중심들이 재결정된다. 클러스터에 대한 중심은 클러스터의 단어 값 벡터들의 "평균치"를 취함으로써 결정될 수 있다(초기 중심을 포함하지 않음; 초기 중심은 단지 초기 클러스터 할당에 관련됨). 중심 C를 결정하기 위한 식은 다음과 같다:

여기서, CS는 클러스터의 사이즈이고(클러스터의 단어 값 벡터들의 수), V_i는 클러스터의 단어 값 벡터들의 정규화된(단위 길이의 벡터들로 변환된) 벡터들이다.

새로운 중심들의 결정시, 단어 벡터 값들은 새로운 중심들에 대한 유사성을 기초로 클러스터들에 재할당된다. 단어 값 벡터는 가장 유사한 중심에 할당된다. 각각의 단어 값 벡터가 클러스터에 재할당된 이후, 중심들의 재결정 및 단어 값 벡터들의 재할당의 반복이 계속된다. 반복은 종결 조건이 충족될 때까지 계속된다. 몇몇 실시예들에서, 종결 조건은 수렴(convergence) 기준이 충족될 때이다. 수렴 기준은 반복의 종료 이후 단어 값 벡터들이 상이한 클러스터에 재할당되지 않는 것일 수 있다. 몇몇 다른 실시예들에서, 종결 조건은 미리 규정된 수의 반복들이 수 행되는 것이다.

계층적 클러스터링, 퍼지 c-평균 알고리즘 등과 같은 클러스터링의 대안적 방식들이 사용될 수 있다는 것을 고려해야 한다.

리뷰들을 클러스터들로 그룹화할 때, 리뷰 클러스터들의 사이즈들이 식별된다(508). 이는 간단히 각각의 클러스터의 리뷰들의 수이다(중심을 포함하지 않는 단어 값 벡터들에 의해 나타냄).

리뷰들은 각각의 클러스터로부터 선택된다(510). 몇몇 실시예들에서, 리뷰들은 클러스터 사이즈들에 비례하여 각각의 클러스터로부터 선택된다. 미리 규정된 총 수의 리뷰들은 리뷰들의 코퍼스의 샘플로서 제공하기 위해 리뷰들의 코퍼스로부터 선택된다. 샘플의 리뷰들은 클러스터들의 사이즈들에 비례하여 클러스터들로부터 선택된다. 샘플은 더 작은 클러스터보다 더 큰 클러스터로부터 선택된 더 많은 리뷰들을 갖는다. 몇몇 실시예들에서, 매우 작은 클러스터(예, 리뷰들의 미리 규정된 수 미만 또는 코퍼스의 총 리뷰들의 수의 미리 규정된 퍼센티지 미만)는 리뷰 선택에서 제외될 수 있고; 그 클러스터로부터 리뷰가 샘플에 포함시키기 위해 선택될 것이다. 클러스터가 제외되면, 하나 이상의 리뷰들이 다른 클러스터들로부터 선택되어 샘플의 리뷰들의 수가 미리 규정된 총 수에 도달할 수 있다.

몇몇 실시예들에서, 리뷰들은 부가적인 미리 규정된 기준을 기초로 클러스터로부터 선택될 수 있다. 예를 들어, 리뷰들은 도 4와 관련하여 전술한 것처럼, 리뷰들의 품질을 기초로 클러스터로부터 선택될 수 있다. 높은 품질의 리뷰들은 일반적으로 낮은 품질의 리뷰들보다 더 정보 가치가 있고 더 용이하게 읽힌다. 따라 서, 예를 들어, 10 리뷰들이 클러스터로부터 선택되면, 부가적인 품질 기준에 의해, 그 클러스터로부터 10 최상위 품질 리뷰들이 선택될 수 있다. 다른 예로서, 리뷰들은 도 3과 관련하여 전술한 선택 프로세스와 같은, 리뷰들과 연관된 등급들을 기초로 클러스터로부터 선택될 수 있다. 보다 일반적으로, 클러스터가 클러스터 사이즈에 비례하는 리뷰들의 수의 리뷰 샘플에 기여하는 한, 그 클러스터로부터의 리뷰들은 제로 이상의 미리 규정된 기준을 기초로 선택될 수 있다.

선택된 리뷰들을 포함하는 응답이 생성된다(512). 생성된 응답은 사용자에게 제공 및 프리젠테이션하기 위해 클라이언트(102)로 전송되는 문서이다. 응답 문서는 서브젝트에 대한 리뷰 요약을 포함한다. 리뷰 요약은 서브젝트에 대한 종합 등급, 및 선택사항으로서 리뷰 소스들에 의해 주어진 서브젝트에 대한 집합적 등급들과 같은 정보를 포함할 수 있다. 또한, 리뷰 요약은 도 2와 관련하여 전술한 것처럼, 선택된 리뷰들로부터의 콘텐츠를 포함하는 리뷰 샘플을 포함한다.

리뷰들을 클러스터링하고 클러스터들로부터 리뷰들을 선택함으로써, 리뷰들의 토픽 포커스를 대표하는 리뷰 샘플이 선택된다. 클러스터링은 서브젝트의 특정한 특징들에 초점을 맞춘 리뷰들을 식별한다. 리뷰가 포커스하는 특징에 의해 리뷰들을 분리시키고 리뷰 샘플에 포함시키기 위해 클러스터들로부터 리뷰들을 선택함으로써, 리뷰 샘플이 나타날 때, 사용자는 서브젝트의 어떤 특징들이 특히 주목할만한지 또는 서브젝트의 어떤 특징들이 서브젝트를 경험한 다른 사용자들에게 특한 관심이 있었는지를 보다 잘 이해할 수 있다.

도 6은 본 발명의 몇몇 실시예들에 따라, 리뷰내의 고품질 콘텐츠로부터 스 니피트를 생성하기 위한 프로세스의 흐름도이다. 시간을 절약하기 위해, 사용자는 리뷰들의 전체 콘텐츠 보다는 리뷰들의 일부만을 읽기를 선호할 수 있다. 리뷰 엔진은 리뷰 스니피트들로서 리뷰 샘플에 포함시키기 위한 리뷰들내의 특정 콘텐츠를 선택할 수 있다.

리뷰가 식별된다(602). 식별된 리뷰는 파티션들로 분할된다(604). 몇몇 실시예들에서, 파티션들은 리뷰의 문장들이다. 즉, 리뷰의 각각의 문장은 리뷰의 파티션이다. 리뷰의 문장들은 중심들과 같은 문장 구획문자들을 기초로 식별될 수 있다. 리뷰가 하나의 문장만을 갖는 경우처럼, 리뷰가 하나의 파티션만을 갖는 경우가 있을 수 있다. 설명의 편의를 위해, 도 5의 프로세스는 리뷰들의 파티션들이 리뷰들의 문장들인 것으로서 이하에서 기술될 것이다. 그러나, 리뷰들을 분할하는 대안적인 방식들(예, Z 단어들의 파티션들, 여기서 Z는 미리 규정된 총 수)이 사용될 수 있다는 것을 고려해야 한다.

품질 스코어는 리뷰의 각각의 문장에 대해 결정된다(606). 리뷰 문장에 대한 품질 스코어는 도 4와 관련하여 전술한 것처럼, 리뷰에 대한 품질 스코어와 유사하다. 문장 품질 스코어는 품질과 관련된 리뷰의 문장들의 상대적 순서(ordering)에 대한 근거를 제공한다. 품질 스코어는 하나 이상의 인자들을 기초로 할 수 있다. 서브-스코어는 각각의 인자들을 기초로 결정될 수 있다. 서브-스코어들은 상기 도 3과 관련하여 기술된 것과 유사한 가중된 합 방정식을 이용하여, 문장에 대한 품질 스코어에 결합될 수 있다. 몇몇 실시예들에서, 미리 규정된 인자들은 문장의 길이, 문장의 단어들과 연관된 값들, 및 리뷰내의 문장의 위치를 포 함한다.

리뷰 문장의 길이와 관련하여, 너무 길지 않고 너무 짧지 않은 문장들(즉, "적절한 길이"의 문장)이 선호된다. 매우 짧은 문장들은 많은 정보를 포함하지 않을 수 있고, 매우 긴 문장들은 읽기가 힘들 수 있다. 몇몇 실시예들에서, 문장 길이를 기초로 한 서브-스코어는 미리 규정된 "최적" 문장 길이로부터 리뷰의 문장들의 편차를 기초로 할 수 있다. 문장 길이는 단어 카운트 또는 문자 카운트를 기초로 할 수 있다.

문장의 단어들과 연관된 값들과 관련하여, 높은 값 단어들을 갖는 문장들은 낮은 값 단어들을 갖는 문장들에 비해 선호된다. 몇몇 실시예들에서, 단어 값들은 도 4와 관련하여 전술한 리뷰들의 스코어링에 사용되는 단어 값 인자와 유사한, 단어들과 연관된 역 문서 빈도(IDF) 값들을 기초로 한다. 문장에 대해, 문장의 각각의 개별 단어에 대한 빈도는 그 단어에 대한 IDF에 의해 결정 및 곱해진다. 리뷰에 대한 단어 값 서브-스코어는 다음과 같다:

여기서, WV_P는 문장 P에 대한 단어 값 서브-스코어이고, f_w,P는 문장 P의 단어 w의 발생 수, log IDF_W는 단어 w에 대한 IDF 값의 로그이다.

몇몇 다른 실시예들에서, 단어 값들은 리뷰 문맥에서 가치있는 것으로 간주되는 단어들의 미리 규정된 사전을 기초로 한다. 상이한 단어들이 상이한 서브젝트 타입들에 대한 리뷰들에 사용하기에 가치가 있을 수 있기 때문에, 개별 사전들 은 상이한 서브젝트 타입들에 대해 규정될 수 있다. 예를 들어, 서브젝트가 제품인 리뷰들에 대한 가치있는 단어들의 사전, 및 서브젝트가 제공자인 리뷰들에 대해 가치있는 단어들의 다른 사전이 존재할 수 있다. 이러한 실시예들에서, 단어 값 서브-스코어는 미리 규정된 사전의 얼마나 많은 단어들이 각각의 문장에 포함되는지의 카운트를 기초로 할 수 있다.

리뷰내의 문장의 위치와 관련하여, 몇몇 실시예들에서, 리뷰 엔진은 리뷰의 시작부분에 있는 문장들을 선호할 수 있다. 따라서, 위치를 기초로 하는 서브-스코어는 리뷰의 문장들의 수에 대해 정규화된 리뷰의 문장의 위치를 기초로 할 수 있다. 예를 들어, 10 문장들을 갖는 리뷰의 4번째 문장에 대해, 그 문장에 대한 위치 서브-스코어는 4/10 = 0.2일 수 있다.

문자에 대한 서브-스코어들의 결정시, 서브-스코어들은 도 4와 관련하여 전술한 것과 유사한 식을 이용하여, 문장에 대한 품질 스코어에 수학적으로 조합될 수 있다.

리뷰 문장들의 조합들이 식별된다(608). 각각의 조합은 미리 규정된 길이 기준을 충족시키는 리뷰의 하나 이상의 연속적인 문장들을 포함한다. 몇몇 실시예들에서, 길이 기준은 조합 길이가 미리 규정된 최대 스니피트 길이와 동일하거나(단어 카운트 또는 문자 카운트를 기초로 할 수 있음), 조합의 마지막 문장의 일부분에 의해 최대 스니피트 길이를 초과하는 것이다. 조합들을 식별하기 위한 예시적인 알고리즘은 아래의 의사코드에 의해 나타낸다:

상기 의사코드에 나타낸 것처럼, 조합은 리뷰의 하나의 문장으로서 시작되고, 후속적인 문장들은 조합의 길이가 최대 스니피트 길이보다 크거나 같도록 하는 제 1 문장까지 및 제 1 문장을 포함하는, 상기 조합에 첨부된다. 따라서, 조합은조합에 부가될 때 조합 길이가 최대 스니피트 길이보다 크거나 같도록 하는 가능한 하나의 부가적인 문장과 더불어, 조합 길이가 최대 스니피트 길이를 초과하도록 하지 않으면서 리뷰의 가능한 많은 연속적인 문장들의 연결이다.

몇몇 다른 실시예들에서, 알고리즘은 첨부될 얼마나 많은 문장이 최대 스니피트 길이내에 있는지, 즉 얼마나 많은 "공간"이 부가적인 문장을 수용하도록 조합에 유지되는지를 고려하기 위해, 정제(refine)될 수 있다. 예를 들어, 조합이 최대 스니피트 길이의 짧은 하나 또는 두 단어들인 경우 조합에 부가적인 문장이 첨부되지 않도록 하는 것이 보다 가치있을 수 있다.

최상위 조합 품질 스코어을 갖는 조합이 선택된다(610). 몇몇 실시예들에서, 조합에 대한 조합된 품질 스코어는 조합내의 문장들의 품질 스코어의 간단한 합이다. 몇몇 다른 실시예들에서, 조합된 품질 스코어는 가중 합, 간단한 평균, 또는 조합내의 문장들의 품질 스코어들의 가중 평균일 수 있다.

스니피트는 선택된 조합을 이용하여 생성된다(612). 스니피트는 최대 스니피트 길이까지 선택된 조합을 포함한다. 조합이 최대 스니피트 길이를 초과하는 경우, 콘텐츠는 조합 길이가 최대 스니피트 길이와 동일할 때까지 조합의 끝단에서 절단된다. 몇몇 실시예들에서, 조합은 최대 스니피트 길이에 대한 절단 이후 조합의 마지막 문장의 단지 작은 부분(예, 하나 또는 두 단어들)만이 유지되는 경우 최대 스니피트 길이보다 더 짧게 절단될 수 있다. 즉, 문장의 몇몇 단어들만이 최대 스니피트 길이로 조합을 절단한 이후 유지되는 경우, 조합의 마지막 문장을 제거함으로써 절단하는 것이 보다 바람직할 수 있다.

스니피트를 포함하는 응답이 생성된다(614). 생성된 응답은 사용자에게 제공 및 프리젠테이션하기 위해 클라이언트(102)로 전송되는 문서이다. 응답 문서는 서브젝트에 대한 리뷰 요약을 포함한다. 리뷰 요약은 서브젝트에 대한 종합 등급, 및 선택사항으로서 리뷰 소스들에 의해 주어진 서브젝트에 대한 집합적 등급들과 같은 정보를 포함할 수 있다. 또한, 리뷰 요약은 도 2와 관련하여 전술한 것처럼, 선택된 리뷰들로부터의 콘텐츠를 포함하는 리뷰 샘플을 포함한다.

리뷰 엔진(106)은 리뷰 저장소로부터 리뷰들을 선택하고, 클라이언트(102)로의 전송을 위해 선택된 리뷰들(전체 리뷰들 및/또는 스니피트들과 같은)로부터 콘텐츠를 포함하는 응답을 생성한다. 도 3, 4 및 5는 샘플에 대해 리뷰들을 선택하기 위한 3개의 프로세스들을 도시한다. 도 6은 도 3, 4 및/또는 5의 프로세스에서 선택된 리뷰일 수 있는 리뷰의 스니피트를 생성하기 위한 프로세스를 도시한다. 상기 프로세스들은 조합될 수 있다는 것을 이해해야 한다. 예를 들어, 리뷰 엔진(106)은 종합 등급이 속하는 등급 범위에 해당하고 고품질 스코어들을 갖는 리뷰들의 수를 선택할 수 있다. 다른 예로서, 리뷰 엔진(106)은 서브젝트에 대한 리뷰 들을 클러스터링하고, 각각의 클러스터로부터 클러스터 사이즈들에 비례하여, 종합 등급이 속하는 등급 범위에 해당하고 고품질 스코어들을 갖는 리뷰들을 선택한다. 이러한 선택된 리뷰들의 스니피트들이 생성되고, 스니피트들을 포함하는 응답이 생성된다. 보다 일반적으로, 리뷰들은 하나 이상의 미리 규정된 기준을 기초로 선택될 수 있고, 이러한 리뷰들의 스니피트들이 생성되어 클라이언트(102)로 전송된 응답에 포함될 수 있다.

도 7은 본 발명의 몇몇 실시예들에 따른 리뷰 처리 시스템(700)을 도시하는 블럭도이다. 시스템(700)은 전형적으로 하나 이상의 처리 유닛들(CPU's)(702), 하나 이상의 네트워크 또는 다른 통신 인터페이스들(710), 메모리(712), 및 이러한 컴포넌트들을 상호접속하기 위한 하나 이상의 통신 버스들(714)을 포함한다. 시스템(700)은 디스플레이 장치(706) 및 키보드/마우스(708)를 포함하는 사용자 인터페이스(704)를 선택적으로 포함할 수 있다. 메모리(712)는 DRAM, SRAM, DDR RAM 또는 다른 랜덤 액세스 고상 메모리 장치들과 같은 고속 랜덤 액세스 메모리를 포함하고; 하나 이상의 자기 디스크 저장 장치들, 광 디스크 저장 장치들, 플래시 메모리 장치들, 또는 다른 비휘발성 고상 저장 장치들과 같은 비휘발성 메모리를 포함할 수 있다. 메모리(712)는 CPU(들)(702)로부터 원격지에 위치된 하나 이상의 저장 장치들을 선택적으로 포함할 수 있다. 몇몇 실시예들에서, 메모리(712)는 이하의 프로그램들, 모듈들 및 데이터 구조들, 또는 이들의 서브세트를 저장한다:

● 다양한 기본 시스템 서비스들을 처리하고 하드웨어 의존 태스트들을 수행하기 위한 프로시저들을 포함하는 운영체제(716);

● 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 도시권 통신망 등과 같은 하나 이상의 통신 네트워크 인터페이스들(710)(유선 또는 무선)을 통해 리뷰 처리 시스템(700)을 다른 컴퓨터들에 접속하기 위해 사용되는 네트워크 통신 모듈(718);

● 리뷰 저장 시스템과 인터페이싱하는 리뷰 저장 인터페이스(720);

● 리뷰들의 소스들을 식별하는 소스 식별 모듈(722);

● 리뷰들 및 연관된 등급들을 리뷰 소스들로부터 식별하는 리뷰 식별 모듈(724);

● 서브젝트에 대한 종합 등급을 결정하고, 종합 등급이 속하는 등급 범위를 결정하는 종합 등급 모듈(726);

● 리뷰들에 대한 품질 스코어들을 결정하는 리뷰 품질 스코어링 모듈(728);

● 리뷰들을 클러스터들로 구성하는 리뷰 클러스터링 모듈(730);

● 리뷰들을 파티션들로 분할하고, 파티션들에 대한 품질 스코어들을 결정하며, 파티션들의 조합들을 식별하고, 최상위 조합 품질 스코어와의 조합을 선택하는, 리뷰 파티션 모듈(732);

● 하나 이상의 미리 규정된 기준을 기초로 리뷰들을 선택하는 리뷰 선택 모듈(734);

● 불쾌한 콘텐츠와 같은 미리 규정된 콘텐츠 기준을 충족시키는 콘텐츠에 대해 리뷰들 및 리뷰 파티션들을 평가하는 콘텐츠 필터(736); 및

● 리뷰들 및/또는 리뷰들의 스니피트들을 포함하는 응답들을 생성하는 응답 생성 모듈(738).

또한, 시스템(700)은 리뷰 저장 시스템(740)을 포함한다. 리뷰 저장 시스템(740)은 리뷰들 및 연관된 등급들을 저장한다. 리뷰 저장 시스템(740)은 리뷰들의 스니피트들을 생성하는 스니피트 생성기(742)를 포함한다. 몇몇 실시예들에서, 스니피트 생성기(742)는 리뷰 저장 시스템(740)이 아닌 메모리(712)에 위치될 수 있다.

각각의 상기 식별된 엘리먼트들은 하나 이상의 이전에 언급된 메모리 장치들에 저장될 수 있고, 전술한 기능을 수행하기 위한 명령어들 세트에 해당한다. 상기 식별된 모듈들 또는 프로그램들(즉, 명령어들 세트)은 개별 소프트웨어 프로그램들, 프로시저들 또는 모듈들로서 구현될 필요는 없으며, 이에 따라 이러한 모듈들의 다양한 서브세트들이 조합되거나 다양한 실시예들에서 재배치될 수 있다. 몇몇 실시예들에서, 메모리(712)는 모듈들의 서브세트 및 상기 식별된 데이터 구조들을 저장할 수 있다. 더욱이, 메모리(712)는 상기에서 기술되지 않은 부가적인 모듈들 및 데이터 구조들을 저장할 수 있다.

도 7은 "리뷰 처리 시스템"을 도시하지만, 도 7은 본 발명에서 기술된 실시예들의 구조적 개념이라기 보다는 서버들의 세트에 존재할 수 있는 다양한 특징들의 기능적 설명으로서 의도된다. 실제로, 통상의 당업자에 의해 인식되는 것처럼, 개별적으로 도시된 아이템들이 조합될 수 있고, 일부 아이템들은 분리될 수 있다. 예를 들어, 도 7에 개별적으로 도시된 일부 아이템들은 단일 서버들에서 구현될 수 있고, 단일 아이템들은 하나 이상의 서버들에 의해 구현될 수 있다. 리뷰 처리 시 스템을 구현하는데 사용되는 서버들의 실제 개수 및 이들 중에서 특징들이 할당되는 방법은 하나의 구현예와 다른 구현예간에 변화될 수 있고, 평균 사용 주기 동안 및 피크 사용 주기 동안 시스템이 처리해야 하는 데이터 트래픽의 양에 부분적으로 좌우될 수 있다.

상기 상세한 설명은 이들의 애플리케이션을 순수하게 텍스트인, 즉 문자들의 열들로 이루어진 리뷰들로 제한하지 않는다는 것을 고려해야 한다. 상세한 설명은 오디오, 비디오, 또는 다른 형태의 미디어를 포함하는 리뷰들에 적용할 수 있다. 예를 들어, 오디오를 포함하는 리뷰(오디오-단독 리뷰들 또는 오디오 트랙을 갖는 비디오 리뷰들)에 대해, 오디오는 종래기술에 알려진 음성 대 텍스트 변환을 이용하여 텍스트로 변환될 수 있다. 변환된 텍스트는 전술한 선택 및 스니피트 생성 프로세스들에 대한 "리뷰"로서 사용될 수 있다. 오디오 또는 비디오 리뷰의 스니피트는 리뷰의 변환된 텍스트를 기초로 스니피트에 대해 선택된 단어들을 갖는 음성을 가진 오디오 또는 비디오의 부분이다. 리뷰 품질이 오디오/비디오 리뷰들을 선택하기 위한 기준이면, 문법적 품질 인자가 매체에 대해 적용될 수 있다. 예를 들어, 대문자사용은 리뷰의 콘텐츠가 텍스트가 아닌 음성일 때 매우 부적절하므로, 무시될 수 있다.

전술한 상세한 설명은 설명을 목적으로 특정한 실시예들을 참조로 기술되었다. 그러나, 상기 예시적인 논의들은 개시된 정확한 형태들로 본 발명을 제한하거나 독점적으로 의도되지 않는다. 많은 변형들과 변화들이 상기 기술들의 관점에서 가능할 수 있다. 실시예들은 본 발명 및 그 실제적 애플리케이션들의 원리들을 최 상으로 설명하기 위해 선택 및 기술되었고, 이에 따라 통상의 당업자가 고려되는 특정한 사용에 적합하도록 다양한 변형들을 갖는 다양한 실시예들 및 본 발명을 최상으로 활용할 수 있도록 한다.

Claims

리뷰들을 처리하는 방법으로서,

다수의 리뷰들을 식별하는 단계;

적어도 미리 규정된 품질 기준을 기초로 상기 다수의 리뷰들의 서브세트를 선택하는 단계; 및

상기 선택된 서브세트로부터 콘텐츠를 포함하는 응답을 생성하는 단계

를 포함하는 리뷰들을 처리하는 방법.
제 1 항에 있어서,

상기 선택하는 단계는 적어도 상기 미리 규정된 품질 기준 및 미리 규정된 시기(age) 기준을 기초로, 다수의 리뷰들의 서브세트를 선택하는 단계를 포함하는 것을 특징으로 하는 리뷰들을 처리하는 방법.
제 1 항에 있어서,

상기 선택하는 단계는 적어도 상기 미리 규정된 품질 기준 및 미리 규정된 콘텐츠 기준을 기초로, 상기 다수의 리뷰들의 서브세트를 선택하는 단계를 포함하는 것을 특징으로 하는 리뷰들을 처리하는 방법.
제 1 항에 있어서,

상기 선택하는 단계는 적어도 상기 미리 규정된 기준 및 미리 규정된 등급(rating) 스코어 기준을 기초로, 상기 다수의 리뷰들의 서브세트를 선택하는 단계를 포함하는 것을 특징으로 하는 리뷰들을 처리하는 방법.
제 1 항에 있어서,

상기 선택하는 단계는,

각각의 상기 리뷰의 길이, 각각의 상기 리뷰의 문장들의 길이들, 각각의 상기 리뷰의 하나 이상의 단어들과 연관된 값들, 및 각각의 상기 리뷰의 문법적 품질로 이루어진 그룹 중 적어도 하나를 기초로 각각의 상기 다수의 리뷰들에 대해 품질 스코어를 결정하는 단계; 및

적어도 각각의 상기 품질 스코어를 기초로 상기 다수의 리뷰들의 서브세트를 선택하는 단계를 포함하는 것을 특징으로 하는 리뷰들을 처리하는 방법.
제 1 항에 있어서,

상기 응답을 생성하는 단계는 상기 선택된 서브세트의 다수의 리뷰들의 스니피트들(snippets)을 생성하는 단계를 포함하는 것을 특징으로 하는 리뷰들을 처리하는 방법.
제 6 항에 있어서,

상기 리뷰들의 스니피트들을 생성하는 단계는,

상기 리뷰를 하나 이상의 파티션들로 분할하는 단계;

미리 규정된 기준을 기초로 상기 파티션들의 서브세트를 선택하는 단계; 및

상기 파티션들의 선택된 서브세트로부터 콘텐츠를 포함하는 스니피트를 생성하는 단계를 포함하는 것을 특징으로 하는 리뷰들을 처리하는 방법.
리뷰들을 처리하기 위한 시스템으로서,

다수의 리뷰들을 식별하기 위한 명령어들;

적어도 미리 규정된 품질 기준을 기초로 상기 다수의 리뷰들의 서브세트를 선택하기 위한 명령어들; 및

상기 선택된 서브세트로부터의 콘텐츠를 포함하는 응답을 생성하기 위한 명령어들을 포함하는 하나 이상의 모듈들을 포함하는, 리뷰들을 처리하기 위한 시스템.
제 8 항에 있어서,

상기 하나 이상의 모듈들은 적어도 상기 미리 규정된 품질 기준 및 미리 규정된 시기 기준을 기초로 상기 다수의 리뷰들의 서브세트를 선택하기 위한 명령어들을 포함하는 것을 특징으로 하는 리뷰들을 처리하기 위한 시스템.
제 8 항에 있어서,

상기 하나 이상의 모듈들은 적어도 상기 미리 규정된 품질 기준 및 미리 규 정된 콘텐츠 기준을 기초로 상기 다수의 리뷰들의 서브세트를 선택하기 위한 명령어들을 포함하는 것을 특징으로 하는 리뷰들을 처리하기 위한 시스템.
제 8 항에 있어서,

상기 하나 이상의 모듈들은 적어도 상기 미리 규정된 품질 기준 및 미리 규정된 등급 스코어 기준을 기초로 상기 다수의 리뷰들의 서브세트를 선택하기 위한 명령어들을 포함하는 것을 특징으로 하는 리뷰들을 처리하기 위한 시스템.
제 8 항에 있어서,

상기 하나 이상의 모듈들은,

각각의 상기 리뷰의 길이, 각각의 상기 리뷰의 문장들의 길이들, 각각의 상기 리뷰의 하나 이상의 단어들과 연관된 값들, 및 각각의 상기 리뷰의 문법적 품질로 이루어진 그룹 중 적어도 하나를 기초로 각각의 상기 다수의 리뷰들에 대해 품질 스코어를 결정하기 위한 명령어들; 및

적어도 각각의 상기 품질 스코어를 기초로 상기 다수의 리뷰들의 서브세트를 선택하기 위한 명령어들을 포함하는 것을 특징으로 하는 리뷰들을 처리하기 위한 시스템.
제 8 항에 있어서,

상기 하나 이상의 모듈들은 상기 선택된 서브세트의 다수의 리뷰들의 스니피 트들을 생성하기 위한 명령어들을 포함하는 것을 특징으로 하는 리뷰들을 처리하기 위한 시스템.
제 13 항에 있어서,

상기 하나 이상의 모듈들은,

상기 리뷰를 하나 이상의 파티션들로 분할하기 위한 명령어들;

미리 규정된 기준을 기초로 상기 파티션들의 서브세트를 선택하기 위한 명령어들; 및

상기 파티션들의 선택된 서브세트로부터 콘텐츠를 포함하는 상기 스니피트를 생성하기 위한 명령어들을 포함하는 것을 특징으로 하는 리뷰들을 처리하기 위한 시스템.
컴퓨터 시스템과 연계하여 사용하기 위한 컴퓨터 프로그램 제품으로서,

상기 컴퓨터 프로그램 제품은 컴퓨터 판독가능한 저장 매체 및 그 내부에 내장된 컴퓨터 프로그램 메커니즘을 포함하고,

상기 컴퓨터 프로그램 메커니즘은,

다수의 리뷰들을 식별하기 위한 명령어들;

적어도 미리 규정된 품질 기준을 기초로 상기 다수의 리뷰들의 서브세트를 선택하기 위한 명령어들; 및

상기 선택된 서브세트로부터의 콘텐츠를 포함하는 응답을 생성하기 위한 명 령어들을 포함하는, 컴퓨터 프로그램 제품.
제 15 항에 있어서,

상기 선택하기 위한 명령어들은,

각각의 상기 리뷰의 길이, 각각의 상기 리뷰의 문장들의 길이들, 각각의 상기 리뷰의 하나 이상의 단어들과 연관된 값들, 및 각각의 상기 리뷰의 문법적 품질로 이루어진 그룹 중 적어도 하나를 기초로 각각의 상기 다수의 리뷰들에 대해 품질 스코어를 결정하기 위한 명령어들; 및

적어도 각각의 상기 품질 스코어를 기초로 상기 다수의 리뷰들의 서브세트를 선택하기 위한 명령어들을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
제 15 항에 있어서,

상기 응답을 생성하기 위한 명령어들은 상기 선택된 서브세트의 다수의 리뷰들의 스니피트들을 생성하기 위한 명령어들을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
제 17 항에 있어서,

상기 리뷰들의 스니피트들을 생성하기 위한 명령어들은,

상기 리뷰를 하나 이상의 파티션들로 분할하기 위한 명령어들;

미리 규정된 기준을 기초로 상기 파티션들의 서브세트를 선택하기 위한 명령 어들; 및

상기 파티션들의 선택된 서브세트로부터의 콘텐츠를 포함하는 상기 스니피트를 생성하기 위한 명령어들을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
리뷰들을 처리하기 위한 시스템으로서,

다수의 리뷰들을 식별하기 위한 수단;

적어도 미리 규정된 품질 기준을 기초로 상기 다수의 리뷰들의 서브세트를 선택하기 위한 수단; 및

상기 선택된 서브세트로부터의 콘텐츠를 포함하는 응답을 생성하기 위한 수단

을 포함하는 리뷰들을 처리하기 위한 시스템.