KR20010113779A

KR20010113779A - 유전자 알고리즘들을 사용한 멀티 특징 조합 생성 및 분류유효성 평가

Info

Publication number: KR20010113779A
Application number: KR1020017012812A
Authority: KR
Inventors: 제임스 디. 샤퍼
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-02-07
Filing date: 2001-01-11
Publication date: 2001-12-28
Also published as: ATE362141T1; EP1397759B1; EP1397759A2; DE60128405D1; WO2001059610A3; JP2003534583A; WO2001059610A2; US6892191B1

Abstract

진화 알고리즘(160)으로 제시된 특징들이 조합 특징들을 포함하는 개별 특징들(110)보다 분류들 간에 구별하는데 보다 충분할 수 있는 조합 특징들(141)을 생성시키도록 전처리(preprocess)된다. 특징들의 초기 설정이 다른 특징들을 조합하여 생성된 특징들을 포함하는, 대다수의 잠재 특징들을 포함하는 것으로 정의된다. 이러한 특징들은 이러한 특징들에 기초한 조합 특징들뿐만 아니라, 미리 분류된 내용 자료의 수집에 사용되는 단어들을 포함한다. 원래의 특징들의 풀(110) 및 조합 특징들(141)은 분류에 사용하기 위해 특징들의 최고의 서브세트(131')의 다음의 평가, 생성, 결정에 대한 평가 알고리즘으로 제공된다. 이러한 평가 및 생성 처리에서, 각 조합 특징은 조합 특징들을 형성하기 위해서, 특징들이 사용되었거나 사용되지 않았던 관계없이 개별 특징들로 처리된다. 결과적인 최고의 형성 서브세트(131')는 실질적으로 자동화된 분류에 대한 새로운 내용 자료를 특징짓는데 사용된다.

Description

유전자 알고리즘들을 사용한 멀티 특징 조합 생성 및 분류 유효성 평가{Multi-feature combination generation and classification effectiveness evaluation using genetic algorithms}

2. 관련 기술의 설명

소비자들은 정보 및 환경 옵션들의 계속 증가하고 있는 공급(ever-increasing supply)을 제공받고 있다. 수백 개의 텔레비전 채널들은 방송, 케이블, 및 위성 통신 시스템들을 통해 소비자들에게 이용가능하고, 인터넷은 잠재적 관심의 대부분의 분야들을 연결하는(spanning) 자료의 실로 무한정 공급을 제공한다. 정보, 엔터테인먼트, 및 다른 자료의 늘어나고 있는 공급 때문에, 특정 관심의 자료를 정하는 것이 소비자들에게 점점 더 어려워지고 있다. 여러 기술들이 선택 태스크를 쉽게하기 위해서 제안되어 왔으며, 그 대부분은 사용 가능한 자료들의 내용의 분류, 사용자의 관심의 대응하는 분류에 기초한다.

많은 방법들이 자료의 특정 피스(piece)의 내용을 특징짓기 위해 사용 가능하다. 엔터테인먼트 분야에서, 각 프로그램의 개요(synopses)를 함유하는 텔레비전 가이드들이 사용 가능하고, 자동화 시스템들이 각 화상 프레임에 함유된 화상들의 분석에 기초한 프로그램들 및 프로그램들의 세그먼트들을 분류하기 위해 제안되어 왔다. 정보 분야에서, 웹 크로러(web crawler)들이 키단어들 또는 어구(phrase)들에 기초한 자료에 대한 검색을 용이하게 하기 위해 각각의 웹 페이지로부터 키단어들 및 어구들을 발췌하는데 사용되며, 또는, 선택한 웹 페이지들의 개요(synopsis)들이 이러한 검색들을 용이하게 하기 위해 인덱스(index)를 형성하여 수동으로 생성된다. 유사한 방법으로, 음성 인식 기술들이 텔레비전 또는 라디오 프로그램에서, 또는 서정곡(lyrics of a song) 등에서, 사용되는 키단어들의 인덱스를 생성하는데 이용될 수 있다. 다른 특성 방법들은 또한 다른 요소들에 기초하여 이용된다. 예를 들어, 날의 시간, 주의 날, 년의 계절이 프로그램 질 및 인기도의 잠재적인 표시기(potential indicator)로서, 예를 들어, "주요 시간" 프로그램과 "새벽 이전" 프로그램들 간에서 구별하는 방송 엔터테인먼트 자료의 특성에 포함될 수 있다. 프로듀서, 감독, 배우들, 방송 네트워크, 제공자 타입 등이 또한 프로그램을 특징짓는데 사용될 수 있다. 정보 분야에서, "히트"들의 수와 같은 유사한 파라미터들이, 날마다 겪는 특정 웹 페이지, 이러한 웹 페이지를 참고하는 다른 웹 페이지들, 그 웹 페이지의 작가 등에 또한 사용될 수 있다.

참고의 용이함에 대해, 이후, 용어 "내용 자료(content material)"는 정보 아이템들, 엔터테인먼트 아이템들 및 분류 및 특성에 대해 잠재적으로 사용 가능한 다른 아이템들에 관한 자료를 참고하는데 사용된다. 내용 자료는 정보 또는 엔터테인먼트 아이템 자체, 아이템들의 추상 및 개요, 아이템의 생성 및 표시에 관한 정보 등을 포함할 수 있다. 용어 "특징(feature)"는 이후 분류 또는 특성을 용이하게 하기 위해 잠재적으로 사용 가능한 특성으로 언급하는데 사용된다. 예를 들어, 텔레비전 프로그램의 개요의 각각의 단어는 텔레비전 프로그램의 내용 자료의 특성을 용이하게 하는데 사용될 수 있는 특징이고, 그 프로그램이 방송하는 날의 시간과 같이, 감독의 이름 또한 특징이다. 유사한 방법으로, 웹 페이지, 이러한 페이지가 속해 있는 페이지들의 족(family) 등의 제공자와 같이, 각각의 키워드는 특징이다.

분류 시스템의 유효성(effectiveness) 및 능률(efficiency)은 내용 자료를 분류하는데 사용되는 특징들의 선택에 매우 의존한다. 이러한 유효성 및 능률은 특히 특징들의 조합을 포함하는 특징들의 선택에 의존한다. 특징들의 조합을 포함하는 특징들의 선택은 종종 주체의 선택이 되고, 종종 수동적인 집중 강조가 된다. 예를 들어, 텔레비전 프로그램을 분류하는데 사용될 특징들의 세트으로서 개요의 단어들을 사용하는 것이 수월(straightforward)하다. 각각의 개요는 각각의 단어를 확인하고 노이즈 단어들을 제거하기 위해 처리된다. 개요에 사용되고 그들의 생성 주파수에 의해 잠재적으로 명령되는 단어들의 결과적인 목록은 그 내용 자료에 대한 주제문의 분류를 결정하거나, 이러한 단어들이 사용자의 선호도에 관련된 단어들과 서로 관련되어 있는 지의 여부를 결정하는 등을 위해 연속 처리하기 위해 데이터베이스에 저장된다. 그러나, 모든 단어가 다른 분류들의 프로그램들 중에서 구별할 때 똑같이 효과적인 것은 아니다. 예를 들어, 몇몇 단어들이 프로그램들의 분류에 관계없이 프로그램들에서 생성되는 높은 주파수를 가질 수 있다. 다른 단어들은 낮은 생성 주파수를 가질 수 있지만, 그들이 출현할 때, 프로그램 분류들 간에 구별하기 위해 매우 효과적이다. 이하에 기재된 진화 알고리즘들이 다른 분류들의 프로그램들 중에서 구별의 높은 정도를 제공하는 특징들의 조합을 결정하기 위해 특히 효과적이도록 논증되어 왔다. 전통의 진화 알고리즘에서, 염색체가 특징들의 조합들을 함유하여 형성되고, 상기 예에서, 염색체는 많은 프로그램들의 개요에 사용되는 모든 단어들의 서브세트를 포함한다. 다른 염색체들이 다른 서브세트를 포함한다. 만일, 단어들의 특정 세트가 프로그램들을 구별할 때 효과적이라면, 단어들의 서브세트에 이러한 단어들을 함유하는 각각의 염색체는 일반적으로 이러한 보다 소수의 특정 워드들을 갖는 유사한 염색체들보다 더 나은 분류 실행을 나타낼 것인 반면에, 다양한 분류들에 공통인 단어들의 존재 및 부재가 그들의 염색체의 분류 실행에 현저하게 영향을 미치지는 않을 것이다. 이전 염색체들을 실행하는 더 나은 것들과 유사한 특색(trait)들(단어들의 서브세트)을 갖는 염색체들의 진화에 대한 선호도를 갖는 이전 염색체들의 실행에 기초한 대안의 염색체들을 계속적으로 진화시킴으로써, 진화된 염색체들의 실행은 증가될 것으로 기대될 수 있다. 진화 과정의 끝에서, 단일 염색체, 또는 단어들의 서브세트는 프로그램 분류들 중에서 구별하기 위한 단어들의 최고의 수행 세트으로 선택된다.

내용 자료를 특징짓거나 분류하는 효과적이고 능률적인 수단을 제공하는 특징들의 세트의 선택에 대한 필요성은 특히 제한된 그러한 특징 및 분류에 대해 사용 가능한 자원들로서 중요하다. 예를 들어, 기술들이 사용 가능하게 될 때, 시청자들은 "선호도" 프로파일에 기초하여 프로그램 선택 도움을 제공하기 위해 새롭게요구되는 가정 엔터테인먼트 시스템들을 기대할 것이다. 그러나, 이러한 시스템들은 통상적으로 제한된 처리 및 저장 능력들을 함유할 것이고, 예를 들어, 그러한 선택 도움에 사용 가능한 모든 개요의 모든 단어 및 어구를 저장할 수 없을 수 있다. 제한된 저장소 내의 비식별(non-discriminating) 모드의 포함은 낭비적일 수 있고, 더 중요하게는 그릇된 구별들을 도입함으로써 분류 정확도를 감소시킬 수 있다. 그러므로, 분류 시스템은 효과적으로 선택하는 특징들을 식별하고, 카운터-생산 비식별 특징들을 배제하는 듀얼 태스크에 효과적임에 틀림없고, 일반적으로, 특징을 포함하고, 배제하는 효과들은 비-부가적(non-additive)이다.

1. 본 발명의 분야

본 발명은 분류 시스템들의 분야에 관한 것이며, 특히 주어진 샘플의 분류를 결정하는데 사용되는 특징들의 선택 및 특징들의 조합들에 관한 것이다.

도 1은 본 발명에 따른 특징 조합 생성기를 갖는 특징 세트 선택 시스템의 예의 블럭도.

도 2는 본 발명에 따른 특징 세트 선택 시스템에 의해 결정되는 바와 같이, 바람직한 특징 세트에 기초한 내용 자료를 분류하기 위한 분류 시스템의 예의 블럭도.

도 3은 본 발명에 따른 학습 시스템을 통해 내용 자료를 분류하기 위한 분류 시스템의 예의 블럭도.

진화 알고리즘들은 처리되는 분류 시스템 및 저장 능력들에 포함하기 위해, 가장 효과적인 단어들, 또는 특징들의 확인을 제공하는 약속을 유지하고, 본 발명은 효과적인 특징 서브세트들을 확인하기 위한 진화 알고리즘들의 사용을 더 강화하는 방법 및 장치를 언급한다.

본 발명의 목적은 진화 알고리즘을 사용하여 내용 자료를 특징짓는데 사용되는 특징들의 확인 및 선택을 용이하게 하기 위한 것이다. 본 발명의 다른 목적은 진화 알고리즘을 사용하여 내용 자료를 특징짓는데 사용되는 조합 특징들의 형성을 용이하게 하기 위한 것이다.

이러한 목적들 및 다른 목적들은 조합 특징을 포함하는 개별 특징들보다 분류들 중에서 식별할 때 더 효과적일 수 있는 조합 특징들을 생성하기 위해 진화 알고리즘으로 나타나는 특징들을 처리함으로써 달성된다. 다른 특징들의 조합들인 생성된 특징들을 포함하는 대다수의 잠재적 특징들을 포함하는 것이 특징들의 초기 세트를 정의한다. 이러한 특징들은 예를 들어, 사용되는 모든 명사 및 동사구들과 같은 이러한 특징들에 기초한 조합 특징들뿐만 아니라 이전 분류된 내용 자료의 콜렉션에 사용되는 모든 단어들을 포함한다. 이러한 원래의 특징들 및 조합 특징들의 풀은 연속하는 평가, 생성, 및 분류를 위해 사용하기 위해 특징들의 최고의 서브세트의 결정에 대한 진화 알고리즘에 제공된다. 이러한 평가 및 생성 과정에서, 각각의 조합 특징은 조합 특징을 형성하기 위해, 사용되거나 사용되지 않는 특징들에 관계없이 개별 특징로서 처리된다. 예를 들어, 이러한 방법에서, 원래 특징 단어들의 조합으로 생성되는 특정 어구가 종래의 진화 알고리즘에 의해 제공될 수 있는 것과 같이, 원래의 특징 단어들 중 임의의 것보다 더 나은 식별 특징 및 개별 특징 단어들의 무관한 선택보다 더 효과적인 식별 특징이 되도록 결정될 수 있다. 만일, 자동화 분류가 학습 시스템을 포함한다면, 진화 알고리즘 및 생성 조합 특징들은 또한 학습 시스템을 트레이닝하는데 사용된다.

본 발명은 첨부 도면들을 참조하여 예의 방식으로 보다 상세히 설명될 것이다.

전체 도면들에서, 동일한 참조 번호들은 유사하거나 대응하는 특징들 및 기능들을 지시한다.

본 발명의 상세한 설명

본 발명은 단어들과 같은 특징들의 임의의 조합들이 조합을 형성하는 개별 단어들보다 상당히 더 많은 분류 민감성 정보(classification-sensitive information)를 함유하고 있다는 관찰(observation)에 기초한다. 또한, 많은 경우에, 그 개별 특징들은 분류들 중에서 구별하기 위해 전체적인 능력에 불리한 효과들을 가질 수 있다. "적십자(red cross)", "비행접시(flying saucer)", "특전사(green beret)" 등과 같은 매우 묘사적인 어구들을 고려해 보자. 그 개요에 있어서 이러한 어구들 중 하나를 포함하는 프로그램은 개요가 나머지 어구들 중 하나를 함유하는 또 다른 프로그램과 동일한 카테고리로 분류되기는 드물다. 즉, 이러한 각각의 어구들은 프로그램 카테고리들 중에서 구별하기에 매우 적절하다. 그들의 구별 어구들로부터 문맥을 벗어나서 발췌된 개별 단어들 "적(red)", "초록(green)", "십자(cross)", "접시(saucer)", "베레모(beret)", 및 "비행(flying)"은 분류들을 구별하기 위해 효과적인 것으로 보이지는 않는다. "적" 및 "초록"과 같은 이러한 단어들 중 몇몇은 "아트"와 같은 또 다른 분류를 더 연상시킬 수 있으므로, 문맥을 벗어난 이러한 단어들을 사용하는 시스템의 분류 유효성을 감소시키는 역할을 한다. 종래의 진화 알고리즘과 같은 개별 특징들에 기초한 종래의 특징 선택 시스템이 "적" 및 "십자"의 둘 모두의 특징들을 포함할 수 있으나, 그들이 사실상 개별 특징들이기 때문에, 이러한 특징들의 구별 능력들이 단일 특징 "적십자(red cross)"보다 더 불충분할 것 같으며, 특징 "적"은 또 다른 분류에 강력하게 서로 관련될 수 있기 때문에, 개별 특징 "적"을 사용한 결과적인 분류는 에러가 있을 수 있다. 유사한 방법으로, "상기 적십자"의 생성은 "적십자"의 생성보다 더 많은 분류를 암시할 것 같은 반면에, 종래의 분류 처리는 구별 특징로서 단어 "상기(the)"를 사용하지 않을 것이다.

본 발명의 일 양상에 따르면, 조합 특징들은 내용 자료를 분류하는데 종래적으로 사용되는 개별 특징들로부터 생성된다. 본 발명의 또 다른 양상에 따르면, 이러한 생성된 조합 특징들은 조합을 형성하는 특징들과는 실질적으로 관계없는 것으로 다루어진다. 예를 들어, "적"이 "아트" 분류와 강력하게 서로 관련되고, "적십자"가 "인도주의(humanitarian)" 분류와 강력하게 관련되면, 둘 모두의 특징들, 원래의 "적" 특징 및 생성된 "적십자" 특징은 내용 자료를 분류하는데 사용되는 특징 세트에 포함될 수 있다.

효과적인 구별 능력들을 가질 수 있는 단어 어구들의 생성에 부가하여, 다른 특징 조합들이 형성될 수 있다. 예를 들어, 특정 감독-프로듀서, 감독-배우, 배우-여배우 조합들이 개별의 감독, 배우, 여배우, 및 프로듀서 특징들보다 내용 자료의 더 나은 특징을 제공할 수 있다. 유사하게, 웹 사이트의 제공자와 특정 키워드들또는 어구들의 조합이 웹 페이지의 보다 효과적인 특징을 용이하게 할 수 있다. 예를 들어, 웹 페이지 상의 정보 제공자로서의 "필립스"와 키 어구로서의 "엔터테인먼트 시스템"의 조합은 다른 제공자에 의해 제공되는 웹 페이지 상의 " 필립스"와 "엔터테인먼트 시스템"의 존재와는 다르게 페이지를 특징지을 수 있다.

잠재적 측정 특징들 및 조합 특징들의 수가 실제적으로 무한하기 때문에, 내용 자료 분류에 대한 특징들의 서브세트(subset)의 사용을 요구하며, 진화 알고리즘이 특징들의 어느 것을 사용할 지를 선택하기 위한 바람직한 실시예에서 사용된다.

도 1은 본 발명에 따른 특징 세트 선택 시스템(100)의 예의 블럭도를 도시한다. 예의 선택 시스템(100)은 내용 자료를 분류하는데 있어서, 그들의 유효성에 대해 평가되는 특징들의 세트들을 생성하는데 사용되는 진화 알고리즘(160)을 포함한다. 진화 알고리즘(160)은 분류 과정에서 사용되는 특징들의 선택된 세트에 포함하기 위한 지원 특징들로서 특징들의 풀(110)을 사용한다. 본 발명의 일양상에 따라서, 특징 조합 생성기(140)은 개별 특징들의 조합들을 포함하는 조합 특징들(141)을 생성하는데 사용된다. 기술들은 종래적으로 예를 들어, 형용사들에 후속하는 명사들, 부사들에 후속하는 동사들, 부사-형용사-명사의 조합들 등을 확인함으로써, 명사구들 및 동사구들을 확인하기 위해 사용 가능하다. 모든 단어들의 순차적 쌍 및 모든 단어들의 순차적 3쌍 또는 배우-감독, 프로듀서-감독, 배우-프로듀서 등과 같은 비단어 특징들의 모든 쌍들의 선택과 같은 보다 간단한 기술이 특징 조합 생성기(140)에서 또한 사용될 수 있다.

앞서 기재된 바와 같이, 내용 자료의 분류를 용이하게 하기 위해 사용될 수 있는 측정 특징들 및 조합 특징들 둘 모두를 포함하는 다른 특징들의 수는 특히, 특징들이 다른 특징들의 조합들로서 형성될 수 있을 때, 매우 많다. 특징들의 매우 큰 풀로부터 나올 수 있는 가능한 서브세트들의 수는 천문학적으로 클 수 있다. 본 발명에 따르면, 진화 알고리즘(160)은 주어진 분류 태스크에 대한 특징들의 다른 세트들보다 더 효과적일 것같은 특징들의 세트를 결정하는데 사용된다.

진화 알고리즘들은 반복 결과 산출 과정을 통해 동작하며, 돌연변이(mutation) 알고리즘들과 같은 유전 알고리즘들을 포함한다. 통상의 진화 알고리즘에서, 임의의 속성들, 또는 유전 인자들은, 주어진 태스크를 수행할 능력에 관련되는 것으로 가정되고, 유전 인자들의 다른 세트들은 그 태스크들을 수행하기 위한 유효성의 다른 레벨들을 초래한다. 진화 알고리즘은 특히 속성들의 세트과 태스크를 수행하기 위한 유효성간의 관계가 닫힌 형식의 솔루션(solution)을 갖지 않는 문제들에 대해 효과적이다. 여기서 참조로 구체화된 대리인 문서번호 PHA023579(공개번호 700241)의 Philips Electronics North America Corp.에서 1998년 12월 21일 제출된 공동계류중인 미국 특허 출원 "Code Compaction By Evolutionary Algorithm", 미국 시리얼 번호 09/217408호는 소프트 코드, 데이터 파일들 등을 압축하기 위한 진화 알고리즘들의 사용을 공개하고 있다. 여기서 참조로 구체화된 대리인 문서번호 PHA023760(공개번호 700778)의 Philips Electronics North America Corp.에서 1999년 9월 1일 제출된 공동 계류중인 미국 특허 출원 "Method For Improving Neural Network Architectures Using EvolutionaryAlgorithms", 미국 시리얼 번호 09/387488호는 주어진 태스크를 해결하기 위해 신경 네트워크에 사용하기 위한 바람직한 구성을 결정하기 위한 진화 알고리즘들의 사용을 공개하고 있다.

유전자들의 어느 특정 세트들이 진화 알고리즘의 결과 산출 과정은 통제된 시행착오(trial and error) 검색을 사용하여 주어진 태스크를 수행하는데 가장 효과적인지를 결정하는데 사용된다. 유전 인자들 및 속성들의 세트가 염색체(chromosome)라고 불린다. 진화 알고리즘들의 유전 알고리즘 종(class)에서, 재생-재결합 사이클이 결과의 생성들을 전파하는데 사용된다. 재생-재결합 사이클의 재생 현상(phase)에서, 인구(population)의 일원들이 다른 염색체 쌍들을 가지고, 결과를 산출한다. 이러한 결과는 통상적으로 각각의 부모로부터 유전 인자들의 몇 가지 랜덤 조합으로서 부모 일원들로부터 물려받은 속성들을 갖는다. 고전의 유전 알고리즘에서, 주어진 태스크를 수행할 시, 다른 것들보다 더 효과적인 개인들이 짝을 이루고 결과를 낳기 위해 보다 높은 기회를 제공받는다. 즉, 바람직한 염색체들을 가진 개인들은 그 결과가 부모들이 주어진 태스크를 효과적으로 수행하도록 허용된 어떠한 유전 인자들이라도 물려받을 희망으로, 결과를 낳기 위한 보다 높은 기회가 제공된다. 재생-재결합 사이클의 재결합 현상은 주어진 태스크를 수행하기 위한 유효성을 나타내기 위한 우선권에 기초한 차생성 부모들의 형성을 달성한다. 이러한 방법으로, 주어진 태스크를 수행하기 위해 효과적인 속성들을 갖는 결과의 수는 각 생성의 증가하는 경향을 띌 것이다. 성과 관계없는 재생, 돌연변이 등과 같은 자손을 낳는 다른 방법들의 예(paradigm)들이 주어진 태스크를 수행하기위해 개선된 능력들의 증가하는 가능성을 가진 자손의 생성들을 산출하는데 또한 사용될 수 있다.

이러한 공개의 문맥에서, 인구는 내용 자료를 분류하는데 효과적일 수 있는 특징들을 갖는 일원들로 이루어져 있다. 본 발명에 따라서, 몇 가지 특징들이 개별 특징들에 독립적인 다른 특징들의 조합들을 나타낸다. 즉, 예를 들어, 어구 "비행 접시"가 특징이 될 수 있고, 내용 자료를 분류하고 특징지을 때, 그의 유효성이 실질적으로 "비행" 특징 및 "접시" 특징로 독립하여 처리된다. 즉, 특징 "비행 접시"는 특징들 "비행" 및 "접시"가 전달되는 지의 여부에 관계없이, 미래의 생성들에 전달될 것이거나, 미래의 생성들에 전달되지 않을 것이다. 일반적으로, 예를 들어, 명사구들 및 동사구들이 그러한 구 특징들을 형성하는 단어 특징들에 독립하는 특징들로서 다루어지고, 감독-배우 특징들은 특정 감독 또는 배우 특징 등에 독립적이다. 조합 특징들의 이러한 독립적인 고려사항은 특히 가정 엔터테인먼트 시스템에 대한 앞서 언급된 실시예와 같이, 재한된 자원 실시예에서의 사용을 위한 분류 특징들의 선택에 매우 적절한 것으로 알아왔다. 즉, 만일, 특정 실시예에 대해 사용될 수 있는 특징들의 수가 제한되면, 조합 특징들의 독립적인 고려사항은 과다한 특징 아이템들의 실시예로 종종 유도할 것이다. 예를 들어, 앞서 언급된 "비행 접시" 특징이 주어진 프로그램이 "공상 과학"으로 분류되었는 지의 여부를 결정할 때 매우 효과적인 것이라고, 가정한다. 일단, "비행 접시" 특징이 자손의 각 생성에 지배적인 유전 인자가 되기만 하면, "비행" 또는 "접시" 특징 유전 인자를 포함하거나 포함하지 않음으로써 얻어지거나 잃게되는 최소 유효성이 "비행 접시" 유전인자를 함유하는 염색체들에 극도로 작을 것으로 보이기 때문에, "비행" 및 "접시" 특징 유전 인자들은 제한된-특징 실시예에서 소멸할 것으로 보인다. "비행" 및 "접시" 특징 유전 인자들이 제한된-특징 실시예에서 소멸함으로써, 그들은 주어진 프로그램이 "미스테리"로 분류되는 지의 여부를 결정하는 데 효과적인 "살인자"와 같은 다른 특징들로 대체된다.

요약하면, 특징들은 내용 자료의 분류를 잠재적으로 용이하게 할 수 있는 것으로 정의되며, 바람직한 실시예에서, 이러한 특징들은 다른 특징들의 조합들을 포함한다. 선택 특징들의 후보 세트들은 내용 자료의 분류를 용이하게 하기 위해 내용 자료를 구별하기 위한 능력들의 다른 세트들을 반영하는 염색체들로서 인코딩된다. 특징들의 몇몇 세트들은 다른 세트들보다 내용 자료를 분류하는데 더 효과적이다. 다른 것들보다 분류에 대해 더 효과적인 염색체들을 갖는 일원들로부터 자손을 낳음으로써, 내용 자료를 적절히 분류하기 위한 자손의 유효성이 증가할 것으로 보인다.

도 1에 도시된 바와 같이, 특징들의 풀(110)이 내용 자료의 분류를 잠재적으로 용이하게 할 수 있는 특징들을 포함하는 것이 제공된다. 상기 기재된 바와 같이, 이러한 특징들은 내용 자료에 사용된 단어들, 내용 자료의 개요(synopses)들에 사용되는 단어들, 내용 자료의 창조자(creator), 내용 자료의 실행자(performer)들 등을 포함할 수 있다. 특징 조합 생성기(140)는 앞서 논의된 바와 같이, 조합 특징들(141)로 이러한 특징들의 풀을 증대시킨다. 바람직한 실시예에서, 복합 기술들이 조합 특징들을 생성하기 위해 조합 생성기(140)에 사용되고, 어구 식별기가 각 어구에 대한 특징을 생성하고, 조합 생성기가 단어에 기초하지 않은 특징들의 다양한 조합들을 생성한다. 조합 생성기(140)는 또한 실질적으로 랜덤 조합들의 생성뿐만 아니라, 감독-배우와 같은 적당한 조합들의 사전정의(predefinition)도 고려한다. 조합 특징들을 생성하는 이러한 방법들 및 다른 방법들이 본 발명의 관점에서 본 기술 분야의 숙련자들에게 명백해 질 것이다.

세트 선택기(120)는 이러한 특징들의 풀(110)로부터 특징들의 세트를 생성한다. 세트 선택기(120)는 사전 분류된(preclassified) 내용 자료의 콜렉션 (collection)(190)을 분류하기 위한 각 특징들의 세트(131)의 유효성을 평가하도록 분류 평가기(150)에 특징 세트들(130)의 초기 인구를 제공한다. 콜렉션(190)은 내용 자료 아이템들(191) 및 각각의 내용 자료 아이템들(191)의 고유 분류(192)를 포함한다. 즉, 예를 들어, 콜렉션(190)은 텔레비전 프로그램들에 관한 정보의 콜렉션이 될 수 있고, 그 고유 분류(192)는 코메디, 드라마, 공상 과학(sci-fi), 미스테리, 뉴스 등과 같은 각 텔레비전 프로그램(191)에 배치된 현존하는 프로그램 가이드 내의 카테고리이다. 대안으로, 고유 분류(192)는 "매우 좋음", "좋음", "의견 없음", "싫음", 및 "매우 싫음"과 같은 각각의 프로그램(191)을 분류하는 잠재적인 시청자에 의해 제공될 수 있다. 보다 간단한 실시예에서, 콜렉션(190)은 지난 달동안 제공된 모든 텔레비전 프로그램들에 관한 정보를 포함할 수 있고, 고유 분류(192)는 특정 시청자가 각 프로그램(191)을 "보았는지" 또는 "보지 않았는지"의 여부이다. 시청을 위해 선택된 프로그램들의 온-라인 모니터를 사용하여, 이러한 보다 간단한 실시예가 직접 사용자 입력을 요구하지 않고, 보았거나 보지 않았음의 두 종류로 각각의 텔레비전 프로그램(191)의 분류를 고려한다. 동일한 방법으로, 내용 자료(190)의 콜렉션이 전자 문서들의 콜렉션, 개요들의 콜렉션, 웹 페이지들의 콜렉션 등이 될 수 있고, 고유 분류(192)는 "공상", "역사", "험담" 등이 될 수 있다. 또는, 분류(192)는 단순히 "시청되거나", "시청되지 않을" 수 있다.

이후 기재되는 기술들을 사용하여, 분류 평가기(150)는 각각의 내용 자료 아이템(191)의 고유 분류(192)에 대응하는 분류를 제공하기 위한 각각의 특징들의 후보 세트(131)의 유효성(151)을 결정한다. 그 후, 진화 알고리즘(160)은 특징 세트들(130)의 이전 생성의 유효성(151)에 기초하여, 특징 세트들(131)의 차생성을 생성하기 위한 선택기(120)에 파라미터들을 제공한다. 상기 기재된 진화 알고리즘들의 기술 분야에서 일반적인 것처럼, 진화 알고리즘(160)은 표준 세트(131')가 통상적으로 이러한 자손 생성 과정 동안 발견되는 특징들의 최고의 수행 세트(131)으로 확인될 때까지, 특징들의 후보 세트들을 세트 선택기(120)를 통해, 대대로 계속해서 산출할 수 있다. 많은 기술들이 표준 세트(131')에 대한 검색을 종결하기 위해 사용 가능하다. 고정된 시간 제한이 자손 생성 과정에 배치될 수 있고, 생성들의 수가 제한될 수 있고, 세트 특성(convergence characteristic)들이 각 생성의 증가적 이득이 컷오프 제한의 이하에 있는 등의 경우에, 그 과정을 종결하는데 사용될 수 있다.

도 2에 도시된 바와 같이, 특징 세트(131')이 이전 분류된 자료(190)의 콜렉션을 분류할 때 효과적으로 도시된 것이 발견되었을 경우, 분류기(240)에 의해 새로운 내용 자료(291)를 분류하는데 사용된다. 분류기(240)는 분류 평가기(150)에사용되는 것과 동일한 분류 과정을 사용한다. 만일, 예를 들어, 바람직한 특징 세트(131')이 코미디, 미스테리, 드라마 등과 같은 프로그램들(191)을 분류하기 위해 효과적이었다면, 그리고, 동일한 분류 과정이 분류기(240)에 사용되면, 이러한 동일한 세트(131')이 공지되지 않은 프로그램들(291)을 코미디, 미스테리, 드라마 등으로 분류하기 위해 효과적이라고 가정하는 것이 합당하게 된다. 동일한 방법으로, 만일 바람직한 특징 세트(131')이 특정 시청자 또는 시청자들의 그룹에 의해 "보여지고(watched)" "보여지지 않음(not-watched)"으로서 프로그램들(191)을 분류하는데 효과적이었다면, 이러한 동일한 세트(131')는 공지되지 않은 프로그램들(291)을 시청자 또는 시청자의 그룹이 보았거나 보지 않았을 것 같은 프로그램들로 분류하기 위해 효과적일 것으로 가정하는 것이 합당하게 된다. 또는, 또 다른 적용에서, 분류기(240)는 곧 나올(upcomng) 프로그램들의 개요(synopses)를 분류하기 위한 세트(131')을 사용하고, 프로그램들(190)의 시청자의 이전 분류에 기초하여, "시청할 것으로 제안되는 프로그램들"의 목록으로서 분류 과정의 결과를 나타낼 수 있다.

많은 기술들이 내용 자료의 콜렉션(190)을 분류할 때 세트의 유효성을 평가하기 위해 적용될 수 있다. 본 발명의 바람직한 실시예에서, 각각의 평가 세트(131)의 특징들이 다를 수 있기 때문에, 학습 시스템이 주어진 분류 태스크에 각각의 특징들의 세트(131)을 가장 잘 적용시키는 방법을 학습하는데 사용된다.

도 3은 본 발명에 따른 학습 시스템을 통해, 내용 자료(291)를 분류하기 위한 분류 시스템(300)의 예의 블럭도를 도시한다. 다음 기재로부터 명백해 지는 것처럼, 분류 시스템(300)은 도 1의 분류 평가기(150) 및 도 2의 분류기(240)로 도시된 기능들을 제공한다.

학습 시스템(320)을 트레이닝시키기 위해서, 이전 분류된 내용 자료(도 1의 아이템(190))의 콜렉션의 일부가 트레이닝 내용 자료(191A)를 제공하고, 나머지가 평가 내용 자료(191B)를 제공하는데 사용된다. 세트 선택기(120)에 의해 제공된 각각의 특징 세트(131)에 대해, 트레이닝 내용 자료(191A)가 스위치(S1)를 통해 입력 프로세서(310)에 제공된다. 입력 프로세서는 학습 시스템(320)을 트레이닝시키는데 사용되는 특징들의 세트(131)에 대응하는 특징 값들(311)을 제공하기 위해 내용 자료(191A)를 처리한다. 예를 들어, 만일, 특징들의 세트가 단어 및 구 특징들을 포함한다면, 입력 프로세서는 내용 자료(191A)가 각각의 단어 및 구 특징들, 그리고, 학습 시스템(320)에 의존하여, 각각의 단어 및 구 특징의 생성 수를 포함하는지의 여부를 결정한다. 트레이닝 내용 자료(191A)가 학습 시스템(320)에 제공되는 반면, 학습 시스템(320)은 스위치(329)에 의해 도시된 트레이닝 모드로 배치된다. 신경 네트워크 내의 노드들의 무게 조정 또는 베이스의 분류기(Bayesian classifier)에서의 콜렉션 팩터(factor)들 조정과 같은 본 기술 분야에서 일반적인 기술들을 사용하여, 학습 시스템(320)은 주어진 특징 세트(131)이 트레이닝 내용 자료(191A)에 대응하는 고유 분류(192A)에 대응하는 분류를 제공할 가능성을 증가시키도록 트레이닝된다. 연속하는 트레이닝 내용 자료 아이템들(191A)은 특징 세트(131)이 적절하게 트레이닝 내용 자료(191A)를 분류할 전체 가능성을 증가시키기 위해 학습 시스템(320)에 유사하게 적용된다.

학습 시스템(320)은 트레이닝 내용 자료(191A)에 관한 특징 세트(131)의 실행을 최적화하도록 트레이닝된 후에, 미리 분류된 평가 내용 자료(191B)는 스위치(S1)를 통해 입력 처리기(310)에 제공되며, 대응하는 특징 값들(311)은 학습 시스템(320)으로 인가된다. 평가 내용 자료(191B)가 인가되어, 학습 시스템(320)을 트레이닝시키는데 사용되는 특징 세트(131)에 기초하여 평가 내용 자료(191B)의 분류(241)를 학습 시스템(320)이 제공할 경우, 학습 시스템(320)은 스위치(329)로 도시된 실행 모드(execute mode)에서 동작된다. 결정된 분류(241)는 스위치(S2)를 통해 평가기(350)에 제공된다. 평가기(350)는 결정된 분류(241)를 내용 자료(191B)에 대응하는 고유 분류(192B)와 비교한다. 주어진 특징 세트(131)을 사용하여 각각의 평가 내용 자료 아이템들(191B)을 처리한 후, 평가기(350)는 주어진 특징 세트(131)의 분류 유효성에 대응하는 평가 알고리즘(160)에 유효성 측정(151)을 제공한다. 상기 기재된 바와 같이, 진화 알고리즘(160)은 미리 평가된 특징 세트들(131)의 유효성에 기초하여 세트 선택기(120)에 선택 파라미터들(161)을 제공한다.

충분히 많은 특징 세트들(131)이 평가 내용 자료(191B)에 대하여 처리되고 평가된 후에, 진화 알고리즘(160) 및 세트 선택기(120)는 최종 입력으로서 바람직한 특징 세트(131')을 입력 처리기(310)에 제공한다. 학습 시스템의 트레이닝에 대응하는 파라미터들이 각각의 평가된 특징 세트(131)에 세이브(save)되는 지의 여부에 의존하여, 학습 시스템(320)은 이러한 파라미터들로 리로드(reloaded)되거나, 이러한 파라미터들을 사용하여 재트레이닝된다. 이러한 최종 단계에서, 바람직한 특징 세트(131')이 선택되었고, 재평가될 필요가 없기 때문에, 매우 다양한 내용자료(191)에 표준 세트(131')을 노출시킴으로써, 새로운 내용 자료(291)를 분류할 수 있는 표준 세트(131')의 가능성을 잠재적으로 개선시키기 위해, 미리 분류된 내용 자료(191)의 전체 콜렉션(190)은 트레이닝 내용 자료(191A)로서 적용될 수 있다.

바람직한 특징 세트(131')의 분류 유효성을 최적화시키기 위해 학습 시스템(320)을 트레이닝시킨 후에, 스위치(S1)는 새로운 내용 자료(291)를 수신하기 위해 스위칭되고, 스위치(329)는 학습 시스템(320)을 실행 모드로 배치하기 위해 스위칭되며, 스위치(S2)는 재생 모드로 스위칭된다. 그 후, 각각의 새로운 내용 자료 아이템(291)이 시스템(300)에 인가될 때, 그 시스템(300)은 바람직한 특징 세트(131')에 기초하여 새로운 내용 자료(291)의 결정된 분류(241)를 제공한다.

바람직한 특징 세트(131')이 선택되고, 학습 시스템(320)이 트레이닝된 후, 진화 알고리즘(350) 및 그의 관련 부분들 및 다른 특징 세트들은 새로운 내용 자료(291)의 분류를 달성하도록 더 이상 요구되지 않는다. 그러므로, 새로운 내용 자료(291)를 분류하도록 요구된 시스템(300)의 구성 요소들은 도 2에 도시된 것들로 최소화될 수 있다. 이러한 방법으로, 분류 시스템(300)은 주어진 분류 태스크에 대한 특징들의 표준 세트를 결정하도록 요구되는 트레이닝 및 평가를 달성하기 위해 비교적 큰 계산 시스템으로 구체화될 수 있고, 이어서, 특징들의 결정된 세트에 대한 분류기(240)의 실행을 최적화하는 파라미터들을 포함하는, 이러한 결정의 결과들이 제한된-용량 분류기(240)로 다운로드될 수 있다. 바람직한 일실시예에서, 예를 들어, 셋탑 박스가 인터넷상의 사이트에 위치된 분류 시스템(300)과 인터페이스하는데 사용되고, 바람직한 특징 세트 및 관련된 파라미터들의 결정의 결과들은 연속적으로 셋탑 박스에 다운로드된다.

앞서 기재된 것은 단순히 본 발명의 원리들을 설명한 것이다. 그러므로, 본 기술 분야의 숙련자들이 다양한 장치들을 변경할 수 있음을 이해해야 하며, 여기서는 명백하게 기재되거나 도시되지 않았을지라도, 본 발명의 정신 및 범위에서 벗어나지 않고, 본 발명의 원리들을 구체화할 수 있음을 이해해야 한다. 예를 들어, 조합 특징들(141)은 이해를 쉽게 하기 위해 모든 것을 포함한 조합들로 앞서 제시되었다. 즉, 예를 들어, 특징 "적십자"는 순차적으로 생성하는 "적" 및 "십자" 특징의 둘 모두를 포함한다. 대안으로, 조합 특징이 바로 다음에 "십자"가 없는 "적" 또는 바로 앞에 "적"이 없는 "십자"와 같이, 또 다른 특징의 존재에서 한 특징의 생성으로 정의될 수 있다. 그러한 변화들 및 다른 변화들이 첨부 청구항들의 정신 및 범위에서 벗어나지 않고, 본 기술 분야의 숙련자들에게 명백해질 것이다.

Claims

내용 자료(291)를 분류하기 위한 특징들의 표준 세트(131')을 결정하기 위한 방법에 있어서,

특징들의 풀(110)에서의 둘 이상의 특징들에 기초하는 조합 특징들(141)로 특징들의 풀(110)을 증대시키는 단계(140)와,

상기 특징들의 풀(110)로부터 제 1 복수의 특징 세트들을 선택하는 단계(120)와,

미리 분류되어 있는 내용 자료(191)를 적절하게 분류하기 위해 각각 평가된 특징 세트들의 능력에 관한 각각의 특징 세트(131)의 유효성(effectiveness)(151)의 측정을 제공하기 위해 상기 제 1 복수의 특징 세트들의 각각의 특징 세트(131)을 평가하는 단계(150)와,

각각 평가된 특징 세트(131)의 유효성의 측정에 기초하여 상기 특징들의 풀(110)로부터 적어도 하나의 후속하는 복수의 특징 세트들을 선택하는 단계(120)와,

미리 분류된 내용 자료(191)를 적절하게 분류하기 위해 각각의 특징 세트들의 능력에 관한 각각 평가된 특징 세트(131)의 상기 유효성(151)의 측정을 제공하기 위해 상기 적어도 하나의 후속하는 복수의 특징 세트들의 각 특징 세트(131)를 평가하는 단계(150), 및

각 평가된 특징 세트(131)의 상기 유효성(151)의 측정에 기초하여 특징들의표준 세트(131')를 선택하는 단계를 포함하는, 결정 방법.
제 1 항에 있어서,

상기 적어도 하나의 후속하는 복수의 특징 세트들을 선택하는 단계(120)는, 각각 평가된 특징 세트(131)의 상기 유효성(151)의 측정에 기초하여 상기 복수의 특징 세트들의 진화적 생성(160)을 포함하는, 결정 방법.
제 1 항 또는 제 2 항에 있어서,

각각의 특징 세트를 평가하는 단계(150)는,

평가 분류(241)를 제공하기 위해 분류기(240, 320)을 경유하여 상기 미리 분류된 내용 자료(191)를 분류하는 단계, 및

고유 분류(192)와 상기 평가 분류(241)를 비교하는 단계를 포함하는, 결정 방법.
제 3 항에 있어서,

상기 제 1 및 적어도 하나의 후속하는 복수의 특징 세트들 중 각각의 특징 세트(131)를 사용하여 상기 분류기(240, 320)를 트레이닝하는 단계를 더 포함하는, 결정 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 내용 자료(291)는 비디오 프로그램, 오디오 프로그램, 전자 문서, 및 웹 페이지 중 적어도 하나를 포함하는, 결정 방법.
내용 자료(291)의 분류를 용이하게 하는 특징들의 표준 세트(131')를 선택하는 특징 세트 선택기(100, 200, 300)에 있어서,

특징들의 풀(110) 중 두 개 이상의 특징들에 기초하는 조합 특징들(141)을 형성함으로써, 특징들의 풀(110)을 증대시키도록 구성되는 특징 조합 생성기(140)와,

상기 특징들의 풀(110)로부터 복수의 특징들의 서브세트들(130)을 선택하도록 구성된 서브세트 선택기(120)와,

각각의 특징들의 서브세트(131)와 연관된 평가 분류(241)를 제공하기 위해 상기 복수의 특징들의 서브세트들 중 각각의 특징들의 서브세트(131)를 사용하여, 우선 분류된 내용 자료(191)를 분류하도록 구성되는 분류기(240, 320)와,

특징들의 서브세트(131)와 연관된 상기 평가 분류(241)와 상기 우선 분류된 내용 자료(191)와 연관된 고유 분류(192)를 비교함으로써, 특징들의 각각의 서브세트(131)와 연관된 유효성(151)의 측정(measure)을 제공하기 위해 특징들의 각각의 서브세트(131)를 평가하도록 구성되는 평가기(350), 및

특징들의 각각의 서브세트(131)와 연관된 유효성(151)의 측정에 기초하여 선택 파라미터들(161)을 제공하도록 구성된 진화 알고리즘(160)을 포함하고,

상기 서브세트 선택기(120)는 상기 선택 파라미터들(161)에 기초하여 후속하는 복수의 특징들의 서브세트들을 선택하도록 구성되고,

상기 진화 알고리즘(160)은 각각의 특징들의 서브세트(131)의 상기 유효성의 측정(151)에 의존하여 상기 내용 자료(291)의 분류를 용이하게 하는 상기 특징들의 표준 세트(131')을 제공하는, 특징 세트 선택기.
제 6 항에 있어서,

상기 분류기(240, 320)는 학습 시스템(320)으로 구성되고, 상기 진화 알고리즘(160) 및 서브세트 선택기(130)는 상기 학습 시스템(320)의 트레이닝을 용이하게 하기 위해 상기 분류기(240, 320)에 상기 복수의 특징들의 서브세트들을 제공하도록 더 구성되어 있는, 특징 세트 선택기.
분류기 시스템(100, 200, 300)에 있어서,

상기 특징들의 풀(110)에서 다른 특징들의 조합인 조합 특징들(141)로 특징들의 풀(110)을 증대시키는 특징 조합 생성기(140)와,

특징들의 다른 세트들과 연관된 유효성의 측정에 기초한 특징들의 세트들(131)을 생성하고, 그에 의해 특징들의 표준 세트(131')를 결정하도록 구성된 진화 알고리즘(160), 및

상기 특징들의 표준 세트(131')에 기초하여 내용 자료(291)을 분류하도록 구성된 분류기(240, 320)를 포함하는, 분류 시스템.
제 8 항에 있어서,

상기 분류기(240, 320)는 상기 진화 알고리즘(160)에 의해 생성된 상기 특징들의 세트(131)를 통해 트레이닝되는 학습 시스템(320)을 포함하는, 분류 시스템.
제 1 항 내지 제 5 항 중 어느 한 항의 방법, 제 6 항 또는 제 7 항의 상기 특징 세트 선택기(100, 200, 300), 또는 제 8 항 또는 제 9 항의 상기 분류 시스템에 있어서,

상기 조합 특징들(141)은 명사구 및 동사구 중 적어도 하나를 포함하는, 결정 방법, 특징 세트 선택기, 또는 분류 시스템.