KR20110095338A

KR20110095338A - 검색 용어에 대한 인덱싱 가중치 할당

Info

Publication number: KR20110095338A
Application number: KR1020117013617A
Authority: KR
Inventors: 첸 리우
Original assignee: 모토로라 모빌리티, 인크.
Priority date: 2008-12-15
Filing date: 2009-12-14
Publication date: 2011-08-24
Also published as: WO2010075015A2; US20100153366A1; WO2010075015A3; EP2377053A2; CN102246169A

Abstract

문서(300) 내의 잠재적인 검색 용어에 할당된(206) 인덱싱 가중치(320)를 개시하며, 인덱싱 가중치(320)는 용어의 텍스트 및 음성 양상에 기초한다. 일 실시예에서, 전통적인 텍스트 기반 가중치(302, 304)가 잠재적인 검색 용어에 할당된다(200). 이 가중치(302, 304)는 TF-IDF(term frequency-inverse document frequency), TF-DV(term frequency discrimination value) 또는 임의의 다른 텍스트 기반 가중치(302, 304)일 수 있다. 그 후, 발음 프로미넌스 가중치(318)가 동일한 용어에 대하여 산출된다(202). 텍스트 기반 가중치(302, 304) 및 발음 프로미넌스 가중치(318)는 수학적으로 그 용어에 대한 최종 인덱싱 가중치(320)로 결합된다(204). 스피치 기반 검색 스트링이 입력되면, 결합된 인덱싱 가중치(320)는 각 문서(300) 내의 각 검색 용어의 중요성을 결정하는데 사용된다(206). 발음 프로미넌스(318)를 산출하는 몇 가지 가능성이 고려된다. 임의의 실시예에서, 문서(300) 내의 용어들의 쌍들에 대하여 용어간 발음 간격(306)이 음소간 간격(316)에 기초하여 산출된다.

Description

검색 용어에 대한 인덱싱 가중치 할당{ASSIGNING AN INDEXING WEIGHT TO A SEARCH TERM}

본 발명은 일반적으로 컴퓨터 매개 검색 툴(computer-mediated search tool)들에 관한 것으로, 특히 문서에서 검색 용어들에 인덱싱 가중치들을 할당하는 것에 관한 것이다.

일반적인 검색 시나리오에서, 사용자는 검색 스트링으로 타이핑을 한다. 스트링은 분석을 위해 검색 엔진에 제출된다. 분석시, 스트링의 단어들 중 전부는 아니지만, 다수가 "검색 용어들"이 된다 ("a" 및 "the" 등의 단어는 검색 용어가 되지 않고 일반적으로 무시된다). 검색 엔진은 검색 용어들을 포함하는 적절한 문서들을 찾고 사용자에 의한 리뷰를 위한 "히트들(hits)"로서 적절한 문서들의 리스트를 제시한다.

검색 용어를 고려해 볼 때, 그 검색 용어를 포함하는 적절한 문서를 찾는 것은 복잡하고 정교한 프로세스이다. 지능적인 검색 엔진은, 검색 용어를 포함하는 문서들 모두를 단순히 추출하기보다는, 먼저 수집물 내의 문서 모두를 전처리(preprocess)한다. 각각의 문서에 대하여, 검색 엔진은, 그 문서에 포함되고 그 문서에서 중요한 가능한 검색 용어들의 리스트를 준비한다. 문서 내의 용어의 중요성(용어의 인덱싱 가중치라 지칭됨)에 대한 많은 공지된 측정법(measure)이 존재한다. 하나의 공통된 측정법은 "용어 빈도-역 문서 빈도(term frequency-inverse document frequency(TF-IDF)"가 있다. 간략화하기 위하여, 이 인덱싱 가중치는, 문서에서 용어가 나타나는 횟수에 비례하고 그 용어를 포함하는 수집물 내의 문서들의 수에 반비례한다. 예를 들어 "this"라는 단어는 하나의 문서에서 여러 번 나타날 수 있다. 그러나, "this"는 또한 수집물 내의 거의 모든 문서에서 나타날 수 있고, 따라서, 그 TF-IDF는 매우 낮다. 반면에, 수집물은 "고래(whale)"라는 단어를 포함하는 문서를 가질 가능성은 낮기 때문에, "고래"라는 단어가 반복적으로 나타나는 문서는 고래들에 대하여 할 말이 있는 것이며, 따라서, 그 문서에 대하여, "고래"는 높은 TF-IDF를 갖는다.

따라서, 지능적인 검색 엔진은 사용자의 검색 용어들을 포함하는 문서들 모두를 단순히 열거하는 것이 아니라, (검색 엔진이 용어 중요성에 대하여 어떤 측정법을 사용하든) 검색 용어들이 비교적 높은 TF-IDF를 갖는 문서들만을 열거한다. 이러한 방식으로, 지능적인 검색 엔진은 사용자의 요구를 가장 충족할 것 같은 문서들을 문서 반환 리스트의 상부 부근에 배치한다.

그러나, 이러한 시나리오는 사용자가 검색 스트링을 타이핑하는 것이 아니라, 검색 스트링을 말로 할 때에는 잘 작동하지 않는다. 일반적인 시나리오에서, 사용자는 전체 키보드를 위한 공간이 없는 (셀룰러 폰 또는 개인 휴대 단말기 등의) 소형 개인 통신 장치를 갖는다. 대신에, 터치 타이핑하기에는 너무 작은 많은 소형 키들을 가질 수 있는 제한된 키보드를 가질 수 있거나, 또는 각각이 몇 개의 문자들 또는 심볼들을 나타내는 몇 개의 키만을 가질 수 있다. 사용자는 제한된 키보드가 정교한 검색 쿼리를 입력하기 부적합하다는 것을 발견하고, 사용자는 스피치 기반 검색으로 바꾼다.

여기에서, 사용자는 검색 쿼리를 말한다. 스피치-대-텍스트 엔진은 발성된 쿼리를 텍스트로 변환한다. 그런 다음, 결과적인 텍스트 쿼리가 표준 텍스트 기반 검색 엔진에 의해 상술한 바와 같이 처리된다.

보통 이 프로세스가 작동하지만, 스피치 기반 검색은 새로운 문제를 제시한다. 특히, 공지된 기술에서는 단순히 문서의 텍스트 양상들(aspects)에 기초하여 문서 내의 용어들에 인덱싱 가중치들을 할당한다.

명세서, 도면 및 청구범위를 참조하여 이해될 수 있는 본 발명에 의해 상술한 고려 사항 및 다른 것이 처리될 수 있다. 본 발명의 형태에 따르면, 문서 내의 잠재적인 검색 용어에 용어의 텍스트 및 음향 양상들에 기초한 인덱싱 가중치가 할당된다.

일 실시예에서, 전통적인 텍스트 기반 가중치가 잠재적인 검색 용어에 할당된다. 이 가중치는 TF-IDF, 용어 빈도-차이값("term frequency-discrimination value (TF-DV)"), 또는 임의의 다른 텍스트 기반 가중치일 수 있다. 그 후, 동일한 용어에 대하여 발음 프로미넌스 가중치(pronunciation prominence weight)가 산출된다. 텍스트 기반 가중치 및 발음 프로미넌스 가중치는 수학적으로 결합되어 그 용어에 대한 최종 인덱싱 가중치가 생성된다. 스피치 기반 검색 스트링이 입력되면, 결합된 인덱싱 가중치는 각 문서 내의 각 검색 용어의 중요성을 판단하는데 사용된다.

텍스트 기반 인덱싱 가중치를 산출하는 많은 공지의 가능성이 존재하는 것처럼, 발음 프로미넌스를 산출하는 몇 가지의 가능성들이 고려된다. 임의의 실시예에서, 문서 내의 용어들의 쌍들에 대하여, 음소간 간격에 기초하여 용어간 발음 간격(inter-term pronunciation distance)이 산출된다. 데이터 구동(data-driven) 기술 또는 음성 기반 기술은 음소간 간격을 산출하는데 사용될 수 있다. 이 절차 및 다른 가능성의 세부 사항은 하기에서 설명한다.

첨부된 청구범위는 특성을 갖는 본 발명의 특징을 나타내지만, 목적 및 이점과 함께 본 발명은 첨부된 도면과 결합한 다음의 상세한 설명으로부터 가장 잘 이해될 수 있다.
도 1은 본 발명이 실행될 수 있는 구상적인 환경의 개요를 나타내는 도면.
도 2는 검색 용어에 인덱싱 가중치를 할당하는 예시적인 방법의 플로우챠트.
도 3은 인덱싱 가중치를 산출할 수 있는 방법을 나타내는 데이터 흐름도.
도 4a 및 4b는 본 발명에 따라 산출된 인덱싱 가중치의 성능과 이전의 기술의 인덱싱 가중치의 성능을 비교한 실험 결과의 표.

동일한 참조 번호는 동일한 소자를 지칭하는 도면을 참조하여, 본 발명은 적절한 환경에서 구현되는 것으로 기재된다. 다음의 설명은 본 발명의 실시예에 기초하며 명시적으로 기재되지 않은 다른 실시예에 대하여 본 발명을 제한하지 않아야 한다.

도 1에서, 사용자(102)는 검색을 개시하는 것에 관심이 있다. 어떤 이유에서든, 사용자(102)는, 그의 검색 쿼리를 타이핑하는 대신, 개인 통신 장치(104)에 그의 검색 쿼리를 말하는 것을 선택한다. 사용자(102)의 스피치 입력은 (장치(104) 상에서 국부적으로 또는 원격 검색 서버(106) 상에서) 텍스트 쿼리로 처리된다. 텍스트 쿼리는 검색 엔진에 (국부적으로 또는 원격으로) 제출된다. 검색 결과는 장치(104)의 디스플레이 화면 상에서 사용자(102)에게 제시된다. 통신 네트워크(100)는, 적절하다면, 장치(104)가 원격 검색 서버(106)에 액세스하게 해주며, 사용자(102)의 지휘 하에서 검색 결과 내의 "히트들"을 검색하게 해준다.

검색 결과들의 빠른 반환을 가능하게 하기 위하여, 검색 쿼리가 입력되기 전에 수집물 내의 문서들이 전처리된다. 수집물 내의 각 문서 내의 잠재적인 검색 용어가 분석되고, 인덱싱 가중치가 각 문서 내의 잠재적인 검색 용어에 할당된다. 본 발명의 형태에 따르면, 인덱싱 가중치들은 문서들의 전통적인 텍스트 기반 고려사항 및 음성 쿼리에 특정된 고려사항(즉, 음향 고려사항)에 기초한다. 통상, 인덱싱 가중치들을 할당하는 검색전(pre-search) 동작은 원격 검색 서버(106) 상에서 수행된다.

음성 검색 쿼리가 사용자(102)에 의해 자신의 개인 통신 장치(104)에 입력되면, 쿼리 내의 검색 용어가 분석되고 수집물 내의 문서들의 검색 용어들에 미리 할당된 인덱싱 가중치와 비교된다. 인덱싱 가중치에 기초하여, 적절한 문서들이 사용자(102)에 히트들로서 반환된다. 반환된 히트들의 리스트에 가장 적절한 문서들을 배치하기 위하여, 히트들은, 적어도 부분적으로, 검색 용어들의 인덱싱 가중치들에 기초하여 정렬된다.

도 2에서는 본 발명의 방법의 실시예를 나타낸다. 도 3은 본 발명의 실시예에서 데이터가 흘러가는 방법을 도시한다. 이들 2개의 도면은 다음의 설명에서 함께 고려된다.

단계(200)는 공지된 기술을 적용하여 최종 복합 인덱싱 가중치의 제1 컴포넌트를 산출한다. 여기에서, 텍스트 기반 인덱싱 가중치가 문서 내의 각각의 잠재적인 검색 용어에 할당된다. 다수의 텍스트 기반 인덱싱 가중치들이 공지되고 사용될 수 있지만, 다음의 예는 공지된 TF-IDF 인덱싱 가중치를 설명한다. 공지된 기술들을 적용하면, 문서들의 수집물 내의 문서들(도3의 300)은 먼저 쓰레기(garbage)를 제거하고 구두점(punctuation)을 정리하며 변화된(inflected)(또는 때때로 파생된) 단어들을 그들의 스템(stem), 베이스(base) 또는 루트(root) 형태로 감소시키고, 불용어(stopword)를 걸러내도록 전처리된다. 그 후, 각각의 문서는 워드 벡터(word vector)로 변환된다. 워드 벡터는 문서용 TF(term frequency) 및 문서들의 수집용 IDF(inverse document frequency)를 산출하는데 사용된다. 특히, TF(도 3의 302)는 특정 문서 d_q 내의 용어 t_m의 정규화된 카운트이다.

여기서, n_mq는 문서 d_q 내의 용어 t_m 발생 수이고, 분모는 문서 d_q 내의 모든 용어의 발생 수이다. 문서의 수집물 내의 용어 t_m의 IDF(도 3의 304)는

이다. 여기서,

는 수집물 내의 문서들의 총 수인 반면, 분모는 용어 t_m가 나타나는 문서들의 수를 나타낸다. TF-IDF 가중치는, 문서들의 수집물 내의 문서 d_q에 용어 t_m가 얼마나 중요한지를 측정하는

이다. 상이한 실시예는 TF-IDF 대신에 TF-DV 등의 다른 텍스트 기반 인덱싱 가중치를 사용할 수 있다.

단계(202)에서, 최종 복합 인덱싱 가중치의 제2 컴포넌트가 산출된다. 여기서, ("발음 프로미넌스"라 불리우는) 스피치 기반 인덱싱 가중치가 문서 내의 각각의 잠재적 검색 용어에 할당된다. 요약하면, 먼저 각 단어를 그 음성 발음들로 변환하는데 사전(도 3의 308)이 사용된다. 두 번째로, 단어간 발음 간격(306)이 음소간 간격에 기초하여 산출된다(316). 그 후, 그 절차로부터, 단어에 대한 발음 프로미넌스(318)가 산출된다.

음소간 간격(IPD; inter-phoneme distance)을 추정하는데 몇 가지 공지된 기술이 사용될 수 있다. 이들 기술은 일반적으로 기술의 데이터 구동(data-driven) 기술들의 패밀리 또는 음성 기반 패밀리 중 하나에 속한다.

IPD를 추정하기 위하여 데이터 구동 접근법을 사용하기 위하여, 소정량의 스피치 데이터가 음성 인식 테스트에 이용가능하다고 가정한다. 그 후, 음소 혼동 매트릭스가 개방 음소 문법(open phoneme grammar)을 이용한 인식 결과로부터 도출된다. 음소 목록(phonemic inventory)은

로서 표시되고, 여기서 I는 목록 내의 음소의 총수이다. 음소 p_i가 p_j로서 인식될 때의 경우의 수를 나타내는

에 의해 혼동 매트릭스 내의 각 요소를 나타낸다. 그 후, p_j=p_i일 때 인식이 정확하고, p_j≠p_i일 때 인식이 부정확하다. 임의의 실시예에서, 정지 및 침묵 모델들이 음소 목록에 포함된다. 이들 실시예에서, 혼동 매트릭스는 또한 각 음소의 삭제(p_j = 정지 또는 침묵일 때) 및 삽입(p_i = 정지 또는 침묵일 때)에 대한 정보를 제공한다. p_j로서 정의되는 음소 p_i의 경향은

로서 정의된다. 이 양은 두 음소 p_i 및 p_j 간의 밀접성(closeness)의 특징을 나타내지만, 대칭은 아니기 때문에, 즉,

이기 때문에, 엄격한 의미에서 간격 측정치는 아니다.

음성 기반 기술은 음성 지식으로부터 IPD 만을 추정한다. 순수한 음성 도메인 내의 음소 간의 양적 관계의 특징은 잘 알려져 있다. 일반적으로, 관계는 l=1, ..., L에 대하여 독특한 음성 특징, 즉,

에 대응하는 요소를 갖는 벡터로서 각각의 음소를 나타낸다. 여기서, 벡터는 총 L개의 요소 또는 특징을 포함하고, 각각의 요소는 특징이 있을 때 1의 값을 취하고 특징이 없을 때 0의 값을 취한다. 음소 차이에 기인한 특징의 차이를 인식하면, 특징은 가중치 팩터를 이용하여 변경된다. 가중치는 언어 내의 각각의 특징의 상대적 빈도로부터 도출된다. c(p_i)가 음소 p_i의 발생 카운트를 나타내면, 음소 p_i에 의해 기여되는 각 특징 l의 빈도는 c(p_i)v_i(l)이고, 모든 음소에 의해 기여되는 각각의 특징 l의 빈도는

이다. 언어 내의 모든 음소로부터 도출되는 가중치는

이다. 여기서, 각각의 특정 특징(l)에 대한 가중치는

이고, 여기서, diag(벡터)는 대각 엔트리로서 벡터의 요소를 갖는 대각 매트릭스이다. 2개의 음소 p_i 및 p_j 간의 추정 음소 간격은

로서 산출된다. 여기서, i=1, ..., I이고, j=1, ..., I이다. 음소 및 침묵 또는 정지 간의 간격은 인공적으로

로 만들어진다.

IPD(도 3의 316)가 산출되는 방법에 관계없이, 다음의 단계는 단어간 발음 혼동 또는 단어간 발음 간격을 산출한다(306). 용어 t_m가 다른 용어 t_n에 의해 발음에 있어서 혼동될 가능성의 추정에 있어서, 본 발명의 실시예는 공지된 레빈쉬타인 간격(Levenshtein distance)의 변경된 버전을 사용할 수 있다. 레빈쉬타인 간격은 2개의 텍스트 스트링 간의 편집 간격을 측정한다. 본래, 간격은 하나의 텍스트 스트링을 다른 것으로 변환할 때 필요한 동작의 최소수에 의해 주어지고, 동작은 하나의 문자의 삽입, 삭제 또는 대체이다. 본 발명의 변경된 버전에서, 레빈쉬타인 간격은 임의의 2개의 단어 t_m 및 t_n의 발음, 즉, 음소의 스트링 사이에서 측정된다. 음소(p_i)의 삽입, 삭제, 또는 대체는 퍼니싱 비용(punishing cost)(Q)과 관련된다. 2개의 발음 스트링

및

간의 변경된 레빈쉬타인 간격은

이다. 여기서, LD는 레빈쉬타인 간격을 나타내고, 세부적인 데서 출발하는 동적 프로그래밍 알고리즘으로 실현될 수 있다. 이 간격은 비용(Q) 뿐만 아니라 비교될 2개의 단어의 발음 스트링의 함수이다. 비용은 상술한 IPD에 의해 표현될 수 있다. 즉,

이것은 확률이 아니고,

는 단어 t_m가 단어 t_n로서 인식될 가능성 또는 경향이라 한다. t_n=t_m이면, 인식이 정확한 것이며, t_n≠t_m이면, 인식이 부정확한 것이다.

상기에 기초하여, 단어 t_m의 발음 프로미넌스(318)(또는 강건함)는

로서 특징이 있다.

상기 메트릭에서, 첫 번째 항은 단어 t_m가 음향적으로 가장 근접한 단어(S(t_m))의 그룹에 의해 혼동될 평균 경향을 측정한다.

이 테스트에서, 우리는 각 t_m 에 대한 5개의 가장 혼동스런 단어를 포함하도록 S(t_m)을 제어한다. 음향 모델 세트가 어떤 단어 t_m를 인식하는데 있어서 부족하여 R_m<0인 상황이 있다. 이 경우, R_m=0를 설정한다. 발음 프로미넌스는 변환

을 통해 향상된다. 여기서, 향상 함수(F())는 많은 양상들을 취할 수 있다. 테스트에서, 우리는 멱함수(power function)

를 사용한다.

이 멱 파라미터(r)는 0보다 큰 자연수이고 기존의 TF-IDF에 상대적으로 발음 프로미넌스를 향상시키는데 사용된다. 이 테스트에서, 일반적으로

이면 충분하다.

도 2의 단계(204)에서, (단계(200)로부터) 텍스트 기반 인덱싱 가중치 및 (단계(202)로부터) 발음 프로미넌스는 수학적으로 결합되어 새로운 인덱싱 가중치를 생성한다. 예를 들어, 텍스트 기반 인덱싱 가중치가 TF-IDF이면, 최종 가중치는 TF-IDF-PP 가중치(도 3의 320)이다.

이 새로운 가중치는 스피치 기반 검색(단계(206))에 사용될 것이다.

테스트는 엔론(Enron) 이메일 데이터베이스로부터 임의로 선택된 500개의 이메일 상에서 수행되어 왔다. 이메일 헤더, 알파벳이 아닌 문자 및 구두점은 걸러진다. 이메일은 또한 818개의 단어를 포함하는 불용어를 통해 확인된다. 청소(cleaning) 및 필터링 후에, 500개의 이메일은 8,358개의 고유 단어를 갖는 총 52,488개의 단어를 포함한다.

스피치 인식을 위하여, 3-상태 HMM을 포함하는 콘텍스트-독립 음향 모델 세트가 사용된다. 특징은 규칙적인 13개의 켑스트럼 계수(cepstral coefficient), 13개의 1차 켑스트럼 파생 계수 및 13개의 2차 켑스트럼 파생 계수이다. 키워드들의 스피치 인식에서, 바이그램(bigram) 언어 모델이 사용된다. 스피치 인식 결과에서, 각 단어 t_m에 대한 단어 정확도 A(t_m)가 얻어진다. 그러므로, 문서 d_q의 성공적인 위치를 안내할 가능성은

에 의해 추정될 수 있다. 인덱싱 가중치와 관련된 단어 리스트의 상부 부분 집합 상에서 곱셈이 수행된다. 그 후, 수집물 내의 모든 문서에 대한 평균 정확도가

로서 얻어질 수 있다.

도 4a의 표는 TF-IDF 및 TF-IDF-PP를 비교하는 검색 성능을 나타내고, 여기서 PP는 데이터 구동 IPD로 도출된다. 도 4a의 표는 평균수의 검색 단계와 평균 검색 정확도가 TF-IDF와 비교하여 TF-IDF-PP에서 개선되었다는 것을 나타낸다. 각 용어에 대한 IDF가 전체적으로 얻어지지만, 검색 테스트에서, 제1 단계 후의 검색은 국부적이기 때문에, TF-IDF는 현재의 검색 테스트에서 최소의 검색 단계를 반드시 제공하는 것은 아니라는 것을 이해할 수 있다. 검색 단계의 감소 때문에 검색 정확도에서 얼마나 많은 이득이 얻어지는지에 대한 대략적인 추정을 하였다. 90%의 단어 정확도로서 우리의 스피치 인식기의 평균 성능을 사용하여, 2.30 내지 2.25의 단계의 평균수의 변화는 평균 검색 정확도에 있어서 78.29% 내지 78.47%의 변화만을 초래한다. 따라서, 우리는 키워드로서 음향적으로 더 강인한 단어의 사용 때문에 평균 검색 정확도의 개선이 크다는 것을 말할 수 있다. 도 4a의 표의 결과는 발음 프로미넌스 팩터 PP가 스피치 인식기의 음소 혼동 매트릭스로부터 도출될 때 인덱싱 가중치로서 TF-IDF 대신에 TF-IDF-PP를 사용함으로써 상당한 개선을 얻을 수 있다는 것을 나타낸다. 이득은 파라미터 r에 따라 증가하고(즉, 프로미넌스의 향상), r이 클 때, 예를 들어, r>5일 때, 포화된다. 새로운 인덱싱 가중치를 이용함으로써, 우리는 검색 정확도에 있어서 평균 5% 포인트 증가를 얻었다.

또다른 테스트의 결과는 도 4b의 표에 도시되어 있다. 여기서, 발음 프로미넌스 팩터는 음성 지식(도 3의 314)으로부터 도출된다. 테스트는 검색 정확도에 있어서 유사한 개선을 나타낸다. 개선은 도 4a의 표에 도시된 결과보다 약간 작다.

텍스트 정보에만 초점을 맞춘 기존의 TF-IDF 가중치와 비교하여, 본 발명의 방법은 텍스트 도메인 및 음향 도메인에서의 정보를 고려한 인덱스를 제공한다. 이 전략은 스피치 기반 검색에서 더 좋은 선택을 초래한다. 도 4a 및 4b의 실험 결과에 나타낸 바와 같이, 새로운 측정치를 갖는 검색 효율은 표준 TF-IDF 측정치와 비교하여 5% 포인트 높다.

본 발명의 원리가 적용될 수 있는 많은 가능한 실시예의 관점에서, 도면에 대하여 여기에서 설명하는 실시예는 예시적인 것이며 본 발명의 범위를 제한하는 것은 아니다. 예를 들어, 텍스트 기반 및 스피치 기반 측정치는 최종 인덱싱 가중치를 산출하는데 사용될 수 있다. 그러므로, 여기에 기재된 발명은 다음의 청구범위 및 그 동등물의 범위 내의 모든 실시예를 꾀할 수 있다.

Claims

문서(300) 내의 검색 용어에 인덱싱 가중치(indexing weight)(320)를 할당하는 방법 - 상기 문서(300)는 문서들의 수집물(300) 내에 있음 -으로서,
상기 문서(300) 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치(302, 304)를 산출하는 단계(200);
상기 검색 용어에 대한 발음 프로미넌스(pronunciation prominence)(318)를 산출하는 단계(202); 및
상기 문서(300) 내의 검색 용어에 인덱싱 가중치(320)를 할당하는 단계(206)
를 포함하며,
상기 인덱싱 가중치(320)는, 적어도 부분적으로, 상기 산출된 텍스트 기반 인덱싱 가중치(302, 304)와 상기 산출된 발음 프로미넌스(318)의 수학적 결합(204)에 기초하는, 인덱싱 가중치 할당 방법.
제1항에 있어서, 상기 문서 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치를 산출하는 단계는,
상기 문서 내의 검색 용어에 대한 용어 빈도(term frequency)를 산출하는 단계;
상기 문서들의 수집물 내의 검색 용어에 대한 역 문서 빈도(inverse document frequency)를 산출하는 단계; 및
상기 산출된 용어 빈도 및 상기 산출된 역 문서 빈도를 수학적으로 결합함으로써 상기 문서 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치를 산출하는 단계
를 포함하는, 인덱싱 가중치 할당 방법.
제1항에 있어서, 상기 문서 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치를 산출하는 단계는,
상기 문서 내의 검색 용어에 다한 용어 빈도를 산출하는 단계;
상기 문서들의 수집물 내의 검색 용어에 대한 차이값(discrimination value)을 산출하는 단계; 및
상기 산출된 용어 빈도 및 상기 산출된 차이값을 수학적으로 결합함으로써 상기 문서 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치를 산출하는 단계
를 포함하는, 인덱싱 가중치 할당 방법.
제1항에 있어서, 상기 검색 용어에 대한 발음 프로미넌스를 산출하는 단계는,
상기 문서들의 수집물 내의 문서들 내의 용어들을 음성 발음(phonetic pronunciations)으로 변환하는 단계;
변환된 용어들의 쌍들 간의 용어간 발음 간격들(inter-term pronunciation distances)을 산출하는 단계 - 상기 산출은, 적어도 부분적으로, 음소간 간격들(inter-phoneme distances)에 기초함 -; 및
상기 검색 용어 발음 프로미넌스를 산출하는 단계 - 상기 산출은, 적어도 부분적으로, 용어간 발음 간격들에 기초함 -
를 포함하는, 인덱싱 가중치 할당 방법.
제4항에 있어서,
음소간 간격을 산출하는 단계 - 상기 산출은, 적어도 부분적으로, 데이터 구동(data-driven) 기술 및 음성 기반 기술로 이루어진 그룹으로부터 선택된 기술에 기초함 - 를 더 포함하는, 인덱싱 가중치 할당 방법.
제5항에 있어서, 상기 데이터 구동 기술은, 음소 혼동 매트릭스(phonemic confusion matrix)를 도출하는 단계 - 상기 도출은, 적어도 부분적으로, 개방 음소 문법(open phoneme grammar)을 갖는 음소 인식에 기초함 - 를 포함하는, 인덱싱 가중치 할당 방법.
제5항에 있어서, 상기 음성 기반 기술은,
제1 음소 및 제2 음소 각각을, 각 음소의 독특한 음성 특징에 대응하는 각 벡터 요소를 갖는 벡터로서 나타내는 단계;
상기 벡터 요소들에 가중치를 부여하는 단계 - 상기 가중치 부여는, 적어도 부분적으로, 언어의 각 특징의 상대적 빈도에 기초하고, 상기 언어는 제1 및 제2 음소를 포함함 -; 및
상기 제1 음소 및 상기 제2 음소 간의 음소간 간격을 추정하는 단계 - 상기 추정은, 적어도 부분적으로, 상기 제1 음소 및 제2 음소의 벡터들에 기초함 -
를 포함하는, 인덱싱 가중치 할당 방법.
제4항에 있어서, 한 쌍의 변환된 용어들 간의 용어간 발음 간격을 산출하는 단계는, 상기 한 쌍의 변환된 용어들 간의 용어간 발음 혼동(inter-term pronunciation confusability)을 산출하는 단계를 포함하는, 인덱싱 가중치 할당 방법.
제4항에 있어서, 상기 검색 용어 발음 프로미넌스를 산출하는 단계는, 검색 용어와 다른 용어 간의 용어간 발음 간격의 검색 용어에 음향적으로 가장 가까운 용어들의 그룹에 대한 평균을 취하는 단계를 포함하는, 인덱싱 가중치 할당 방법.
보이스-대-텍스트 검색 인덱싱 서버(voice-to-text-search indexing server)(106)로서,
문서(300) 내의 검색 용어에 할당된 인덱싱 가중치(320)를 저장하도록 구성된 메모리 - 상기 문서(300)는 문서들의 수집물(300) 내에 있음 -; 및
상기 메모리에 결합되어 동작하며, 상기 문서(300) 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치(302, 304)를 산출(200)하고, 상기 검색 용어에 대한 발음 프로미넌스(318)를 산출(202)하고, 상기 문서(300) 내의 검색 용어에 인덱싱 가중치(320)를 할당하도록(206) 구성된 프로세서
를 포함하고,
상기 인덱싱 가중치(320)는, 적어도 부분적으로, 상기 산출된 텍스트 기반 인덱싱 가중치(302, 304) 및 상기 산출된 발음 프로미넌스(318)의 수학적 결합(204)에 기초하는, 보이스-대-텍스트 검색 인덱싱 서버.