KR20110095338A - 검색 용어에 대한 인덱싱 가중치 할당 - Google Patents

검색 용어에 대한 인덱싱 가중치 할당 Download PDF

Info

Publication number
KR20110095338A
KR20110095338A KR1020117013617A KR20117013617A KR20110095338A KR 20110095338 A KR20110095338 A KR 20110095338A KR 1020117013617 A KR1020117013617 A KR 1020117013617A KR 20117013617 A KR20117013617 A KR 20117013617A KR 20110095338 A KR20110095338 A KR 20110095338A
Authority
KR
South Korea
Prior art keywords
indexing
document
search
term
pronunciation
Prior art date
Application number
KR1020117013617A
Other languages
English (en)
Inventor
첸 리우
Original Assignee
모토로라 모빌리티, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티, 인크. filed Critical 모토로라 모빌리티, 인크.
Publication of KR20110095338A publication Critical patent/KR20110095338A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서(300) 내의 잠재적인 검색 용어에 할당된(206) 인덱싱 가중치(320)를 개시하며, 인덱싱 가중치(320)는 용어의 텍스트 및 음성 양상에 기초한다. 일 실시예에서, 전통적인 텍스트 기반 가중치(302, 304)가 잠재적인 검색 용어에 할당된다(200). 이 가중치(302, 304)는 TF-IDF(term frequency-inverse document frequency), TF-DV(term frequency discrimination value) 또는 임의의 다른 텍스트 기반 가중치(302, 304)일 수 있다. 그 후, 발음 프로미넌스 가중치(318)가 동일한 용어에 대하여 산출된다(202). 텍스트 기반 가중치(302, 304) 및 발음 프로미넌스 가중치(318)는 수학적으로 그 용어에 대한 최종 인덱싱 가중치(320)로 결합된다(204). 스피치 기반 검색 스트링이 입력되면, 결합된 인덱싱 가중치(320)는 각 문서(300) 내의 각 검색 용어의 중요성을 결정하는데 사용된다(206). 발음 프로미넌스(318)를 산출하는 몇 가지 가능성이 고려된다. 임의의 실시예에서, 문서(300) 내의 용어들의 쌍들에 대하여 용어간 발음 간격(306)이 음소간 간격(316)에 기초하여 산출된다.

Description

검색 용어에 대한 인덱싱 가중치 할당{ASSIGNING AN INDEXING WEIGHT TO A SEARCH TERM}
본 발명은 일반적으로 컴퓨터 매개 검색 툴(computer-mediated search tool)들에 관한 것으로, 특히 문서에서 검색 용어들에 인덱싱 가중치들을 할당하는 것에 관한 것이다.
일반적인 검색 시나리오에서, 사용자는 검색 스트링으로 타이핑을 한다. 스트링은 분석을 위해 검색 엔진에 제출된다. 분석시, 스트링의 단어들 중 전부는 아니지만, 다수가 "검색 용어들"이 된다 ("a" 및 "the" 등의 단어는 검색 용어가 되지 않고 일반적으로 무시된다). 검색 엔진은 검색 용어들을 포함하는 적절한 문서들을 찾고 사용자에 의한 리뷰를 위한 "히트들(hits)"로서 적절한 문서들의 리스트를 제시한다.
검색 용어를 고려해 볼 때, 그 검색 용어를 포함하는 적절한 문서를 찾는 것은 복잡하고 정교한 프로세스이다. 지능적인 검색 엔진은, 검색 용어를 포함하는 문서들 모두를 단순히 추출하기보다는, 먼저 수집물 내의 문서 모두를 전처리(preprocess)한다. 각각의 문서에 대하여, 검색 엔진은, 그 문서에 포함되고 그 문서에서 중요한 가능한 검색 용어들의 리스트를 준비한다. 문서 내의 용어의 중요성(용어의 인덱싱 가중치라 지칭됨)에 대한 많은 공지된 측정법(measure)이 존재한다. 하나의 공통된 측정법은 "용어 빈도-역 문서 빈도(term frequency-inverse document frequency(TF-IDF)"가 있다. 간략화하기 위하여, 이 인덱싱 가중치는, 문서에서 용어가 나타나는 횟수에 비례하고 그 용어를 포함하는 수집물 내의 문서들의 수에 반비례한다. 예를 들어 "this"라는 단어는 하나의 문서에서 여러 번 나타날 수 있다. 그러나, "this"는 또한 수집물 내의 거의 모든 문서에서 나타날 수 있고, 따라서, 그 TF-IDF는 매우 낮다. 반면에, 수집물은 "고래(whale)"라는 단어를 포함하는 문서를 가질 가능성은 낮기 때문에, "고래"라는 단어가 반복적으로 나타나는 문서는 고래들에 대하여 할 말이 있는 것이며, 따라서, 그 문서에 대하여, "고래"는 높은 TF-IDF를 갖는다.
따라서, 지능적인 검색 엔진은 사용자의 검색 용어들을 포함하는 문서들 모두를 단순히 열거하는 것이 아니라, (검색 엔진이 용어 중요성에 대하여 어떤 측정법을 사용하든) 검색 용어들이 비교적 높은 TF-IDF를 갖는 문서들만을 열거한다. 이러한 방식으로, 지능적인 검색 엔진은 사용자의 요구를 가장 충족할 것 같은 문서들을 문서 반환 리스트의 상부 부근에 배치한다.
그러나, 이러한 시나리오는 사용자가 검색 스트링을 타이핑하는 것이 아니라, 검색 스트링을 말로 할 때에는 잘 작동하지 않는다. 일반적인 시나리오에서, 사용자는 전체 키보드를 위한 공간이 없는 (셀룰러 폰 또는 개인 휴대 단말기 등의) 소형 개인 통신 장치를 갖는다. 대신에, 터치 타이핑하기에는 너무 작은 많은 소형 키들을 가질 수 있는 제한된 키보드를 가질 수 있거나, 또는 각각이 몇 개의 문자들 또는 심볼들을 나타내는 몇 개의 키만을 가질 수 있다. 사용자는 제한된 키보드가 정교한 검색 쿼리를 입력하기 부적합하다는 것을 발견하고, 사용자는 스피치 기반 검색으로 바꾼다.
여기에서, 사용자는 검색 쿼리를 말한다. 스피치-대-텍스트 엔진은 발성된 쿼리를 텍스트로 변환한다. 그런 다음, 결과적인 텍스트 쿼리가 표준 텍스트 기반 검색 엔진에 의해 상술한 바와 같이 처리된다.
보통 이 프로세스가 작동하지만, 스피치 기반 검색은 새로운 문제를 제시한다. 특히, 공지된 기술에서는 단순히 문서의 텍스트 양상들(aspects)에 기초하여 문서 내의 용어들에 인덱싱 가중치들을 할당한다.
명세서, 도면 및 청구범위를 참조하여 이해될 수 있는 본 발명에 의해 상술한 고려 사항 및 다른 것이 처리될 수 있다. 본 발명의 형태에 따르면, 문서 내의 잠재적인 검색 용어에 용어의 텍스트 및 음향 양상들에 기초한 인덱싱 가중치가 할당된다.
일 실시예에서, 전통적인 텍스트 기반 가중치가 잠재적인 검색 용어에 할당된다. 이 가중치는 TF-IDF, 용어 빈도-차이값("term frequency-discrimination value (TF-DV)"), 또는 임의의 다른 텍스트 기반 가중치일 수 있다. 그 후, 동일한 용어에 대하여 발음 프로미넌스 가중치(pronunciation prominence weight)가 산출된다. 텍스트 기반 가중치 및 발음 프로미넌스 가중치는 수학적으로 결합되어 그 용어에 대한 최종 인덱싱 가중치가 생성된다. 스피치 기반 검색 스트링이 입력되면, 결합된 인덱싱 가중치는 각 문서 내의 각 검색 용어의 중요성을 판단하는데 사용된다.
텍스트 기반 인덱싱 가중치를 산출하는 많은 공지의 가능성이 존재하는 것처럼, 발음 프로미넌스를 산출하는 몇 가지의 가능성들이 고려된다. 임의의 실시예에서, 문서 내의 용어들의 쌍들에 대하여, 음소간 간격에 기초하여 용어간 발음 간격(inter-term pronunciation distance)이 산출된다. 데이터 구동(data-driven) 기술 또는 음성 기반 기술은 음소간 간격을 산출하는데 사용될 수 있다. 이 절차 및 다른 가능성의 세부 사항은 하기에서 설명한다.
첨부된 청구범위는 특성을 갖는 본 발명의 특징을 나타내지만, 목적 및 이점과 함께 본 발명은 첨부된 도면과 결합한 다음의 상세한 설명으로부터 가장 잘 이해될 수 있다.
도 1은 본 발명이 실행될 수 있는 구상적인 환경의 개요를 나타내는 도면.
도 2는 검색 용어에 인덱싱 가중치를 할당하는 예시적인 방법의 플로우챠트.
도 3은 인덱싱 가중치를 산출할 수 있는 방법을 나타내는 데이터 흐름도.
도 4a 및 4b는 본 발명에 따라 산출된 인덱싱 가중치의 성능과 이전의 기술의 인덱싱 가중치의 성능을 비교한 실험 결과의 표.
동일한 참조 번호는 동일한 소자를 지칭하는 도면을 참조하여, 본 발명은 적절한 환경에서 구현되는 것으로 기재된다. 다음의 설명은 본 발명의 실시예에 기초하며 명시적으로 기재되지 않은 다른 실시예에 대하여 본 발명을 제한하지 않아야 한다.
도 1에서, 사용자(102)는 검색을 개시하는 것에 관심이 있다. 어떤 이유에서든, 사용자(102)는, 그의 검색 쿼리를 타이핑하는 대신, 개인 통신 장치(104)에 그의 검색 쿼리를 말하는 것을 선택한다. 사용자(102)의 스피치 입력은 (장치(104) 상에서 국부적으로 또는 원격 검색 서버(106) 상에서) 텍스트 쿼리로 처리된다. 텍스트 쿼리는 검색 엔진에 (국부적으로 또는 원격으로) 제출된다. 검색 결과는 장치(104)의 디스플레이 화면 상에서 사용자(102)에게 제시된다. 통신 네트워크(100)는, 적절하다면, 장치(104)가 원격 검색 서버(106)에 액세스하게 해주며, 사용자(102)의 지휘 하에서 검색 결과 내의 "히트들"을 검색하게 해준다.
검색 결과들의 빠른 반환을 가능하게 하기 위하여, 검색 쿼리가 입력되기 전에 수집물 내의 문서들이 전처리된다. 수집물 내의 각 문서 내의 잠재적인 검색 용어가 분석되고, 인덱싱 가중치가 각 문서 내의 잠재적인 검색 용어에 할당된다. 본 발명의 형태에 따르면, 인덱싱 가중치들은 문서들의 전통적인 텍스트 기반 고려사항 및 음성 쿼리에 특정된 고려사항(즉, 음향 고려사항)에 기초한다. 통상, 인덱싱 가중치들을 할당하는 검색전(pre-search) 동작은 원격 검색 서버(106) 상에서 수행된다.
음성 검색 쿼리가 사용자(102)에 의해 자신의 개인 통신 장치(104)에 입력되면, 쿼리 내의 검색 용어가 분석되고 수집물 내의 문서들의 검색 용어들에 미리 할당된 인덱싱 가중치와 비교된다. 인덱싱 가중치에 기초하여, 적절한 문서들이 사용자(102)에 히트들로서 반환된다. 반환된 히트들의 리스트에 가장 적절한 문서들을 배치하기 위하여, 히트들은, 적어도 부분적으로, 검색 용어들의 인덱싱 가중치들에 기초하여 정렬된다.
도 2에서는 본 발명의 방법의 실시예를 나타낸다. 도 3은 본 발명의 실시예에서 데이터가 흘러가는 방법을 도시한다. 이들 2개의 도면은 다음의 설명에서 함께 고려된다.
단계(200)는 공지된 기술을 적용하여 최종 복합 인덱싱 가중치의 제1 컴포넌트를 산출한다. 여기에서, 텍스트 기반 인덱싱 가중치가 문서 내의 각각의 잠재적인 검색 용어에 할당된다. 다수의 텍스트 기반 인덱싱 가중치들이 공지되고 사용될 수 있지만, 다음의 예는 공지된 TF-IDF 인덱싱 가중치를 설명한다. 공지된 기술들을 적용하면, 문서들의 수집물 내의 문서들(도3의 300)은 먼저 쓰레기(garbage)를 제거하고 구두점(punctuation)을 정리하며 변화된(inflected)(또는 때때로 파생된) 단어들을 그들의 스템(stem), 베이스(base) 또는 루트(root) 형태로 감소시키고, 불용어(stopword)를 걸러내도록 전처리된다. 그 후, 각각의 문서는 워드 벡터(word vector)로 변환된다. 워드 벡터는 문서용 TF(term frequency) 및 문서들의 수집용 IDF(inverse document frequency)를 산출하는데 사용된다. 특히, TF(도 3의 302)는 특정 문서 dq 내의 용어 tm의 정규화된 카운트이다.
Figure pct00001
여기서, nmq는 문서 dq 내의 용어 tm 발생 수이고, 분모는 문서 dq 내의 모든 용어의 발생 수이다. 문서의 수집물 내의 용어 tm의 IDF(도 3의 304)는
Figure pct00002
이다. 여기서,
Figure pct00003
는 수집물 내의 문서들의 총 수인 반면, 분모는 용어 tm가 나타나는 문서들의 수를 나타낸다. TF-IDF 가중치는, 문서들의 수집물 내의 문서 dq에 용어 tm가 얼마나 중요한지를 측정하는
Figure pct00004
이다. 상이한 실시예는 TF-IDF 대신에 TF-DV 등의 다른 텍스트 기반 인덱싱 가중치를 사용할 수 있다.
단계(202)에서, 최종 복합 인덱싱 가중치의 제2 컴포넌트가 산출된다. 여기서, ("발음 프로미넌스"라 불리우는) 스피치 기반 인덱싱 가중치가 문서 내의 각각의 잠재적 검색 용어에 할당된다. 요약하면, 먼저 각 단어를 그 음성 발음들로 변환하는데 사전(도 3의 308)이 사용된다. 두 번째로, 단어간 발음 간격(306)이 음소간 간격에 기초하여 산출된다(316). 그 후, 그 절차로부터, 단어에 대한 발음 프로미넌스(318)가 산출된다.
음소간 간격(IPD; inter-phoneme distance)을 추정하는데 몇 가지 공지된 기술이 사용될 수 있다. 이들 기술은 일반적으로 기술의 데이터 구동(data-driven) 기술들의 패밀리 또는 음성 기반 패밀리 중 하나에 속한다.
IPD를 추정하기 위하여 데이터 구동 접근법을 사용하기 위하여, 소정량의 스피치 데이터가 음성 인식 테스트에 이용가능하다고 가정한다. 그 후, 음소 혼동 매트릭스가 개방 음소 문법(open phoneme grammar)을 이용한 인식 결과로부터 도출된다. 음소 목록(phonemic inventory)은
Figure pct00005
로서 표시되고, 여기서 I는 목록 내의 음소의 총수이다. 음소 pi가 pj로서 인식될 때의 경우의 수를 나타내는
Figure pct00006
에 의해 혼동 매트릭스 내의 각 요소를 나타낸다. 그 후, pj=pi일 때 인식이 정확하고, pj≠pi일 때 인식이 부정확하다. 임의의 실시예에서, 정지 및 침묵 모델들이 음소 목록에 포함된다. 이들 실시예에서, 혼동 매트릭스는 또한 각 음소의 삭제(pj = 정지 또는 침묵일 때) 및 삽입(pi = 정지 또는 침묵일 때)에 대한 정보를 제공한다. pj로서 정의되는 음소 pi의 경향은
Figure pct00007
로서 정의된다. 이 양은 두 음소 pi 및 pj 간의 밀접성(closeness)의 특징을 나타내지만, 대칭은 아니기 때문에, 즉,
Figure pct00008
이기 때문에, 엄격한 의미에서 간격 측정치는 아니다.
음성 기반 기술은 음성 지식으로부터 IPD 만을 추정한다. 순수한 음성 도메인 내의 음소 간의 양적 관계의 특징은 잘 알려져 있다. 일반적으로, 관계는 l=1, ..., L에 대하여 독특한 음성 특징, 즉,
Figure pct00009
에 대응하는 요소를 갖는 벡터로서 각각의 음소를 나타낸다. 여기서, 벡터는 총 L개의 요소 또는 특징을 포함하고, 각각의 요소는 특징이 있을 때 1의 값을 취하고 특징이 없을 때 0의 값을 취한다. 음소 차이에 기인한 특징의 차이를 인식하면, 특징은 가중치 팩터를 이용하여 변경된다. 가중치는 언어 내의 각각의 특징의 상대적 빈도로부터 도출된다. c(pi)가 음소 pi의 발생 카운트를 나타내면, 음소 pi에 의해 기여되는 각 특징 l의 빈도는 c(pi)vi(l)이고, 모든 음소에 의해 기여되는 각각의 특징 l의 빈도는
Figure pct00010
이다. 언어 내의 모든 음소로부터 도출되는 가중치는
Figure pct00011
이다. 여기서, 각각의 특정 특징(l)에 대한 가중치는
Figure pct00012
이고, 여기서, diag(벡터)는 대각 엔트리로서 벡터의 요소를 갖는 대각 매트릭스이다. 2개의 음소 pi 및 pj 간의 추정 음소 간격은
Figure pct00013
로서 산출된다. 여기서, i=1, ..., I이고, j=1, ..., I이다. 음소 및 침묵 또는 정지 간의 간격은 인공적으로
Figure pct00014
로 만들어진다.
IPD(도 3의 316)가 산출되는 방법에 관계없이, 다음의 단계는 단어간 발음 혼동 또는 단어간 발음 간격을 산출한다(306). 용어 tm가 다른 용어 tn에 의해 발음에 있어서 혼동될 가능성의 추정에 있어서, 본 발명의 실시예는 공지된 레빈쉬타인 간격(Levenshtein distance)의 변경된 버전을 사용할 수 있다. 레빈쉬타인 간격은 2개의 텍스트 스트링 간의 편집 간격을 측정한다. 본래, 간격은 하나의 텍스트 스트링을 다른 것으로 변환할 때 필요한 동작의 최소수에 의해 주어지고, 동작은 하나의 문자의 삽입, 삭제 또는 대체이다. 본 발명의 변경된 버전에서, 레빈쉬타인 간격은 임의의 2개의 단어 tm 및 tn의 발음, 즉, 음소의 스트링 사이에서 측정된다. 음소(pi)의 삽입, 삭제, 또는 대체는 퍼니싱 비용(punishing cost)(Q)과 관련된다. 2개의 발음 스트링
Figure pct00015
Figure pct00016
간의 변경된 레빈쉬타인 간격은
Figure pct00017
이다. 여기서, LD는 레빈쉬타인 간격을 나타내고, 세부적인 데서 출발하는 동적 프로그래밍 알고리즘으로 실현될 수 있다. 이 간격은 비용(Q) 뿐만 아니라 비교될 2개의 단어의 발음 스트링의 함수이다. 비용은 상술한 IPD에 의해 표현될 수 있다. 즉,
Figure pct00018
이것은 확률이 아니고,
Figure pct00019
는 단어 tm가 단어 tn로서 인식될 가능성 또는 경향이라 한다. tn=tm이면, 인식이 정확한 것이며, tn≠tm이면, 인식이 부정확한 것이다.
상기에 기초하여, 단어 tm의 발음 프로미넌스(318)(또는 강건함)는
Figure pct00020
로서 특징이 있다.
상기 메트릭에서, 첫 번째 항은 단어 tm가 음향적으로 가장 근접한 단어(S(tm))의 그룹에 의해 혼동될 평균 경향을 측정한다.
Figure pct00021
이 테스트에서, 우리는 각 tm 에 대한 5개의 가장 혼동스런 단어를 포함하도록 S(tm)을 제어한다. 음향 모델 세트가 어떤 단어 tm를 인식하는데 있어서 부족하여 Rm<0인 상황이 있다. 이 경우, Rm=0를 설정한다. 발음 프로미넌스는 변환
Figure pct00022
을 통해 향상된다. 여기서, 향상 함수(F())는 많은 양상들을 취할 수 있다. 테스트에서, 우리는 멱함수(power function)
Figure pct00023
를 사용한다.
이 멱 파라미터(r)는 0보다 큰 자연수이고 기존의 TF-IDF에 상대적으로 발음 프로미넌스를 향상시키는데 사용된다. 이 테스트에서, 일반적으로
Figure pct00024
이면 충분하다.
도 2의 단계(204)에서, (단계(200)로부터) 텍스트 기반 인덱싱 가중치 및 (단계(202)로부터) 발음 프로미넌스는 수학적으로 결합되어 새로운 인덱싱 가중치를 생성한다. 예를 들어, 텍스트 기반 인덱싱 가중치가 TF-IDF이면, 최종 가중치는 TF-IDF-PP 가중치(도 3의 320)이다.
Figure pct00025
이 새로운 가중치는 스피치 기반 검색(단계(206))에 사용될 것이다.
테스트는 엔론(Enron) 이메일 데이터베이스로부터 임의로 선택된 500개의 이메일 상에서 수행되어 왔다. 이메일 헤더, 알파벳이 아닌 문자 및 구두점은 걸러진다. 이메일은 또한 818개의 단어를 포함하는 불용어를 통해 확인된다. 청소(cleaning) 및 필터링 후에, 500개의 이메일은 8,358개의 고유 단어를 갖는 총 52,488개의 단어를 포함한다.
스피치 인식을 위하여, 3-상태 HMM을 포함하는 콘텍스트-독립 음향 모델 세트가 사용된다. 특징은 규칙적인 13개의 켑스트럼 계수(cepstral coefficient), 13개의 1차 켑스트럼 파생 계수 및 13개의 2차 켑스트럼 파생 계수이다. 키워드들의 스피치 인식에서, 바이그램(bigram) 언어 모델이 사용된다. 스피치 인식 결과에서, 각 단어 tm에 대한 단어 정확도 A(tm)가 얻어진다. 그러므로, 문서 dq의 성공적인 위치를 안내할 가능성은
Figure pct00026
에 의해 추정될 수 있다. 인덱싱 가중치와 관련된 단어 리스트의 상부 부분 집합 상에서 곱셈이 수행된다. 그 후, 수집물 내의 모든 문서에 대한 평균 정확도가
Figure pct00027
로서 얻어질 수 있다.
도 4a의 표는 TF-IDF 및 TF-IDF-PP를 비교하는 검색 성능을 나타내고, 여기서 PP는 데이터 구동 IPD로 도출된다. 도 4a의 표는 평균수의 검색 단계와 평균 검색 정확도가 TF-IDF와 비교하여 TF-IDF-PP에서 개선되었다는 것을 나타낸다. 각 용어에 대한 IDF가 전체적으로 얻어지지만, 검색 테스트에서, 제1 단계 후의 검색은 국부적이기 때문에, TF-IDF는 현재의 검색 테스트에서 최소의 검색 단계를 반드시 제공하는 것은 아니라는 것을 이해할 수 있다. 검색 단계의 감소 때문에 검색 정확도에서 얼마나 많은 이득이 얻어지는지에 대한 대략적인 추정을 하였다. 90%의 단어 정확도로서 우리의 스피치 인식기의 평균 성능을 사용하여, 2.30 내지 2.25의 단계의 평균수의 변화는 평균 검색 정확도에 있어서 78.29% 내지 78.47%의 변화만을 초래한다. 따라서, 우리는 키워드로서 음향적으로 더 강인한 단어의 사용 때문에 평균 검색 정확도의 개선이 크다는 것을 말할 수 있다. 도 4a의 표의 결과는 발음 프로미넌스 팩터 PP가 스피치 인식기의 음소 혼동 매트릭스로부터 도출될 때 인덱싱 가중치로서 TF-IDF 대신에 TF-IDF-PP를 사용함으로써 상당한 개선을 얻을 수 있다는 것을 나타낸다. 이득은 파라미터 r에 따라 증가하고(즉, 프로미넌스의 향상), r이 클 때, 예를 들어, r>5일 때, 포화된다. 새로운 인덱싱 가중치를 이용함으로써, 우리는 검색 정확도에 있어서 평균 5% 포인트 증가를 얻었다.
또다른 테스트의 결과는 도 4b의 표에 도시되어 있다. 여기서, 발음 프로미넌스 팩터는 음성 지식(도 3의 314)으로부터 도출된다. 테스트는 검색 정확도에 있어서 유사한 개선을 나타낸다. 개선은 도 4a의 표에 도시된 결과보다 약간 작다.
텍스트 정보에만 초점을 맞춘 기존의 TF-IDF 가중치와 비교하여, 본 발명의 방법은 텍스트 도메인 및 음향 도메인에서의 정보를 고려한 인덱스를 제공한다. 이 전략은 스피치 기반 검색에서 더 좋은 선택을 초래한다. 도 4a 및 4b의 실험 결과에 나타낸 바와 같이, 새로운 측정치를 갖는 검색 효율은 표준 TF-IDF 측정치와 비교하여 5% 포인트 높다.
본 발명의 원리가 적용될 수 있는 많은 가능한 실시예의 관점에서, 도면에 대하여 여기에서 설명하는 실시예는 예시적인 것이며 본 발명의 범위를 제한하는 것은 아니다. 예를 들어, 텍스트 기반 및 스피치 기반 측정치는 최종 인덱싱 가중치를 산출하는데 사용될 수 있다. 그러므로, 여기에 기재된 발명은 다음의 청구범위 및 그 동등물의 범위 내의 모든 실시예를 꾀할 수 있다.

Claims (10)

  1. 문서(300) 내의 검색 용어에 인덱싱 가중치(indexing weight)(320)를 할당하는 방법 - 상기 문서(300)는 문서들의 수집물(300) 내에 있음 -으로서,
    상기 문서(300) 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치(302, 304)를 산출하는 단계(200);
    상기 검색 용어에 대한 발음 프로미넌스(pronunciation prominence)(318)를 산출하는 단계(202); 및
    상기 문서(300) 내의 검색 용어에 인덱싱 가중치(320)를 할당하는 단계(206)
    를 포함하며,
    상기 인덱싱 가중치(320)는, 적어도 부분적으로, 상기 산출된 텍스트 기반 인덱싱 가중치(302, 304)와 상기 산출된 발음 프로미넌스(318)의 수학적 결합(204)에 기초하는, 인덱싱 가중치 할당 방법.
  2. 제1항에 있어서, 상기 문서 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치를 산출하는 단계는,
    상기 문서 내의 검색 용어에 대한 용어 빈도(term frequency)를 산출하는 단계;
    상기 문서들의 수집물 내의 검색 용어에 대한 역 문서 빈도(inverse document frequency)를 산출하는 단계; 및
    상기 산출된 용어 빈도 및 상기 산출된 역 문서 빈도를 수학적으로 결합함으로써 상기 문서 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치를 산출하는 단계
    를 포함하는, 인덱싱 가중치 할당 방법.
  3. 제1항에 있어서, 상기 문서 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치를 산출하는 단계는,
    상기 문서 내의 검색 용어에 다한 용어 빈도를 산출하는 단계;
    상기 문서들의 수집물 내의 검색 용어에 대한 차이값(discrimination value)을 산출하는 단계; 및
    상기 산출된 용어 빈도 및 상기 산출된 차이값을 수학적으로 결합함으로써 상기 문서 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치를 산출하는 단계
    를 포함하는, 인덱싱 가중치 할당 방법.
  4. 제1항에 있어서, 상기 검색 용어에 대한 발음 프로미넌스를 산출하는 단계는,
    상기 문서들의 수집물 내의 문서들 내의 용어들을 음성 발음(phonetic pronunciations)으로 변환하는 단계;
    변환된 용어들의 쌍들 간의 용어간 발음 간격들(inter-term pronunciation distances)을 산출하는 단계 - 상기 산출은, 적어도 부분적으로, 음소간 간격들(inter-phoneme distances)에 기초함 -; 및
    상기 검색 용어 발음 프로미넌스를 산출하는 단계 - 상기 산출은, 적어도 부분적으로, 용어간 발음 간격들에 기초함 -
    를 포함하는, 인덱싱 가중치 할당 방법.
  5. 제4항에 있어서,
    음소간 간격을 산출하는 단계 - 상기 산출은, 적어도 부분적으로, 데이터 구동(data-driven) 기술 및 음성 기반 기술로 이루어진 그룹으로부터 선택된 기술에 기초함 - 를 더 포함하는, 인덱싱 가중치 할당 방법.
  6. 제5항에 있어서, 상기 데이터 구동 기술은, 음소 혼동 매트릭스(phonemic confusion matrix)를 도출하는 단계 - 상기 도출은, 적어도 부분적으로, 개방 음소 문법(open phoneme grammar)을 갖는 음소 인식에 기초함 - 를 포함하는, 인덱싱 가중치 할당 방법.
  7. 제5항에 있어서, 상기 음성 기반 기술은,
    제1 음소 및 제2 음소 각각을, 각 음소의 독특한 음성 특징에 대응하는 각 벡터 요소를 갖는 벡터로서 나타내는 단계;
    상기 벡터 요소들에 가중치를 부여하는 단계 - 상기 가중치 부여는, 적어도 부분적으로, 언어의 각 특징의 상대적 빈도에 기초하고, 상기 언어는 제1 및 제2 음소를 포함함 -; 및
    상기 제1 음소 및 상기 제2 음소 간의 음소간 간격을 추정하는 단계 - 상기 추정은, 적어도 부분적으로, 상기 제1 음소 및 제2 음소의 벡터들에 기초함 -
    를 포함하는, 인덱싱 가중치 할당 방법.
  8. 제4항에 있어서, 한 쌍의 변환된 용어들 간의 용어간 발음 간격을 산출하는 단계는, 상기 한 쌍의 변환된 용어들 간의 용어간 발음 혼동(inter-term pronunciation confusability)을 산출하는 단계를 포함하는, 인덱싱 가중치 할당 방법.
  9. 제4항에 있어서, 상기 검색 용어 발음 프로미넌스를 산출하는 단계는, 검색 용어와 다른 용어 간의 용어간 발음 간격의 검색 용어에 음향적으로 가장 가까운 용어들의 그룹에 대한 평균을 취하는 단계를 포함하는, 인덱싱 가중치 할당 방법.
  10. 보이스-대-텍스트 검색 인덱싱 서버(voice-to-text-search indexing server)(106)로서,
    문서(300) 내의 검색 용어에 할당된 인덱싱 가중치(320)를 저장하도록 구성된 메모리 - 상기 문서(300)는 문서들의 수집물(300) 내에 있음 -; 및
    상기 메모리에 결합되어 동작하며, 상기 문서(300) 내의 검색 용어에 대한 텍스트 기반 인덱싱 가중치(302, 304)를 산출(200)하고, 상기 검색 용어에 대한 발음 프로미넌스(318)를 산출(202)하고, 상기 문서(300) 내의 검색 용어에 인덱싱 가중치(320)를 할당하도록(206) 구성된 프로세서
    를 포함하고,
    상기 인덱싱 가중치(320)는, 적어도 부분적으로, 상기 산출된 텍스트 기반 인덱싱 가중치(302, 304) 및 상기 산출된 발음 프로미넌스(318)의 수학적 결합(204)에 기초하는, 보이스-대-텍스트 검색 인덱싱 서버.
KR1020117013617A 2008-12-15 2009-12-14 검색 용어에 대한 인덱싱 가중치 할당 KR20110095338A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/334,842 2008-12-15
US12/334,842 US20100153366A1 (en) 2008-12-15 2008-12-15 Assigning an indexing weight to a search term

Publications (1)

Publication Number Publication Date
KR20110095338A true KR20110095338A (ko) 2011-08-24

Family

ID=42241753

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117013617A KR20110095338A (ko) 2008-12-15 2009-12-14 검색 용어에 대한 인덱싱 가중치 할당

Country Status (5)

Country Link
US (1) US20100153366A1 (ko)
EP (1) EP2377053A2 (ko)
KR (1) KR20110095338A (ko)
CN (1) CN102246169A (ko)
WO (1) WO2010075015A2 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996488B2 (en) * 2008-12-17 2015-03-31 At&T Intellectual Property I, L.P. Methods, systems and computer program products for obtaining geographical coordinates from a textually identified location
KR101850886B1 (ko) * 2010-12-23 2018-04-23 네이버 주식회사 감소 질의를 추천하는 검색 시스템 및 방법
JP5753769B2 (ja) * 2011-11-18 2015-07-22 株式会社日立製作所 音声データ検索システムおよびそのためのプログラム
CN102651015A (zh) * 2012-03-30 2012-08-29 梁宗强 为搜索药品分配权重方法和模块
US8983840B2 (en) * 2012-06-19 2015-03-17 International Business Machines Corporation Intent discovery in audio or text-based conversation
CN103678365B (zh) 2012-09-13 2017-07-18 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
CN103020213B (zh) * 2012-12-07 2015-07-22 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
US10049656B1 (en) 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
US20150286780A1 (en) * 2014-04-08 2015-10-08 Siemens Medical Solutions Usa, Inc. Imaging Protocol Optimization With Consensus Of The Community
CN105893397B (zh) * 2015-06-30 2019-03-15 北京爱奇艺科技有限公司 一种视频推荐方法及装置
CN105354321A (zh) * 2015-11-16 2016-02-24 中国建设银行股份有限公司 一种查询数据处理方法和装置
CN105893533B (zh) * 2016-03-31 2021-05-07 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN105975459B (zh) * 2016-05-24 2018-09-21 北京奇艺世纪科技有限公司 一种词项的权重标注方法和装置
CN106383910B (zh) * 2016-10-09 2020-02-14 合一网络技术(北京)有限公司 搜索词权重的确定方法、网络资源的推送方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828884B1 (ko) * 1999-03-05 2008-05-09 캐논 가부시끼가이샤 데이터베이스 주석 및 검색
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
GB0015233D0 (en) * 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
JP2005148199A (ja) * 2003-11-12 2005-06-09 Ricoh Co Ltd 情報処理装置、画像形成装置、プログラム、及び記憶媒体
US20050283357A1 (en) * 2004-06-22 2005-12-22 Microsoft Corporation Text mining method
US20080215313A1 (en) * 2004-08-13 2008-09-04 Swiss Reinsurance Company Speech and Textual Analysis Device and Corresponding Method
US20080040342A1 (en) * 2004-09-07 2008-02-14 Hust Robert M Data processing apparatus and methods
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
KR100843329B1 (ko) * 2006-07-31 2008-07-03 (주)에어패스 모바일 지식 검색 서비스 시스템
JP5010885B2 (ja) * 2006-09-29 2012-08-29 株式会社ジャストシステム 文書検索装置、文書検索方法および文書検索プログラム
US20080162125A1 (en) * 2006-12-28 2008-07-03 Motorola, Inc. Method and apparatus for language independent voice indexing and searching
TWI336048B (en) * 2007-05-11 2011-01-11 Delta Electronics Inc Input system for mobile search and method therefor
US7945441B2 (en) * 2007-08-07 2011-05-17 Microsoft Corporation Quantized feature index trajectory
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation

Also Published As

Publication number Publication date
WO2010075015A2 (en) 2010-07-01
US20100153366A1 (en) 2010-06-17
WO2010075015A3 (en) 2010-08-26
EP2377053A2 (en) 2011-10-19
CN102246169A (zh) 2011-11-16

Similar Documents

Publication Publication Date Title
KR20110095338A (ko) 검색 용어에 대한 인덱싱 가중치 할당
US9514126B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US6877001B2 (en) Method and system for retrieving documents with spoken queries
US8768700B1 (en) Voice search engine interface for scoring search hypotheses
US6681206B1 (en) Method for generating morphemes
US8793130B2 (en) Confidence measure generation for speech related searching
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
EP2058800B1 (en) Method and system for recognizing speech for searching a database
US8200491B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US10019514B2 (en) System and method for phonetic search over speech recordings
US20030204399A1 (en) Key word and key phrase based speech recognizer for information retrieval systems
JP2008532099A (ja) データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム
JP2003036093A (ja) 音声入力検索システム
JP2011065120A (ja) すべての言語の音声識別及び音声識別を利用した単字入力の方法
KR20060070605A (ko) 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
US8423354B2 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
JP5360414B2 (ja) キーワード抽出モデル学習システム、方法およびプログラム
Wester et al. A comparison of data-derived and knowledge-based modeling of pronunciation variation
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
Wang et al. Confidence measures for voice search applications.
KR100994726B1 (ko) 보조 자료와 음성 전사를 이용한 음성 문서 검색 방법
Langlois et al. A new based distance language model for a dictation machine: application to maud
WANG et al. SIMULATING REAL SPEECH RECOGNIZERS FOR THE PERFORMANCE EVALUATION OF SPOKEN LANGUAGE SYSTEMS
Liu An indexing weight for voice-to-text search

Legal Events

Date Code Title Description
A201 Request for examination
E601 Decision to refuse application