RU2501078C2 - Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе - Google Patents

Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе

Info

Publication number
RU2501078C2
RU2501078C2 RU2010141559A RU2010141559A RU2501078C2 RU 2501078 C2 RU2501078 C2 RU 2501078C2 RU 2010141559 A RU2010141559 A RU 2010141559A RU 2010141559 A RU2010141559 A RU 2010141559A RU 2501078 C2 RU2501078 C2 RU 2501078C2
Authority
RU
Grant status
Grant
Patent type
Prior art keywords
information
results
document
query
search
Prior art date
Application number
RU2010141559A
Other languages
English (en)
Other versions
RU2010141559A (ru )
Inventor
Владимир ТАНКОВИЧ
Хан ЛИ
Дмитрий МЕЙЕРЗОН
Цзюнь СЮЙ
Original Assignee
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/21Text processing
    • G06F17/22Manipulating or registering by use of codes, e.g. in sequence of text characters
    • G06F17/2211Calculation of differences between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30861Retrieval from the Internet, e.g. browsers
    • G06F17/30864Retrieval from the Internet, e.g. browsers by querying, e.g. search engines or meta-search engines, crawling techniques, push systems

Abstract

Изобретение относится к области систем для извлечения информации о документе из документов, принятых в качестве результатов поиска на основании строки запроса, и вычисления расстояния редактирования между строкой данных и строкой запроса. Техническим результатом является улучшение релевантности результатов поиска. Расстояние редактирования применяется при определении релевантности документа в качестве ранжирования результатов посредством обнаружения близких соответствий всего запроса или части запроса. Расстояние редактирования оценивает, насколько близка строка запроса к данному потоку данных, который включает в себя информацию о документе, такую как информация TAUC (о заголовке, тексте привязки, URL, щелчках кнопкой мыши), и т.д. Архитектура включает в себя разбиение во время индексации составных термов в URL для предоставления возможности более эффективного обнаружения термов запроса. Дополнительно, фильтрация во время индексации текста привязки используется для нахождения N самых лучших привязок одного или более документов-результатов. Информация TAUC может вводиться в нейронную сеть (например, 2-уровневую) для улучшения метрик релевантности для ранжирования результатов поиска. 3 н. и 16 з.п. ф-лы, 12 ил.

Description

УРОВЕНЬ ТЕХНИКИ

Типичная услуга поисковой машины позволяет пользователю вводить запрос, выбирая наиболее релевантные документы из индексированной совокупности URL (унифицированных указателей ресурса), которые соответствуют запросу. Чтобы обслуживать запросы быстро, поисковая машина использует один или более способов (например, структуру данных с инвертированным индексом), которая отображает ключевые слова в документы. Например, первым этапом, выполняемым машиной, может быть идентификация набора документов-кандидатов, которые содержат в себе ключевые слова, заданные пользовательским запросом. Эти ключевые слова могут быть расположены в теле документа или метаданных либо в дополнительных метаданных этого документа, которые фактически хранятся в других документах или хранилищах данных (таких как текст привязки).

В большой индексной совокупности мощность множества у набора документов-кандидатов может быть большой, в зависимости от общности термов запроса (например, потенциально, миллионами). Вместо возврата полного набора документов-кандидатов, поисковая машина выполняет второй этап ранжирования документов-кандидатов по релевантности. Типично, поисковая машина использует функцию ранжирования для предсказания степени релевантности документа по отношению к конкретному запросу. Функция ранжирования берет многочисленные признаки из документа в качестве входных данных и вычисляет число, которое предоставляет поисковой машине возможность сортировать документ по предсказанной релевантности.

Качество функции ранжирования в отношении того, насколько точно функция предсказывает релевантность документа, в конечном счете, определяется удовлетворением пользователя результатами поиска или тем, сколько раз в среднем пользователь находит ответ на поставленный вопрос. Общая удовлетворенность пользователя системой может быть приближенно выражена одним числом (или метрикой), так как число может быть оптимизировано изменением функции ранжирования. Обычно метрики вычисляются на репрезентативном наборе запросов, которые выбраны наперед посредством случайной выборки регистрационных записей запросов, и включают в себя назначение меток релевантности каждому результату, возвращенному машиной для каждого из запросов оценки. Однако эти последовательности операций для ранжирования и релевантности документов по-прежнему неэффективны в предоставлении требуемых результатов.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Последующее представляет упрощенную сущность изобретения, для того чтобы обеспечить базовое понимание некоторых вариантов осуществления настоящего изобретения, описанных в материалах настоящей заявки. Эта сущность изобретения не является исчерпывающим обзором, и она не предназначена для идентификации ключевых/критических элементов или установления границ его объема. Ее единственная цель состоит в том, чтобы представить в упрощенном виде некоторые концепции в качестве вступления в более подробное описание, которое представлено позже.

Архитектура предусматривает механизм для извлечения информации о документе из документов, принятых в качестве результатов поиска на основании строки запроса, и вычисления расстояния редактирования между строкой данных и строкой запроса. Строка данных может быть кратким и точным описанием документа, полученным из информации о документе, например, такой как о TAUC (заголовок, текст привязки, URL) и щелчках кнопкой мыши. Расстояние редактирования применяется при определении релевантности документа в качестве части ранжирования результатов. Механизм улучшает релевантность результатов поиска ранжированием, совершаемым с применением набора связанных с близостью признаков для обнаружения ближайших соответствий всего запроса или части запроса.

Расстояние редактирования обрабатывается для оценки, насколько близка строка запроса к данному потоку данных, который включает в себя информацию о документе. Архитектура включает в себя разбиение во время индексации составных термов в URL для предоставления возможности более эффективного обнаружения термов запроса. Дополнительно, фильтрация во время индексации текста привязки используется для нахождения N самых лучших привязок одного или более документов-результатов. Использование информации о TAUC может вводиться в нейронную сеть (например, 2-уровневую) для улучшения метрик релевантности для ранжирования результатов поиска.

Для достижения вышеизложенных и связанных целей, некоторые иллюстративные аспекты описаны в материалах настоящей заявки в связи с последующим описанием и прилагаемыми чертежами. Эти аспекты, однако, указывают только на несколько различных способов, которыми могут применяться принципы, раскрытые в материалах настоящей заявки, и имеют намерением включать в себя все такие аспекты и эквиваленты. Другие преимущества и новые признаки станут очевидными из последующего подробного описания при рассмотрении совместно с чертежами.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 иллюстрирует реализуемую компьютером систему релевантности.

Фиг.2 иллюстрирует блок-схему последовательности операций способа примерного алгоритма сопоставления для вычисления расстояния редактирования.

Фиг.3 иллюстрирует обработку и формирование значений расстояния редактирования на основании строки запроса и строки данных с использованием модифицированного расстояния редактирования и алгоритма сопоставления.

Фиг.4 иллюстрирует еще один пример обработки и формирования значений расстояния редактирования на основании строки запроса и строки данных с использованием модифицированного расстояния редактирования и алгоритма сопоставления.

Фиг.5 иллюстрирует реализуемую компьютером систему релевантности, которая применяет нейронную сеть для содействия в формировании балльной оценки релевантности для документа.

Фиг.6 иллюстрирует типы данных, которые могут использоваться в информации о документе для определения расстояния редактирования между строкой запроса и строкой данных.

Фиг.7 иллюстрирует поток данных обработки во время индексации.

Фиг.8 иллюстрирует структурную схему, показывающую входные данные в нейронную сеть из последовательности операций индексации по фиг.7 для ранжирования результатов.

Фиг.9 иллюстрирует примерную реализацию системы нейронной сети, входных данных расстояния редактирования и необработанных входных данных признаков для вычисления с формированием результатов поиска.

Фиг.10 иллюстрирует способ определения релевантности документа из набора документов-результатов.

Фиг.11 иллюстрирует способ вычисления релевантности документа.

Фиг.12 иллюстрирует структурную схему вычислительной системы, работоспособной для выполнения обработки расстояния редактирования для ранжирования результатов поиска с использованием признаков TAUC в соответствии с раскрытой архитектурой.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Раскрытая архитектура улучшает релевантность результатов поиска ранжированием посредством реализации набора связанных с близостью признаков для обнаружения ближайших соответствий всего запроса или соответствий с точными метаданными о документе, такими как заголовки, привязки, URL или щелчки кнопкой мыши. Например, рассмотрим запрос «company store» («магазин компании»), заголовок документа «company store online» («онлайновый магазин компании») первого документа и заголовок документа «new NEC LCD monitors in company store» («новые ЖКИ-мониторы NEC в магазине компании») второго документа. При условии, что другие свойства одинаковы для обоих, первого и второго, документов, архитектура назначает балльную оценку для документа на основании того, сколько усилий по редактированию уделяется, чтобы заставить выбранный поток соответствовать запросу. В этом примере заголовок документа выбран для оценки. Заголовок первого документа требует всего лишь одной операции удаления (удалить терм «online» («онлайновый»)), чтобы создать полное соответствие, наряду с тем что заголовок второго документа требует пяти удалений (удалить термы «new» («новый»), «NEC», «LCD» («ЖКИ»), «monitors» («мониторы») и «in» («в»)). Таким образом, вычисляется, что первый документ должен быть более релевантным.

Заголовок является одним из элементов TAUC (заголовка, привязки, URL и щелчков кнопкой мыши) информации о документе, для которого обработка может применяться к некоторым потокам данных (например, URL), так что термы (условия) запроса могут быть найдены из составных термов. Например, вновь рассмотрим запрос «company store», и URL является «www.companystore.com». Результатом является то, что URL разбивается на четыре части (или терма): «www», «company», «store» и «com».

Далее даются ссылки на чертежи, на которых одинаковые ссылочные позиции используются для указания подобных элементов. В последующем описании, в целях пояснения, изложены многочисленные специфичные детали, чтобы обеспечить его исчерпывающее понимание. Однако может быть очевидно, что новые варианты осуществления могут быть осуществлены на практике без этих специфичных деталей. В других случаях хорошо известные конструкции и устройства показаны в виде структурной схемы, для того чтобы облегчить их описание.

Фиг.1 иллюстрирует реализуемую компьютером систему 100 релевантности. Система 100 включает в себя компонент 102 обработки для извлечения информации 104 о документе из документа 106, принятого в качестве результатов 108 поиска на основании строки 110 запроса. Система 100 также может включать в себя компонент 112 близости для вычисления расстояния 114 редактирования между строкой 116 данных, извлеченной из информации 104 о документе, и строкой 110 запроса. Расстояние 114 редактирования применяется при определении релевантности документа 106 в качестве части результатов 108 поиска.

Информация 104 о документе, используемая для формирования строки 116 данных, например, может включать в себя информацию (или символы) о заголовке, информацию о гиперссылке (например, символы URL), информацию о потоке щелчков кнопкой мышки и/или текст (или символы) привязки. Компонент 102 обработки разбивает составные термы информации 104 о документе во время индексирования, чтобы вычислять расстояние 114 редактирования. Компонент 102 обработки также фильтрует информацию о документе, такую как текст привязки, во время индексирования для вычисления ранжированного в качестве самого лучшего набора текста привязки.

Вычисление расстояния 114 редактирования основано на вставке и удалении термов для увеличения близости (сближения) между строкой 116 данных и строкой 110 запроса. Вычисление расстояния 114 редактирования также может быть основано на затратах, ассоциированных с вставкой и удалением термов для увеличения близости (сближения) между строкой 116 данных и строкой 110 запроса.

Рассмотрим сценарий формирования строки 116 данных (например, TAUC) на основании вставки и/или удаления термов из строки 110 запроса. Эта обработка термов может выполняться согласно четырем операциям: вставить слово не из запроса в строку 110 запроса; вставить терм запроса в строку 110 запроса; удалить терм TAUC из строки 110 запроса и/или удалить терм не TAUC из строки 110 запроса.

Расстояние 114 редактирования основано на операциях вставки и удаления, но не замены. Может быть два типа затрат, определенных для вставки. Рассмотрим сценарий формирования строки 116 данных из строки 110 запроса. При формировании, в строку 110 запроса может быть вставлено слово, которое существует в исходной строке 110 запроса, в таком случае затраты определяется в качестве единицы; иначе, затраты определяется в качестве w1 (≥1). Здесь w1 - весовой параметр, который настраивается. Например, если строкой 110 запроса является AB, то затраты на формирования строки данных ABC выше, чем таковая у строки ABA данных. Интуиция такова, что вставка «нерелевантных слов» в строку 116 данных делает всю строку 116 данных (например, TAUC) более нерелевантной.

Может быть два типа затрат для удаления. Вновь рассмотрим сценарий формирования строки 116 данных из строки 110 запроса. При удалении терма в строке 110 запроса такой терм существует в исходной строке 116 данных, в таком случае затраты определяются как единица; иначе, затраты определяются как w2 (≥1).

Другим типом затрат являются затраты расположения. Если удаление или вставка происходят в первом расположении строки 116 данных, то есть дополнительные затраты (+w3). Интуитивно, соответствию в начале двух строк (строки 110 запроса и строки 116 данных) придается большая важность, чем более поздним соответствиям в строках. Рассмотрим следующий пример, где строкой 110 запроса является «cnn», строкой 116 данных является заголовок = «cnn.com -blur blur». Если вставка и удаление происходят в первом расположении, они могут значительно уменьшать результативность решения.

Фиг.2 иллюстрирует блок-схему последовательности операций способа примерного модифицированного алгоритма 200 сопоставления для вычисления расстояния редактирования. Хотя для простоты пояснения одна или более методологий, показанных здесь, например, в виде блок-схемы алгоритма или схемы последовательности операций, показаны и описаны как последовательность действий, должно быть понято и принято во внимание, что обобщенные способы не ограничены очередностью действий, так как некоторые действия могут, в соответствии с ним, происходить в ином порядке и/или одновременно с другими действиями из показанных и описанных в материалах настоящей заявки. Например, специалистам в данной области техники должно быть понятно, что обобщенный способ, в качестве альтернативы, мог бы быть представлен как последовательность взаимосвязанных состояний или событий, таких как на диаграмме состояний. Более того, не все действия, проиллюстрированные в обобщенном способе, могут требоваться для новой реализации.

На этапе 200 элементы строки запроса и строки (или целевой строки) данных, нумеруются. Это достигается посредством установки n как длины строки запроса (где каждый терм в строке запроса является s[i]), и установки m как длины целевой строки (или данных) (где каждый терм в целевой строке обозначен t[j]). На этапе 202 формируется матрица, которая содержит строки 0...m и столбцы 0...n (где каждый терм в матрице обозначен в качестве d[j,i]). На этапе 204 первая строка инициализируется значением, которое зависит от разных затрат на удаление, а первый столбец инициализируется значением, которое зависит от разных затрат вставки. На этапе 206, если n=0, то возвращается d[m, 0] и выполняется выход, а если m=0, то возвращается d[0, n] и выполняется выход, как указано в 208. На этапе 210 проверяется каждый символ строки запроса (i от 1 до n). На этапе 212 проверяется каждый символ целевой строки данных (j от 1 до m). На 214, если строка символов в строке запроса равна символу в строке данных, происходит переход к 216, причем затраты являются нулевыми, и обрабатывается следующий элемент матрицы. Другими словами, если s[i] равно t[j], затраты имеют значение 0 и d[j,i]=d[j-1,i-1].

Если символ в элементе строки запроса не равен символу в элементе строки данных, происходит переход от 214 к 218, где текущий элемент устанавливается в ближайший элемент сверху или ближайший элемент слева плюс затраты на вставку или удаление. Другими словами, если s[i] не равно t[j], элемент d[j,i] устанавливается равным минимуму из элемента непосредственно сверху плюс соответствующие затраты вставки, представленные посредством d[j-1,i]+cost_insertion, или элемента непосредственно слева плюс соответствующие затраты на удаление, представленные посредством d[j,i-1]+cost_deletion. На этапе 220 этапы 210, 212, 214, 216 и 218 повторяются до завершения. На этапе 222 выводятся заключительные затраты, найденные в элементе d[m, n]. Отметим, что как cost_insertion, так и cost_deletion в примере имеют две разновидности значений; например w1=1, w3=4 для затрат вставки и w2=1, w4=26 для затрат на удаления.

Другими словами, d[j,i] содержит расстояние редактирования между строками s[0..i] и t[0...j]. d[0,0]=0 по определению (никакие редактирования не нужны, чтобы сделать пустую строку равной пустой строке). d[0, y]=d[0,y-1]+(w2 или w4). Если известно, сколько редактирований используется, чтобы создать строку d[0,y-1], то d[0,y] может рассчитываться как d[0, y-1] + затраты на удаление текущего символа из целевой строки, каковыми затратами может быть w2 или w4. Затраты w2 используются, если текущий символ представлен в обеих, s[0...n], t[0...m]; а w4 в ином случае. d[x, 0]=d[x-1,0]+(w1 или w3). Если известно, сколько редактирований используется, чтобы создать строку d[x-1,0], то d[x,0] может рассчитываться как d[x-1,0] + затраты на вставку текущего символа из s в t, каковыми затратами могут быть w1 или w3. Затраты w1 используются, если текущий символ представлен в обеих, s[0...n], t[0...m]; а w3 в ином случае.

Для каждых (j,i), d[j,i] может быть равным d[j-1,i-1], если s[i]=t[j]. Расстояние редактирования может вычисляться между строками t[j-1], s[i-l], и если s[i]=t[j], общий символ может прикрепляться к обеим строкам, чтобы делать строки равными, не вызывая редактирований. Таким образом, есть три используемых перемещения, где выбирается перемещение, которое дает минимальное расстояние редактирования для текущего d[j,i]. Предложим еще один способ

d[j,i]=min(

d[j-1,i-1] if s[i]=t[j];

d[j-1,i]+(w1, если s[j] представлен в обеих строках; иначе, w3);

d[j,i-1]+(w2, если t[i] представлен в обеих строках; иначе, w4)

).

Фиг.3 иллюстрирует обработку и формирование значений расстояния редактирования на основании строки запроса и строки данных с использованием модифицированного расстояния редактирования и алгоритма сопоставления. Последовательность операций включает в себя одно или более из вычислений слева направо, сверху вниз и по диагонали. Строка запроса из термов «A B C» обрабатывается по сравнению с целевой строкой данных из термов «C B A X» (где X обозначает терм, не находящийся в строке запроса). Последовательность операций для вычисления расстояния редактирования может выполняться разными способами, однако специфичные детали для выполнения модифицированного варианта расстояния редактирования являются разными по вычислению согласно раскрытой архитектуре. Матрица 300 4×5 составляется на основании n×m, где n=3 для строки запроса, а m=4 для строки данных. Строка 302 запроса помещена по горизонтальной оси, а целевая строка 304 данных - по вертикальной оси матрицы 300.

Описание будет использовать матрицу 300, обозначенную четырьмя столбцами (0-3) и пятью строками (0-4). Применяя алгоритм сопоставления расстояния редактирования, описанный на фиг.2, слева направо, начиная в строке 0, столбце 0, элемент d[0,0] пересечения принимает «0», поскольку сравнение пустого элемента строки ABC запроса с пустым элементом целевой строки CBAX данных не вызывает вставку или удаление терма, чтобы сделать строку запроса такой же, как целевая строка данных. «Термы» («terms») одинаковы, значит расстояние редактирования является нулевым.

Перемещение вправо для сравнения терма A строки 302 запроса с пустым элементом строки 0 использует одно удаление, чтобы сделать строки одинаковыми; таким образом, элемент d[0,1] принимает значение «1». Вновь перемещаясь вправо в столбец 2, далее производится сравнение между термами AB строки 302 запроса с пустым элементом столбца целевой строки данных. Таким образом, два удаления в строке 302 запроса используется, чтобы сделать строки идентичными, давая в результате расстояние редактирования «2», помещаемое в элемент d[0,2]. Такая же последовательность операций применяется к столбцу 3, где термы ABC строки 302 запроса сравниваются с пустым элементом в столбце целевой строки, с использованием трех удалений, чтобы сделать строки тождественными, давая в результате расстояние редактирования «3» в элементе d[0,3].

Опускаясь в строку 1 и продолжая слева направо, пустой элемент в строке строки запроса сравнивается с первым термом C целевой строки 304 данных. Одно удаление используется, чтобы сделать строки одинаковыми, с расстоянием редактирования «1» в d[1,0]. С перемещением вправо в столбец 1, производится сравнение между термом A строки 302 запроса с термом C целевой строки 304 данных. Удаление и вставка используются, чтобы сделать строки тождественными, таким образом, значение «2» вставляется в элемент d[1,1]. Перескакивая на последний элемент d[1,3], последовательность операций сопоставления для сопоставления ABC с C дает в результате использование двух удалений для расстояния редактирования «2» в элементе d[1,3]. Перемещаясь в строку 4 и столбец 3 для краткости и чтобы найти полное расстояние редактирования, сопоставление термов ABC с термами CBAX имеет следствием расстояние редактирования «8» в элементе d[4,3], использующее вставку/удаление в первом терме C целевой строки на значение «2», значение «0» для соответствия между термами B, вставку/удаление для соответствия третьего терма C и A на значение «2», вставку терма X на значение «1» и значение «3» для затраты расположения, давая в результате окончательное значение расстояния редактирования «8» в элементе d[4,3].

Фиг.4 иллюстрирует еще один пример обработки и формирования значений расстояния редактирования на основании строки запроса и целевой строки данных с использованием модифицированного расстояния редактирования и алгоритма сопоставления. Здесь формируется матрица 400 для сравнения строки 402 запроса ABC с целевой строкой 404 данных AB на основании взвешенных значений для cost_jnsertion w1=1, w3=4 для затрат на вставку, а также w2=1 и w4=26 для затрат на удаление. Другими словами, обрабатывая строку 0 слева направо, сопоставление терма A строки 402 запроса с пустым элементом перед целевой строкой 404 дает в результате одну вставку в целевой строке 404 терма A для элемента d[0,1] со значением «1». Сопоставление термов AB строки 402 запроса с пустым элементом перед целевой строкой 404 дает в результате две вставки в целевой строке 404 термов AB для элемента d[0,2] со значением «2», а сопоставление термов ABC строки 402 запроса с пустым элементом перед целевой строкой 404 дает в результате значение двух вставок в целевой строке 404 термов AB плюс значение w4=26 для терма C, что касается значения «28» в элементе d[0,3], поскольку терм C не находится в обеих строках.

Обрабатывая строку 1 слева направо (с пониманием, что d[1,0]=1), сопоставление терма A строки 402 запроса с термом A целевой строки 404 дает в результате одинаковость в целевой строке 404 и строке 402 запроса для значения «0» в элементе d[1,1], принимая значение из d[j-1,i-1]=d[0,0]=«0». Сопоставление термов AB строки 402 запроса с термом A целевой строки 404 имеет следствием одну вставку в целевой строке 404 для терма B для элемента d[1,2] с минимальным значением «1». Сопоставление термов ABC строки 402 запроса с термом A целевой строки 404 для элемента d[1,3] дает в результате минимальное значение, ассоциативно связанное со значением d[j-1,i]=d[0,3] плюс w3, что касается значения «28» в элементе d[1,3], сравненного со значением d[j,i-1]=d[1,2] на 1 плюс 26 для 27, поскольку терм C не находится в обеих строках, давая в результате минимальное значение «27» в d[1,3].

Обрабатывая строку 2 слева направо, сопоставление терма A строки 402 запроса с термами AB целевой строки 404 дает в результате удаление в целевой строке 404 для значения «1» в элементе d[2,1]. Сопоставление термов AB строки 402 запроса с термами AB целевой строки 404 ради расстояния в элементе d[2,2] дает в результате равенство, тем самым вытягивая значение из d[j-1,i-1]=d[1,1] в качестве значения «0» для элемента d[2,2]. Сопоставление термов ABC строки 402 запроса с термом AB целевой строки 404 для элемента d[2,3] дает в результате минимальное значение, ассоциативно связанное со значением d[j-1,i]=d[2,1]=27 плюс w3, что касается значения «28», подвергнутого сравнению, поскольку терм C не находится в целевой строке (также на основании значения d[i,j-1]=d[2,2]=0 плюс 26 для 26, поскольку терм C не находится в обеих строках), для минимального значения «26» в d[2,3].

Фиг.5 иллюстрирует реализуемую компьютером систему 500 релевантности, которая применяет нейронную сеть 502 для содействия в формировании балльной оценки 504 релевантности для документа 106. Система 500 включает в себя компонент 102 обработки для извлечения информации 104 о документе из документа 106, принятого в качестве результатов 108 поиска на основании строки 110 запроса, и компонент 112 близости для вычисления расстояния 114 редактирования между строкой 116 данных, извлеченной из информации 104 о документе, и строкой 110 запроса. Расстояние 114 редактирования применяется при определении релевантности документа 106 в качестве части результатов 108 поиска.

Нейронная сеть 502 может использоваться для приема информации 104 о документе в качестве входных данных для вычисления балльной оценки релевантности для документа 106. Исключительно или частично на основании балльных оценок релевантности для некоторых или всех из результатов 108 поиска документы в результатах 108 поиска могут ранжироваться. Система 500 применяет нейронную сеть 502 и основание кода для формирования балльной оценки релевантности для ранжирования ассоциативно связанного документа в результатах 108 поиска.

Последующее является описанием алгоритма расстояния редактирования для расчета расстояния редактирования между строкой запроса и каждой из строк данных, чтобы получать балльную оценку TAUC для каждой пары.

Так как в документе есть только один заголовок, балльная оценка TAUC может рассчитываться по отношению к заголовку, как изложено ниже:

TAUC(Title)=ED(Title),

где TAUC(Title) используется позже в качестве входных данных в нейронную сеть после применения функции преобразования, ED(Title) - расстояние редактирования заголовка.

Может иметься множество экземпляров текста привязки для документа, а также URL и щелчков кнопкой мыши (где щелчок кнопкой мыши является ранее выполненным запросом, для которого этот документ выбирался щелчком кнопкой мыши). Идея состоит в том, что этот документ является более релевантным для подобных запросов. Во время индексации выбираются N текстов привязки, имеющих наивысшие частоты. Затем балльная оценка ED рассчитывается для каждой выбранной привязки. В заключение балльная оценка TAUC определяется для привязки, как изложено ниже:

TAUC(Anchor)=Min{ED(Anchor i)} i: N самых лучших привязок.

Интуиция такова, что если существует хорошее соответствие с одной из привязок, то оно является достаточным. TAUC(Anchor) используется в качестве входных данных нейронной сети после применения функции преобразования.

Специальная обработка используется перед расчетом ED для строк URL. Во время индексации строки URL разбиваются на части с использованием набора символов в качестве разделителей. Затем термы отыскиваются в каждой части из словаря термов заголовка и привязки. Каждое появление терма из словаря сохраняется в индексе с расположением, измеренным в символах от начала строки URL.

Во время запроса все появления термов запроса считываются из индекса, сохраненного во время индексации, и разрывы заполняются термами «non-query» («не из запроса»). После этой обработки рассчитывается ED. Результат обработки ED является входными данными нейронной сети после применения функции преобразования.

Еще одним свойством, которое может обрабатываться, является количество «щелчков кнопкой мыши» («clicks»), которые пользователь вводит для данного информационного наполнения документа. Каждый раз, когда пользователь щелкает кнопкой мыши на документе, поток вводится в базу данных и ассоциативно связывается с документом. Эта последовательность операций также может применяться к потоковым данным в тексте информации о документе, таким как короткие потоки данных.

Алгоритм обработки URL во время индексации разбивает целый URL на части с использованием набора символов в качестве разделителей. Функция разбиения также устанавливает urlpart.startpos в расположение части в исходной строке. Функция разбиения выполняет фильтрацию незначащих частей URL.

Например, «http://www.companymeeting.com/index.html» фильтруется в «companymeeting/index» и разбивается на «companymeeting» («собрание компании») и «index» («индекс»).

Startpos: 0

Urlparts = split (url, dictionary)

// найти термы в разных частях url

For each (term in dictionary)

{

Int pos = 0;

For each (urlpart in urlparts)

{

pos = urlpart.Find (term, pos);

while (pos >= 0)

{

// parts_separator (разделитель частей) используется для распознавания разных частей во время запроса

storeOccurrence(term, pos + urlpart.startpos*parts_separator);

pos = url.Find(term, pos + term.length);

}

}

setIndexStreamLength(parts_separator * urlparts.Count);

}

При условии, что словарь содержит в себе «company meeting comp» («контрамарка собрания компании»), могут быть сгенерированы следующие ключи: Company: 0; Meeting: 7 и Comp: 0. Общей длиной строки является parts_separator*2 (разделитель_частей*2).

Что касается обработки во время запроса перед ED, во время запроса считываются появления термов запроса, строка термов запроса, сконструированная в порядке появления в исходной строке URL, и пробел между термами заполняется словесными маркерами «non-query». Например, рассмотрим строку запроса «company policy» («политика компании») и получающуюся в результате строку «company» «non-query term» «policy» «non-query term» («политика» «терм не из запроса» «компании» «терм не из запроса»).

Разделитель частей, расположения термов запроса и длина потока определяются, чтобы знать, сколько частей в исходной строке URL и какая часть содержит в себе данный запрос. Считается, что каждая часть без термов должна содержать в себе «non-query term». Если часть не начинается с терма запроса, «non-query term» вставляется перед термом. Все пробелы между термами запроса заполняются «non-query term».

Фиг.6 иллюстрирует типы данных, которые могут использоваться в информации 104 о документе для определения расстояния редактирования между строкой запроса и строкой данных. Информация 104 о документе может включать в себя данные 602 TAUC, такие как текст 604 заголовка, текст 606 привязки, текст или символы URL 608 и информация 610 о щелчках кнопкой мыши, например, для обработки компонентом 102 обработки и формирования строки 116 (или целевой строки) данных. Информация 104 о документе также может включать в себя информацию 610 о щелчках кнопкой мыши, имеющую отношение к количеству раз, которое пользователь щелкает кнопкой мыши на информационном наполнении документа, типу информационного наполнения, которое выбирает пользователь (посредством щелчка кнопкой мыши), количеству щелчков кнопкой мыши на информационном наполнении, документу в общем и т.д.

Фиг.7 иллюстрирует поток 700 данных обработки во время индексации. В верхней части информация о документе в виде информации о заголовке 604, привязках 606 документа, щелчках 610 кнопкой мыши и т.д. принимается на основании анализа и выборки документа. Заголовок 604 обрабатывается посредством алгоритма 704 разбиения термов, а затем в отношении словаря 706. Словарь 706 является временным хранилищем разных термов, найденных в информации о заголовке 604, привязках 606, щелчках 610 кнопкой мыши и т.д. Словарь 706 используется для разбиения URL 608 с помощью алгоритма 708 разбиения URL. Выходные данные алгоритма 708 разбиения URL отправляются в последовательность 710 операций индексации для обработки релевантности и ранжирования. Привязки 606 документа также могут обрабатываться посредством фильтра 712 ради N самых лучших привязок. Информация 610 о щелчках кнопкой мыши может обрабатываться непосредственно с помощью последовательности 710 операций индексации. Другая информация о документе может обрабатываться соответствующим образом (например, разбиением термов, фильтрацией и т.д.).

Фиг.8 иллюстрирует структурную схему 800, показывающую входные данные в нейронную сеть из последовательности 710 операций индексации по фиг.7 для ранжирования результатов. Последовательность 710 операций индексации может использоваться для вычисления расстояния 802 редактирования (ED) URL относительно строки 110 запроса, ED 804 N самых лучших привязок относительно строки 110 запроса, ED 808 щелчков кнопкой мыши относительно строки 110 запроса, а также других признаков 810, не имеющих отношения к расстоянию редактирования, некоторые или все из которых (ED 802 URL, ED 804 N самых лучших привязок, ED 806 заголовка, ED 808 щелчков кнопкой мыши и другие признаки 810) могут применяться в качестве входных данных в нейронную сеть 502, чтобы, в конечном счете, находить балльную оценку релевантности для ассоциативно связанного документа, а затем ранжирования документа среди других результатов поиска документов. Нейронная сеть 502 может быть 2-уровневой моделью, которая принимает, по меньшей мере, признаки TAUC в качестве необработанных входных признаков, которые вносят вклад в идентификацию релевантности документа. Нейронная сеть определяет, как эти признаки комбинируются в одиночное число, которое может использоваться для сортировки поисковой машиной.

Должно быть принято во внимание, что нейронная сеть 502 является только одним примером математических или вычислительных моделей, которые могут применяться для обработки релевантности и ранжирования. Могут применяться другие разновидности статистической регрессии, которые могут использоваться, такие как простой подход Байеса, байесовские сети, деревья решений, модели нечеткой логики, и могут использоваться другие модели статистической классификации, представляющие разные формы независимости, где классификация является включающей в себя способы, используемые для назначения ранга и/или приоритета.

Фиг.9 иллюстрирует примерную реализацию системы 900 нейронной сети 502, входных данных расстояния редактирования и необработанных входных данных признаков для вычисления с формированием результатов поиска. Набор необработанных признаков 810 ранжирования на входе(ах) нейронной сети 502 может включать в себя функцию 902 BM25 (например, BM25F), расстояние 904 щелчков кнопкой мыши, глубину 906 URL, типы 908 файлов и языковое соответствие 910. Компоненты BM25, например, могут включать в себя тело, заголовок, автора, текст привязки, наименование отображения URL, извлеченный заголовок.

Фиг.10 иллюстрирует способ определения релевантности. На этапе 1000 строка запроса принимается в качестве части процесса поиска (1000). На этапе 1002 информация о документе извлекается из документа, возвращенного в течение процесса поиска. На этапе 1004 строка данных формируется из информации о документе. На этапе 1006 вычисляется расстояние редактирования между строкой данных и строкой запроса. На этапе 1008 балльная оценка релевантности рассчитывается на основании расстояния редактирования.

Другие аспекты способа могут включать в себя применение вставки терма в качестве части вычисления расстояния редактирования и оценку затрат на вставку терма в строке запроса для формирования строки данных, затраты представлены в качестве весового параметра. Способ дополнительно может содержать применение удаления терма в качестве части вычисления расстояния редактирования, и оценивают затраты на удаление терма в строке запроса для формирования строки данных, затраты представлены в качестве весового параметра. Затраты на расположения могут вычисляться в качестве части вычисления расстояния редактирования, затраты на расположение ассоциативно связаны с вставкой терма и/или удалением терма у расположения терма в строке данных. Дополнительно, последовательность операций сопоставления выполняется между символами строки данных и символами строки запроса для вычисления общих затрат вычисления расстояния редактирования.

Разбиение составных термов URL строки данных может происходить во время индексации. Способ дополнительно может содержать фильтрацию текста привязки строки данных, чтобы находить ранжированный самым лучшим набор текста привязки на основании частоты появления в документе и вычисление балльной оценки расстояния редактирования для текста привязки в наборе. Балльная оценка расстояния редактирования, полученная из вычисления расстояния редактирования, может вводиться в двухуровневую нейронную сеть после применения функции преобразования, балльная оценка вырабатывается на основании расчета расстояния редактирования, ассоциативно связанного с, по меньшей мере, одной из информации о заголовке, информации о привязке, информации о щелчках кнопкой мыши или информации об URL.

Фиг.11 иллюстрирует способ вычисления релевантности документа. На этапе 1100 строка запроса обрабатывается в качестве части процесса поиска для возврата результирующего набора документов. На этапе 1102 строка данных формируется на основании информации о документе, извлеченной из документа результирующего набора, информация о документе включает в себя одну или более из информации о заголовке, информации о тексте привязки, информации о щелчках кнопкой мыши и информации об URL из документа. На этапе 1104 вычисляется расстояние редактирования между строкой данных и строкой запроса на основании вставки терма, удаления терма и расположения терма. На этапе 1106 балльная оценка релевантности рассчитывается на основании расстояния редактирования, балльная оценка релевантности используется для ранжирования документа в результирующем наборе.

Способ дополнительно может содержать вычисление затрат, ассоциативно связанных с каждым из терма вставки, удаления терма и расположения терма, и включение затрат в вычисление балльной оценки релевантности, а также разбиение составных термов информации об URI во время индексации и фильтрацию информации о тексте привязки во время индексации, чтобы находить ранжированный самым лучшим набор текста привязки на основании частоты появления текста привязки в документе. Считывание появлений термов строки запроса может выполняться для составления строки термов запроса в порядке появления в исходной строке URL и заполнения пробела между термами словесными маркерами.

В качестве используемых в этой заявке, термины «компонент» и «система» предназначены для указания ссылкой на связанную с компьютером сущность, любую из аппаратных средств, комбинации аппаратных средств и программного обеспечения, программного обеспечения или программного обеспечения в ходе выполнения. Например, компонент может быть, но не в качестве ограничения, процессом, работающим на процессоре, процессором, накопителем на жестком диске, многочисленными запоминающими накопителями (оптического и/или магнитного запоминающего носителя), объектом, исполняемым файлом, потоком управления, программой и/или компьютером. В качестве иллюстрации, как приложение, работающее на сервере, так и сервер могут быть компонентом. Один или более компонентов могут находиться в пределах процесса и/или потока управления, и компонент может быть локализован на одном компьютере и/или распределен между двумя или более компьютерами.

Далее, со ссылкой на фиг.12 проиллюстрирована структурная схема вычислительной системы 1200, работоспособной для выполнения обработки расстояния редактирования для ранжирования результатов поиска с использованием признаков TAUC в соответствии с раскрытой архитектурой. Для того чтобы обеспечить дополнительный контекст для его различных аспектов, фиг.12 и последующее обсуждение предназначены для предоставления краткого общего описания пригодной вычислительной системы 1200, в которой могут быть реализованы различные аспекты изобретения. Хотя описание, приведенное выше, находится в общем контексте машинно-исполняемых команд, которые могут работать на одном или более компьютерах, специалистам в данной области техники должно быть понятно, что новый вариант осуществления также может быть реализован в сочетании с другими программными модулями и/или в качестве комбинации аппаратных средств и программного обеспечения.

Как правило, программные модули включают в себя процедуры, программы, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или реализуют конкретные абстрактные типы данных. Более того, специалистам в данной области техники должно быть понятно, что обладающие признаками изобретения способы могут быть осуществлены на практике с другими конфигурациями компьютерных систем, в том числе однопроцессорными или многопроцессорными компьютерными системами, мини-компьютерами, универсальными электронно-вычислительными машинами, а также персональными компьютерами, карманными вычислительными устройствами, основанной на микропроцессорах и/или программируемой бытовой электроникой и тому подобным, каждое из которых может быть оперативно присоединено к одному или более ассоциированным устройствам.

Проиллюстрированные аспекты также могут быть осуществлены на практике в распределенных вычислительных средах, где определенные задачи выполняются удаленными устройствами обработки, которые связаны через сеть передачи данных. В распределенной вычислительной среде, программные модули могут быть расположены как в локальном, так и в удаленном запоминающих устройствах памяти.

Компьютер обычно включает в себя многообразие машиночитаемых носителей. Машиночитаемые носители могут быть любыми имеющимися в распоряжении носителями, к которым может быть осуществлен доступ компьютером, и включают в себя энергозависимые и энергонезависимые носители, съемные и несъемные носители. В качестве примера, а не ограничения, машиночитаемые носители могут содержать компьютерные запоминающие носители и среду связи. Компьютерные запоминающие носители включают в себя энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или технологией для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные запоминающие носители включают в себя, но не в качестве ограничения, ОЗУ (оперативное запоминающее устройство, RAM), ПЗУ (постоянное запоминающее устройство, ROM), ЭСППЗУ (электрически стираемое программируемое ПЗУ, EEPROM), флэш-память или другую технологию памяти, CD-ROM (ПЗУ на компакт диске), цифровой видеодиск (DVD) или другое оптическое дисковое запоминающее устройство, магнитные кассеты, магнитную ленту, накопитель на магнитных дисках или другие магнитные запоминающие устройства или любой другой носитель, который может быть использован для хранения требуемой информации и к которому может быть осуществлен доступ компьютером.

Согласно фиг.12, примерная вычислительная система 1200 для реализации различных аспектов включает в себя компьютер 1202, имеющий блок 1204 обработки данных, системную память 1206 и системную шину 1208. Системная шина 1208 предоставляет интерфейс для компонентов системы, в том числе, но не в качестве ограничения, системной памяти 1206 к блоку 1204 обработки данных. Блок 1204 обработки данных может быть любым из различных доступных для коммерческого приобретения процессоров. Двухмикропроцессорные и другие многопроцессорные архитектуры также могут применяться в качестве блока 1204 обработки данных.

Системная шина 1208 может иметь любой из нескольких типов шинных структур, которые, кроме того, могут присоединяться к шине памяти (с контроллером памяти или без него), периферийной шине и локальной шине с использованием любой из многообразия доступных для коммерческого приобретения шинных архитектур. Системная память 1206 может включать в себя энергонезависимую память 1210 (NON-VOL) и/или энергозависимую память 1212 (например, оперативное запоминающее устройство (ОЗУ)). Базовая система ввода/вывода (BIOS) может храниться в энергонезависимой памяти 1210 (например, ПЗУ, СППЗУ (стираемом программируемом ПЗУ, EPROM), ЭСППЗУ и т.д.), такая BIOS является базовыми процедурами, которые помогают передавать информацию между элементами в пределах компьютера 1202, к примеру, во время запуска. Энергозависимая память 1212 также может включать в себя высокоскоростное ОЗУ, такое как статическое ОЗУ для кэширования данных.

Компьютер 1202, кроме того, включает в себя внутренний накопитель 1214 на жестком магнитном диске (HDD) (например, EIDE (усовершенствованных электронных схем управления встроенным дисководом), SATA (последовательного подключения улучшенной технологии), причем внутренний HDD 1214 также может быть сконфигурирован для внешнего использования в подходящем шасси, накопитель 1216 на гибких магнитных дисках (FDD) (например, для считывания с или записи на съемную дискету 1218) и накопитель 1220 на оптических дисках (например, считывающий диск 1222 CD-ROM или для считывания с или записи на другие оптические носители большой емкости, такие как DVD). HDD 1214, FDD 1216 и накопитель 1220 на оптических дисках могут быть присоединены к системной шине 1208 посредством интерфейса 1224 HDD, интерфейса 1226 FDD и интерфейса 1228 накопителя на оптических дисках, соответственно. Интерфейс 1224 HDD для реализаций с внешним накопителем может включать в себя, по меньшей мере, одну или обе из интерфейсных технологий универсальной последовательной шины (USB) и стандарта IEEE 1394 (Института инженеров по электротехнике и электронике).

Накопители и ассоциированные машиночитаемые носители обеспечивают энергонезависимое хранение данных, структур данных, машинно-исполняемых команд и так далее. Что касается компьютера 1202, накопители и носители обеспечивают хранение данных в подходящем цифровом формате. Хотя описание машиночитаемых носителей, приведенное выше, ссылается на HDD, съемную магнитную дискету (например, FDD) и съемные оптические диски, такие как CD или DVD, специалистами в данной области техники должно быть принято во внимание, что другие типы носителей, которые являются дающими возможность считывания компьютером, такие как zip-дисководы, магнитные кассеты, карты флэш-памяти, картриджи и тому подобное, также могут использоваться в примерной операционной среде, а кроме того, что любые такие носители могут содержать исполняемые компьютером команды для выполнения новых способов раскрытой архитектуры.

Некоторое количество программных модулей может храниться в накопителях и энергозависимой памяти 1212, в том числе операционная система 1230, одни или более прикладных программ 1232, других программных модулей 1234 и данных 1236 программ. Одни или более прикладных программ 1232, других программных модулей 1234 и данных 1236 программ могут включать в себя систему 100 и ассоциированные блоки, систему 500 и ассоциированные блоки, информацию 104 о документе, данные 602 TAUC, информацию 610 о щелчках кнопкой мыши, поток 700 данных (и алгоритмы) и структурную схему 800 (и ассоциированные блоки).

Взятые в целом или части операционной системы, приложений, модулей и/или данных также могут кэшироваться в энергозависимой памяти 1212. Должно быть принято во внимание, что раскрытая архитектура может быть реализована с различными доступными для коммерческого приобретения операционными системами или комбинациями операционных систем.

Пользователь может вводить команды и информацию в компьютер 1202 через одно или более проводных/беспроводных устройств ввода, например, клавиатуру 1238 и координатно-указательное устройство, такое как мышь 1240. Другие устройства ввода (не показаны) могут включать в себя микрофон (инфракрасный, IR) ИК-пульт дистанционного управления, джойстик, игровую панель, стило, сенсорный экран или тому подобное. Эти и другие устройства ввода часто присоединены к блоку 1204 обработки данных через интерфейс 1242 устройств ввода, который присоединен к системной шине 1208, но могут быть присоединены посредством других интерфейсов, таких как параллельный порт, последовательный порт стандарта IEEE 1394, игровой порт, порт USB, ИК-интерфейс и т.д.

Монитор 1244 или другой тип устройства отображения также присоединен к системной шине 1208 через интерфейс, такой как видеоадаптер 1246. В дополнение к монитору 1244, компьютер типично включают в себя другие периферийные устройства вывода (не показаны), такие как динамики принтеры и т.д.

Компьютер 1202 может работать в сетевой среде с использованием логических соединений через проводную или беспроводную связь с одним или более удаленными компьютерами, такими как удаленный компьютер 1248. Удаленный компьютер 1248 может быть рабочей станцией, серверным компьютером, маршрутизатором, персональным компьютером, портативным компьютером, основанным на микропроцессоре развлекательным бытовым прибором, одноранговым устройством или другим общим узлом сети и типично включает в себя многие или все из элементов, описанных касательно компьютера 1202, хотя, в целях краткости, проиллюстрированы только устройство 1250 памяти/хранения. Изображенные логические соединения включают в себя возможность проводного/беспроводного присоединения к локальной сети 1252 (LAN) и/или сети большего масштаба, например глобальной сети 1254 (WAN). Такие сетевые среды LAN и WAN обычны в офисах и компаниях и содействуют корпоративным компьютерным сетям, таким как интранет (локальная сеть, использующая технологии Интернет), все из которых могут присоединяться к глобальной сети передачи данных, например сети Интернет.

При использовании в сетевой среде LAN компьютер 1202 присоединен к LAN 1252 через интерфейс или адаптер 1256 проводной и/или беспроводной сети передачи данных. Адаптер 1256 может содействовать проводной или беспроводной передаче данных в LAN 1252, которая также может включать в себя беспроводную точку доступа, размещенную в ней, для поддерживания связи с беспроводными функциональными возможностями адаптера 1256.

При использовании в сетевой среде WAN компьютер 1202 может включать в себя модем 1258 или присоединяться к серверу связи в WAN 1254 или имеет другое средство для установления связи через WAN 1254, к примеру, в виде сети Интернет. Модем 1258, который может быть внутренним или внешним и проводным и/или беспроводным, присоединен к системной шине 1208 через интерфейс 1242 устройств ввода. В сетевой среде программные модули, изображенные касательно компьютера 1202, или их части могут храниться в удаленном устройстве 1250 памяти/хранения. Будет принято во внимание, что показанные сетевые соединения являются примерными и может быть использовано другое средство установления линии связи между компьютерами.

Компьютер 1202 действует для поддержания связи с проводными и беспроводными устройствами или сущностями, использующими семейство стандартов IEEE 802, такими как беспроводные устройства, оперативно размещенные на беспроводной связи (например, технологии эфирной модуляции стандарта IEEE 802.11), например, с принтерами, сканерами, настольным и/или портативным компьютером, персональным цифровым секретарем (PDA), спутником связи или любой единицей оборудования или местоположением, ассоциированным с обнаруживаемыми беспроводным способом ярлыками (например, телефонной будкой, газетным киоском, комнатой отдыха) и телефоном. Это включает в себя, по меньшей мере, беспроводные технологии Wi-Fi, WiMax и Bluetooth™. Таким образом, связь может быть предопределенной структурой, как с традиционной сетью, или просто эпизодической связью между, по меньшей мере, двумя устройствами. Сети Wi-Fi используют технологии радиосвязи, называемые IEEE 802.11x (a, b, g и т.д.), чтобы предоставлять возможность защищенного, надежного высокоскоростного беспроводного соединения. Сеть Wi-Fi может использоваться, чтобы присоединять компьютеры друг к другу, к сети Интернет и к проводным сетям (которые используют связанные со стандартом IEEE 802.3 среду и функции).

Выше описаны примеры раскрытой архитектуры. Конечно, невозможно описать каждое мыслимое сочетание компонентов и/или обобщенных способов, но рядовой специалист в данной области техники может осознать, что возможны многие дополнительные комбинации и перестановки. Соответственно, новейшая архитектура предназначена для охвата всех тех изменений, модификаций и вариантов, которые подпадают под сущность и объем прилагаемой формулы изобретения. Более того, в тех пределах, в которых термин «включает в себя» используется в подробном описании или формуле изобретения, такой термин подразумевается включающим некоторым образом, подобным тому, как термин «содержащий» интерпретируется в качестве «содержащего», когда используется в качестве переходного слова в формуле изобретения.

Claims (19)

1. Реализуемая компьютером система релевантности, содержащая:
компонент обработки для извлечения информации о документе из документов, принятых в качестве результатов поиска на основании строки запроса, причем информация о документе включает в себя, по меньшей мере, одно из символов заголовка, символов привязки, символов щелчка кнопкой мыши или символов унифицированного указателя ресурса (URL), и для формирования строки данных на основании информации о документе, извлеченной из документа результирующего набора;
компонент близости для вычисления расстояния редактирования между строкой данных и строкой запроса, причем расстояние редактирования применяется при определении релевантности документа в качестве части ранжирования результатов.
2. Система по п.1, в которой компонент обработки разбивает составные термы информации о документе во время индексации для вычисления расстояния редактирования относительно URL.
3. Система по п.1, в которой компонент обработки фильтрует текст привязки информации о документе во время индексации для вычисления ранжированного в качестве самого лучшего набора текста привязки.
4. Система по п.1, в которой информация о документе вводится в нейронную сеть наряду с необработанными входными признаками функции BM25F, расстоянием в щелчках кнопкой мыши, типом файла, языком и глубиной URL для вычисления релевантности документа.
5. Система по п.1, в которой вычисление расстояния редактирования основано на вставке и удалении термов для увеличения близости между строкой данных и строкой запроса.
6. Система по п.1, в которой вычисление расстояния редактирования основано на затратах, связанных с вставкой и удалением термов для увеличения близости между строкой данных и строкой запроса.
7. Реализуемый компьютером способ определения релевантности, содержащий этапы, на которых:
принимают строку запроса в качестве части процесса поиска;
извлекают информацию о документе из документа, возвращенного во время процесса поиска;
формируют строку данных из информации о документе;
вычисляют расстояние редактирования между строкой данных и строкой запроса, причем расстояние редактирования ассоциировано с, по меньшей мере, одной из информации о заголовке, информации о привязке, информации о щелчках кнопкой мыши или информации об URL и другими необработанными входными признаками; и
рассчитывают балльную оценку релевантности на основании расстояния редактирования.
8. Способ по п.7, дополнительно содержащий этап, на котором применяют вставку терма в качестве части вычисления расстояния редактирования и оценивают затраты на вставку для вставки терма в строке запроса для формирования строки данных, причем затраты представлены в качестве весового параметра.
9. Способ по п.7, дополнительно содержащий этап, на котором применяют удаление терма в качестве части вычисления расстояния редактирования и оценивают затраты на удаление для удаления терма в строке запроса для формирования строки данных, причем затраты представлены в качестве весового параметра.
10. Способ по п.7, дополнительно состоящий в том, что вычисляют затраты расположения в качестве части вычисления расстояния редактирования, причем затраты расположения связаны с вставкой терма и/или удалением терма у расположения терма в строке данных.
11. Способ по п.7, дополнительно содержащий этап, на котором выполняют процесс сопоставления между символами строки данных и символами строки запроса для вычисления общих затрат на вычисление расстояния редактирования.
12. Способ по п.7, дополнительно содержащий этап, на котором разбивают составные термы URL строки данных во время индексации.
13. Способ по п.7, дополнительно содержащий этап, на котором фильтруют текст привязки строки данных для нахождения ранжированного в качестве самого лучшего набора текста привязки на основании частоты появления в документе.
14. Способ по п.13, дополнительно содержащий этап, на котором вычисляют балльную оценку расстояния редактирования для текста привязки в упомянутом наборе.
15. Способ по п.7, дополнительно содержащий этап, на котором вводят балльную оценку, выведенную из вычисления расстояния редактирования, в двухуровневую нейронную сеть после применения функции преобразования.
16. Реализуемый компьютером способ вычисления релевантности документа, содержащий этапы, на которых:
обрабатывают строку запроса в качестве части процесса поиска для возврата результирующего набора документов;
формируют строку данных на основании информации о документе, извлеченной из документа результирующего набора, причем информация о документе включает в себя одну или более из информации о заголовке, информации о тексте привязки, информации о щелчках кнопкой мыши и информации об URL из документа;
вычисляют расстояние редактирования между строкой данных и строкой запроса на основании вставки терма, удаления терма и расположения терма; и
рассчитывают балльную оценку релевантности на основании расстояния редактирования, причем балльная оценка релевантности используется для ранжирования документа в результирующем наборе.
17. Способ по п.16, дополнительно содержащий этап, на котором вычисляют затраты, связанные с каждым из вставки терма, удаления терма и расположения терма, и учитывают затраты в вычислении балльной оценки релевантности.
18. Способ по п.16, дополнительно содержащий этап, на котором разбивают составные термы информации об URL во время индексации и фильтруют информацию о тексте привязки во время индексации для нахождения ранжированного в качестве самого лучшего набора текста привязки на основании частоты появления текста привязки в документе.
19. Способ по п.16, дополнительно содержащий этап, на котором считывают появления термов строки запроса для построения строки термов запроса в порядке появления в исходной строке URL и заполняют пробел между термами словесными маркерами.
RU2010141559A 2008-04-11 2009-03-10 Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе RU2501078C2 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US12/101,951 2008-04-11
US12101951 US8812493B2 (en) 2008-04-11 2008-04-11 Search results ranking using editing distance and document information
PCT/US2009/036597 WO2009126394A1 (en) 2008-04-11 2009-03-10 Search results ranking using editing distance and document information

Publications (2)

Publication Number Publication Date
RU2010141559A true RU2010141559A (ru) 2012-04-20
RU2501078C2 true RU2501078C2 (ru) 2013-12-10

Family

ID=41162189

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010141559A RU2501078C2 (ru) 2008-04-11 2009-03-10 Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе

Country Status (7)

Country Link
US (1) US8812493B2 (ru)
EP (1) EP2289007B1 (ru)
JP (1) JP5492187B2 (ru)
KR (1) KR101557294B1 (ru)
CN (1) CN101990670B (ru)
RU (1) RU2501078C2 (ru)
WO (1) WO2009126394A1 (ru)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8065310B2 (en) * 2008-06-25 2011-11-22 Microsoft Corporation Topics in relevance ranking model for web search
US20100312793A1 (en) * 2009-06-08 2010-12-09 International Business Machines Corporation Displaying relevancy of results from multi-dimensional searches using heatmaps
KR101141498B1 (ko) * 2010-01-14 2012-05-04 주식회사 와이즈넛 근접성 언어 모델을 이용한 정보 검색 방법
US20110184883A1 (en) * 2010-01-26 2011-07-28 Rami El-Charif Methods and systems for simulating a search to generate an optimized scoring function
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8788436B2 (en) 2011-07-27 2014-07-22 Microsoft Corporation Utilization of features extracted from structured documents to improve search relevance
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US9235654B1 (en) * 2012-02-06 2016-01-12 Google Inc. Query rewrites for generating auto-complete suggestions
WO2013148351A1 (en) * 2012-03-30 2013-10-03 Bmenu As System and method for analyzing an electronic documents
CN103077163B (zh) * 2012-12-24 2015-07-08 华为技术有限公司 数据预处理方法、装置及系统
JP5981386B2 (ja) * 2013-04-18 2016-08-31 日本電信電話株式会社 代表ページ選択装置及び代表ページ選択プログラム
KR101322123B1 (ko) * 2013-06-14 2013-10-28 인하대학교 산학협력단 교환 연산을 포함한 확장편집거리의 계산을 병렬적으로 수행하기 위한 방법
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
US9519859B2 (en) 2013-09-06 2016-12-13 Microsoft Technology Licensing, Llc Deep structured semantic model produced using click-through data
US9477654B2 (en) 2014-04-01 2016-10-25 Microsoft Corporation Convolutional latent semantic models and their applications
US9535960B2 (en) 2014-04-14 2017-01-03 Microsoft Corporation Context-sensitive search using a deep learning model
CN104572825A (zh) * 2014-12-04 2015-04-29 百度在线网络技术(北京)有限公司 信息的推荐方法和装置
CN107229701A (zh) * 2017-05-25 2017-10-03 腾讯科技(深圳)有限公司 排名更新方法、装置和计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2273879C2 (ru) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем

Family Cites Families (341)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369778A (en) 1987-08-21 1994-11-29 Wang Laboratories, Inc. Data processor that customizes program behavior by using a resource retrieval capability
US5226161A (en) 1987-08-21 1993-07-06 Wang Laboratories, Inc. Integration of data between typed data structures by mutual direct invocation between data managers corresponding to data types
US5222236A (en) 1988-04-29 1993-06-22 Overdrive Systems, Inc. Multiple integrated document assembly data processing system
US5321833A (en) 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
JP2937519B2 (ja) * 1991-03-08 1999-08-23 東芝コンピュータエンジニアリング株式会社 文書検索装置
US5257577A (en) 1991-04-01 1993-11-02 Clark Melvin D Apparatus for assist in recycling of refuse
WO1994012944A1 (en) 1992-11-23 1994-06-09 Paragon Concepts, Inc. Computer filing system with user selected categories to provide file access
US6202058B1 (en) 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
US5606609A (en) 1994-09-19 1997-02-25 Scientific-Atlanta Electronic document verification system and method
US5594660A (en) 1994-09-30 1997-01-14 Cirrus Logic, Inc. Programmable audio-video synchronization method and apparatus for multimedia systems
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5729730A (en) 1995-03-28 1998-03-17 Dex Information Systems, Inc. Method and apparatus for improved information storage and retrieval system
US5826269A (en) 1995-06-21 1998-10-20 Microsoft Corporation Electronic mail interface for a network server
US5933851A (en) 1995-09-29 1999-08-03 Sony Corporation Time-stamp and hash-based file modification monitor with multi-user notification and method thereof
US5974455A (en) 1995-12-13 1999-10-26 Digital Equipment Corporation System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table
US5855020A (en) 1996-02-21 1998-12-29 Infoseek Corporation Web scan process
US6314420B1 (en) 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
JP3113814B2 (ja) 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US5905866A (en) 1996-04-30 1999-05-18 A.I. Soft Corporation Data-update monitoring in communications network
US5828999A (en) 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US6038610A (en) 1996-07-17 2000-03-14 Microsoft Corporation Storage of sitemaps at server sites for holding information regarding content
EP0822502A1 (en) 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US5765150A (en) 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5745890A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US5920854A (en) 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5870739A (en) 1996-09-20 1999-02-09 Novell, Inc. Hybrid query apparatus and method
US5893116A (en) 1996-09-30 1999-04-06 Novell, Inc. Accessing network resources using network resource replicator and captured login script for use when the computer is disconnected from the network
US5870740A (en) 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
CN1107291C (zh) 1996-10-02 2003-04-30 日本电信电话株式会社 分层结构的图形显示方法及装置
JPH10124524A (ja) * 1996-10-23 1998-05-15 Toshiba Comput Eng Corp 文書検索装置及び文書検索方法
US5966126A (en) 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US5920859A (en) 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6415319B1 (en) 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US5890147A (en) 1997-03-07 1999-03-30 Microsoft Corporation Scope testing of documents in a search engine using document to folder mapping
US5848404A (en) 1997-03-24 1998-12-08 International Business Machines Corporation Fast query search in large dimension database
US6272507B1 (en) 1997-04-09 2001-08-07 Xerox Corporation System for ranking search results from a collection of documents using spreading activation techniques
US6256675B1 (en) 1997-05-06 2001-07-03 At&T Corp. System and method for allocating requests for objects and managing replicas of objects on a network
US6182067B1 (en) 1997-06-02 2001-01-30 Knowledge Horizons Pty Ltd. Methods and systems for knowledge management
US6029164A (en) 1997-06-16 2000-02-22 Digital Equipment Corporation Method and apparatus for organizing and accessing electronic mail messages using labels and full text and label indexing
US6012053A (en) 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
JPH1125104A (ja) 1997-06-30 1999-01-29 Canon Inc 情報処理装置および方法
JPH1125119A (ja) 1997-06-30 1999-01-29 Canon Inc ハイパーテキスト閲覧システム
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5983216A (en) 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6182113B1 (en) 1997-09-16 2001-01-30 International Business Machines Corporation Dynamic multiplexing of hyperlinks and bookmarks
US5956722A (en) 1997-09-23 1999-09-21 At&T Corp. Method for effective indexing of partially dynamic documents
US6999959B1 (en) 1997-10-10 2006-02-14 Nec Laboratories America, Inc. Meta search engine
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6070191A (en) 1997-10-17 2000-05-30 Lucent Technologies Inc. Data distribution techniques for load-balanced fault-tolerant web access
US6351467B1 (en) 1997-10-27 2002-02-26 Hughes Electronics Corporation System and method for multicasting multimedia content
US6128701A (en) 1997-10-28 2000-10-03 Cache Flow, Inc. Adaptive and predictive cache refresh policy
US6594682B2 (en) 1997-10-28 2003-07-15 Microsoft Corporation Client-side system for scheduling delivery of web content and locally managing the web content
US5991756A (en) 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
GB2331166B (en) 1997-11-06 2002-09-11 Ibm Database search engine
US5943670A (en) 1997-11-21 1999-08-24 International Business Machines Corporation System and method for categorizing objects in combined categories
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6473752B1 (en) 1997-12-04 2002-10-29 Micron Technology, Inc. Method and system for locating documents based on previously accessed documents
US6389436B1 (en) 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6145003A (en) 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US7010532B1 (en) 1997-12-31 2006-03-07 International Business Machines Corporation Low overhead methods and apparatus for shared access storage devices
US6151624A (en) 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
JP3998794B2 (ja) 1998-02-18 2007-10-31 株式会社野村総合研究所 ブラウジングクライアントサーバーシステム
KR100285265B1 (ko) 1998-02-25 2001-01-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
US6185558B1 (en) 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US5913210A (en) 1998-03-27 1999-06-15 Call; Charles G. Methods and apparatus for disseminating product information via the internet
US6125361A (en) 1998-04-10 2000-09-26 International Business Machines Corporation Feature diffusion across hyperlinks
US6151595A (en) 1998-04-17 2000-11-21 Xerox Corporation Methods for interactive visualization of spreading activation using time tubes and disk trees
US6167402A (en) 1998-04-27 2000-12-26 Sun Microsystems, Inc. High performance message store
US6240407B1 (en) 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
US6098064A (en) 1998-05-22 2000-08-01 Xerox Corporation Prefetching and caching documents according to probability ranked need S list
US6285367B1 (en) 1998-05-26 2001-09-04 International Business Machines Corporation Method and apparatus for displaying and navigating a graph
US6182085B1 (en) 1998-05-28 2001-01-30 International Business Machines Corporation Collaborative team crawling:Large scale information gathering over the internet
US6208988B1 (en) 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
CA2334616A1 (en) 1998-06-08 1999-12-16 Ilia Kaufman Method and system for retrieving relevant documents from a database
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6216123B1 (en) 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
JP3665480B2 (ja) 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
US6638314B1 (en) 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
US6424966B1 (en) 1998-06-30 2002-07-23 Microsoft Corporation Synchronizing crawler with notification source
US6199081B1 (en) 1998-06-30 2001-03-06 Microsoft Corporation Automatic tagging of documents and exclusion by content
CN1324464A (zh) 1998-08-26 2001-11-28 西姆泰克有限公司 映射数据文件的方法和设备
US6324551B1 (en) 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
RU2138076C1 (ru) 1998-09-14 1999-09-20 Закрытое акционерное общество "МедиаЛингва" Система поиска информации в компьютерной сети
US6115709A (en) 1998-09-18 2000-09-05 Tacit Knowledge Systems, Inc. Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions
US6549897B1 (en) 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US6360215B1 (en) 1998-11-03 2002-03-19 Inktomi Corporation Method and apparatus for retrieving documents based on information other than document content
US6385602B1 (en) 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US20030069873A1 (en) 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
US6628304B2 (en) 1998-12-09 2003-09-30 Cisco Technology, Inc. Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
JP2000194713A (ja) * 1998-12-25 2000-07-14 Nippon Telegr & Teleph Corp <Ntt> 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体
US6922699B2 (en) 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6418433B1 (en) 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
JP3347088B2 (ja) 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
US6510406B1 (en) 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6862710B1 (en) 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6763496B1 (en) 1999-03-31 2004-07-13 Microsoft Corporation Method for promoting contextual information to display pages containing hyperlinks
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6336117B1 (en) 1999-04-30 2002-01-01 International Business Machines Corporation Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine
US6327590B1 (en) 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US7835943B2 (en) 1999-05-28 2010-11-16 Yahoo! Inc. System and method for providing place and price protection in a search result list generated by a computer network search engine
US6990628B1 (en) 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US7072888B1 (en) 1999-06-16 2006-07-04 Triogo, Inc. Process for improving search engine efficiency using feedback
US6973490B1 (en) 1999-06-23 2005-12-06 Savvis Communications Corp. Method and system for object-level web performance and analysis
US6631369B1 (en) 1999-06-30 2003-10-07 Microsoft Corporation Method and system for incremental web crawling
US6547829B1 (en) 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
US6873982B1 (en) 1999-07-16 2005-03-29 International Business Machines Corporation Ordering of database search results based on user feedback
US6557036B1 (en) 1999-07-20 2003-04-29 Sun Microsystems, Inc. Methods and apparatus for site wide monitoring of electronic mail systems
US7181438B1 (en) 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US6598047B1 (en) 1999-07-26 2003-07-22 David W. Russell Method and system for searching text
CA2279119C (en) 1999-07-29 2004-10-19 Ibm Canada Limited-Ibm Canada Limitee Heuristic-based conditional data indexing
US6442606B1 (en) 1999-08-12 2002-08-27 Inktomi Corporation Method and apparatus for identifying spoof documents
US6636853B1 (en) 1999-08-30 2003-10-21 Morphism, Llc Method and apparatus for representing and navigating search results
US6381597B1 (en) 1999-10-07 2002-04-30 U-Know Software Corporation Electronic shopping agent which is capable of operating with vendor sites which have disparate formats
US7346604B1 (en) 1999-10-15 2008-03-18 Hewlett-Packard Development Company, L.P. Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope
US6687698B1 (en) 1999-10-18 2004-02-03 Fisher Rosemount Systems, Inc. Accessing and updating a configuration database from distributed physical locations within a process control system
WO2001031500A1 (en) 1999-10-29 2001-05-03 British Telecommunications Public Limited Company Method and apparatus for processing queries
US6351755B1 (en) 1999-11-02 2002-02-26 Alta Vista Company System and method for associating an extensible set of data with documents downloaded by a web crawler
US6263364B1 (en) 1999-11-02 2001-07-17 Alta Vista Company Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness
US6418452B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service directory for efficient web crawling
US6418453B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6539376B1 (en) 1999-11-15 2003-03-25 International Business Machines Corporation System and method for the automatic mining of new relationships
US7016540B1 (en) 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6886129B1 (en) 1999-11-24 2005-04-26 International Business Machines Corporation Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages
US6772141B1 (en) 1999-12-14 2004-08-03 Novell, Inc. Method and apparatus for organizing and using indexes utilizing a search decision table
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US7240067B2 (en) 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US6931397B1 (en) 2000-02-11 2005-08-16 International Business Machines Corporation System and method for automatic generation of dynamic search abstracts contain metadata by crawler
US6910029B1 (en) 2000-02-22 2005-06-21 International Business Machines Corporation System for weighted indexing of hierarchical documents
US6516312B1 (en) 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6633867B1 (en) 2000-04-05 2003-10-14 International Business Machines Corporation System and method for providing a session query within the context of a dynamic search result set
US6549896B1 (en) 2000-04-07 2003-04-15 Nec Usa, Inc. System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling
US6718365B1 (en) 2000-04-13 2004-04-06 International Business Machines Corporation Method, system, and program for ordering search results using an importance weighting
US6859800B1 (en) 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
US6772160B2 (en) 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US6741986B2 (en) 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
JP3573688B2 (ja) 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6678692B1 (en) 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
US6601075B1 (en) 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US6633868B1 (en) 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US6598040B1 (en) 2000-08-14 2003-07-22 International Business Machines Corporation Method and system for processing electronic search expressions
US7080073B1 (en) 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
KR100378240B1 (ko) 2000-08-23 2003-03-29 학교법인 통진학원 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법
US20030217052A1 (en) 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6959326B1 (en) 2000-08-24 2005-10-25 International Business Machines Corporation Method, system, and program for gathering indexable metadata on content at a data repository
US7072847B2 (en) 2000-08-25 2006-07-04 Jonas Ulenas Method and apparatus for obtaining consumer product preferences through product selection and evaluation
CN1279475C (zh) 2000-09-14 2006-10-11 奥弗图尔服务公司 用于在数据网络中搜索和分析信息的方法
US6598051B1 (en) 2000-09-19 2003-07-22 Altavista Company Web page connectivity server
US6560600B1 (en) 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7200606B2 (en) 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
US6622140B1 (en) 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
JP2002157271A (ja) 2000-11-20 2002-05-31 Yozan Inc ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法
US20020103920A1 (en) 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
US8402068B2 (en) 2000-12-07 2013-03-19 Half.Com, Inc. System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network
US20020078045A1 (en) 2000-12-14 2002-06-20 Rabindranath Dutta System, method, and program for ranking search results using user category weighting
US6898592B2 (en) 2000-12-27 2005-05-24 Microsoft Corporation Scoping queries in a search engine
US6778997B2 (en) 2001-01-05 2004-08-17 International Business Machines Corporation XML: finding authoritative pages for mining communities based on page structure criteria
US7356530B2 (en) 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US6526440B1 (en) 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US20020103798A1 (en) 2001-02-01 2002-08-01 Abrol Mani S. Adaptive document ranking method based on user behavior
US20020107886A1 (en) 2001-02-07 2002-08-08 Gentner Donald R. Method and apparatus for automatic document electronic versioning system
WO2002063493A1 (en) 2001-02-08 2002-08-15 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
JP2002245089A (ja) * 2001-02-19 2002-08-30 Hitachi Eng Co Ltd ウェブページ検索システム、二次情報収集装置、インターフェース装置
US7627596B2 (en) 2001-02-22 2009-12-01 International Business Machines Corporation Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries
US8001118B2 (en) 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7269545B2 (en) 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US20020169770A1 (en) 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US7188106B2 (en) 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US20020165860A1 (en) * 2001-05-07 2002-11-07 Nec Research Insititute, Inc. Selective retrieval metasearch engine
US6738764B2 (en) 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
CN100367166C (zh) 2001-05-10 2008-02-06 改造世界有限公司 具有分级菜单的智能因特网网站
US6865295B2 (en) 2001-05-11 2005-03-08 Koninklijke Philips Electronics N.V. Palette-based histogram matching with recursive histogram vector generation
US6782383B2 (en) 2001-06-18 2004-08-24 Siebel Systems, Inc. System and method to implement a persistent and dismissible search center frame
US6947920B2 (en) 2001-06-20 2005-09-20 Oracle International Corporation Method and system for response time optimization of data query rankings and retrieval
US7519529B1 (en) 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7039234B2 (en) 2001-07-19 2006-05-02 Microsoft Corporation Electronic ink as a software object
US6868411B2 (en) 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US6928425B2 (en) 2001-08-13 2005-08-09 Xerox Corporation System for propagating enrichment between documents
US7076483B2 (en) 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
US6970863B2 (en) 2001-09-18 2005-11-29 International Business Machines Corporation Front-end weight factor search criteria
US6766422B2 (en) 2001-09-27 2004-07-20 Siemens Information And Communication Networks, Inc. Method and system for web caching based on predictive usage
US6944609B2 (en) 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
US7428695B2 (en) 2001-10-22 2008-09-23 Hewlett-Packard Development Company, L.P. System for automatic generation of arbitrarily indexed hyperlinked text
US20030101183A1 (en) 2001-11-26 2003-05-29 Navin Kabra Information retrieval index allowing updating while in use
US6763362B2 (en) 2001-11-30 2004-07-13 Micron Technology, Inc. Method and system for updating a search engine
US7565367B2 (en) 2002-01-15 2009-07-21 Iac Search & Media, Inc. Enhanced popularity ranking
JP3871201B2 (ja) 2002-01-29 2007-01-24 ソニー株式会社 コンテンツ提供取得システム
US6829606B2 (en) 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
US20060004732A1 (en) 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US6934714B2 (en) 2002-03-04 2005-08-23 Intelesis Engineering, Inc. Method and system for identification and maintenance of families of data records
KR100490748B1 (ko) 2002-04-11 2005-05-24 한국전자통신연구원 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법
US20040003028A1 (en) 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US7039631B1 (en) 2002-05-24 2006-05-02 Microsoft Corporation System and method for providing search results with configurable scoring formula
US20040006559A1 (en) 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
US7246128B2 (en) 2002-06-12 2007-07-17 Jordahl Jena J Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
JP2004054588A (ja) * 2002-07-19 2004-02-19 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
CA2395905A1 (en) 2002-07-26 2004-01-26 Teraxion Inc. Multi-grating tunable chromatic dispersion compensator
US7599911B2 (en) 2002-08-05 2009-10-06 Yahoo! Inc. Method and apparatus for search ranking using human input and automated ranking
US7152059B2 (en) 2002-08-30 2006-12-19 Emergency24, Inc. System and method for predicting additional search results of a computerized database search user based on an initial search query
US7013458B2 (en) 2002-09-09 2006-03-14 Sun Microsystems, Inc. Method and apparatus for associating metadata attributes with program elements
US20040064442A1 (en) 2002-09-27 2004-04-01 Popovitch Steven Gregory Incremental search engine
US6886010B2 (en) 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7085755B2 (en) 2002-11-07 2006-08-01 Thomson Global Resources Ag Electronic document repository management and access system
US7231379B2 (en) 2002-11-19 2007-06-12 Noema, Inc. Navigation in a hierarchical structured transaction processing system
US7386527B2 (en) 2002-12-06 2008-06-10 Kofax, Inc. Effective multi-class support vector machine classification
US7020648B2 (en) 2002-12-14 2006-03-28 International Business Machines Corporation System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata
US7734565B2 (en) * 2003-01-18 2010-06-08 Yahoo! Inc. Query string matching method and apparatus
US20040148278A1 (en) 2003-01-22 2004-07-29 Amir Milo System and method for providing content warehouse
US8589373B2 (en) 2003-09-14 2013-11-19 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
RU2236699C1 (ru) 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
US20040181515A1 (en) 2003-03-13 2004-09-16 International Business Machines Corporation Group administration of universal resource identifiers with members identified in search result
US6947930B2 (en) 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
DE60315947D1 (de) 2003-03-27 2007-10-11 Sony Deutschland Gmbh Verfahren zur Sprachmodellierung
US7216123B2 (en) 2003-03-28 2007-05-08 Board Of Trustees Of The Leland Stanford Junior University Methods for ranking nodes in large directed graphs
US7028029B2 (en) 2003-03-28 2006-04-11 Google Inc. Adaptive computation of ranking
US7451129B2 (en) 2003-03-31 2008-11-11 Google Inc. System and method for providing preferred language ordering of search results
US7051023B2 (en) 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7197497B2 (en) 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7283997B1 (en) 2003-05-14 2007-10-16 Apple Inc. System and method for ranking the relevance of documents retrieved by a query
US7502779B2 (en) 2003-06-05 2009-03-10 International Business Machines Corporation Semantics-based searching for information in a distributed data processing system
US7451130B2 (en) 2003-06-16 2008-11-11 Google Inc. System and method for providing preferred country biasing of search results
US8239380B2 (en) 2003-06-20 2012-08-07 Microsoft Corporation Systems and methods to tune a general-purpose search engine for a search entry point
US7228301B2 (en) 2003-06-27 2007-06-05 Microsoft Corporation Method for normalizing document metadata to improve search results using an alias relationship directory service
US7630963B2 (en) 2003-06-30 2009-12-08 Microsoft Corporation Fast ranked full-text searching
US7308643B1 (en) 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
KR100543255B1 (ko) 2003-08-19 2006-01-20 문영섭 용접부 절삭가공장치
US20050060186A1 (en) 2003-08-28 2005-03-17 Blowers Paul A. Prioritized presentation of medical device events
US7454417B2 (en) 2003-09-12 2008-11-18 Google Inc. Methods and systems for improving a search ranking using population information
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7346839B2 (en) 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20050071328A1 (en) 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7693827B2 (en) 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US7552109B2 (en) 2003-10-15 2009-06-23 International Business Machines Corporation System, method, and service for collaborative focused crawling of documents on a network
US20050086192A1 (en) 2003-10-16 2005-04-21 Hitach, Ltd. Method and apparatus for improving the integration between a search engine and one or more file servers
US7346208B2 (en) 2003-10-25 2008-03-18 Hewlett-Packard Development Company, L.P. Image artifact reduction using a neural network
US7231399B1 (en) 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US7181447B2 (en) 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US20050144162A1 (en) 2003-12-29 2005-06-30 Ping Liang Advanced search, file system, and intelligent assistant agent
US20060047649A1 (en) 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US7685104B2 (en) 2004-01-08 2010-03-23 International Business Machines Corporation Dynamic bitmap processing, identification and reusability
US7483891B2 (en) 2004-01-09 2009-01-27 Yahoo, Inc. Content presentation and management system associating base content and relevant additional content
US7392278B2 (en) 2004-01-23 2008-06-24 Microsoft Corporation Building and using subwebs for focused search
US7499913B2 (en) 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7310632B2 (en) 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US7281002B2 (en) 2004-03-01 2007-10-09 International Business Machine Corporation Organizing related search results
US9104689B2 (en) 2004-03-17 2015-08-11 International Business Machines Corporation Method for synchronizing documents for disconnected operation
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7809792B2 (en) 2004-03-22 2010-10-05 Fuji Xerox Co., Ltd. Conference information processing apparatus, and conference information processing method and storage medium readable by computer
US7343374B2 (en) 2004-03-29 2008-03-11 Yahoo! Inc. Computation of page authority weights using personalized bookmarks
US7580568B1 (en) 2004-03-31 2009-08-25 Google Inc. Methods and systems for identifying an image as a representative image for an article
US7693825B2 (en) 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US20050251499A1 (en) 2004-05-04 2005-11-10 Zezhen Huang Method and system for searching documents using readers valuation
US7257577B2 (en) 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7136851B2 (en) 2004-05-14 2006-11-14 Microsoft Corporation Method and system for indexing and searching databases
US7260573B1 (en) 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine
US20050283473A1 (en) 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
US7716225B1 (en) 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US8131674B2 (en) 2004-06-25 2012-03-06 Apple Inc. Methods and systems for managing data
US7730012B2 (en) 2004-06-25 2010-06-01 Apple Inc. Methods and systems for managing data
US7428530B2 (en) 2004-07-01 2008-09-23 Microsoft Corporation Dispersing search engine results by using page category information
US7363296B1 (en) 2004-07-01 2008-04-22 Microsoft Corporation Generating a subindex with relevant attributes to improve querying
US7634461B2 (en) 2004-08-04 2009-12-15 International Business Machines Corporation System and method for enhancing keyword relevance by user's interest on the search result documents
US7395260B2 (en) 2004-08-04 2008-07-01 International Business Machines Corporation Method for providing graphical representations of search results in multiple related histograms
US20060036598A1 (en) 2004-08-09 2006-02-16 Jie Wu Computerized method for ranking linked information items in distributed sources
US20060047643A1 (en) 2004-08-31 2006-03-02 Chirag Chaman Method and system for a personalized search engine
EP1817694A2 (en) 2004-09-16 2007-08-15 Telenor ASA A method, system, and computer program product for searching for, navigating among, and ranking of documents in a personal web
US20060064411A1 (en) 2004-09-22 2006-03-23 William Gross Search engine using user intent
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7644107B2 (en) 2004-09-30 2010-01-05 Microsoft Corporation System and method for batched indexing of network documents
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US20060074883A1 (en) 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
US20060074781A1 (en) 2004-10-06 2006-04-06 Leano Hector V System for facilitating turnkey real estate investment in Mexico
US7702599B2 (en) 2004-10-07 2010-04-20 Bernard Widrow System and method for cognitive memory and auto-associative neural network based pattern recognition
US7533092B2 (en) 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
EP1839124A4 (en) 2005-01-18 2009-12-30 Yahoo Inc Matching and ranking of sponsored search listings incorporating web search technology and web content
US20060173828A1 (en) 2005-02-01 2006-08-03 Outland Research, Llc Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query
US7689615B2 (en) 2005-02-25 2010-03-30 Microsoft Corporation Ranking results using multiple nested ranking
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US20060200460A1 (en) 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types
US7574436B2 (en) 2005-03-10 2009-08-11 Yahoo! Inc. Reranking and increasing the relevance of the results of Internet searches
US20060206460A1 (en) 2005-03-14 2006-09-14 Sanjay Gadkari Biasing search results
US8095487B2 (en) 2005-03-16 2012-01-10 Yahoo! Inc. System and method for biasing search results based on topic familiarity
KR101374651B1 (ko) 2005-03-18 2014-03-17 써치 엔진 테크놀로지스, 엘엘씨 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
US7870147B2 (en) 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US7693829B1 (en) 2005-04-25 2010-04-06 Google Inc. Search engine with fill-the-blanks capability
US7401073B2 (en) 2005-04-28 2008-07-15 International Business Machines Corporation Term-statistics modification for category-based search
US7451124B2 (en) 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
US7962462B1 (en) * 2005-05-31 2011-06-14 Google Inc. Deriving and using document and site quality signals from search query streams
CA2544324A1 (en) 2005-06-10 2006-12-10 Unicru, Inc. Employee selection via adaptive assessment
US20060282455A1 (en) 2005-06-13 2006-12-14 It Interactive Services Inc. System and method for ranking web content
US7627564B2 (en) 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US7599917B2 (en) 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US7653617B2 (en) 2005-08-29 2010-01-26 Google Inc. Mobile sitemaps
US7499919B2 (en) 2005-09-21 2009-03-03 Microsoft Corporation Ranking functions using document usage statistics
US7716226B2 (en) 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US7689531B1 (en) 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
US20070085716A1 (en) 2005-09-30 2007-04-19 International Business Machines Corporation System and method for detecting matches of small edit distance
US7873624B2 (en) 2005-10-21 2011-01-18 Microsoft Corporation Question answering over structured content on the web
US20070150473A1 (en) 2005-12-22 2007-06-28 Microsoft Corporation Search By Document Type And Relevance
US7689559B2 (en) 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
US7685091B2 (en) 2006-02-14 2010-03-23 Accenture Global Services Gmbh System and method for online information analysis
US20070260597A1 (en) 2006-05-02 2007-11-08 Mark Cramer Dynamic search engine results employing user behavior
EP1862916A1 (en) 2006-06-01 2007-12-05 Microsoft Corporation Indexing Documents for Information Retrieval based on additional feedback fields
US20080005068A1 (en) 2006-06-28 2008-01-03 Microsoft Corporation Context-based search, retrieval, and awareness
US20080016053A1 (en) 2006-07-14 2008-01-17 Bea Systems, Inc. Administration Console to Select Rank Factors
US8595245B2 (en) * 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
US7720830B2 (en) 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US20080140641A1 (en) 2006-12-07 2008-06-12 Yahoo! Inc. Knowledge and interests based search term ranking for search results validation
US7792883B2 (en) 2006-12-11 2010-09-07 Google Inc. Viewport-relative scoring for location search queries
US7685084B2 (en) 2007-02-09 2010-03-23 Yahoo! Inc. Term expansion using associative matching of labeled term pairs
US7996392B2 (en) 2007-06-27 2011-08-09 Oracle International Corporation Changing ranking algorithms based on customer settings
US20090006358A1 (en) 2007-06-27 2009-01-01 Microsoft Corporation Search results
US8122032B2 (en) 2007-07-20 2012-02-21 Google Inc. Identifying and linking similar passages in a digital text corpus
US8201081B2 (en) * 2007-09-07 2012-06-12 Google Inc. Systems and methods for processing inoperative document links
US20090106221A1 (en) 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US7707229B2 (en) 2007-12-12 2010-04-27 Yahoo! Inc. Unsupervised detection of web pages corresponding to a similarity class
US20090164929A1 (en) 2007-12-20 2009-06-25 Microsoft Corporation Customizing Search Results
US8412702B2 (en) 2008-03-12 2013-04-02 Yahoo! Inc. System, method, and/or apparatus for reordering search results
US7974974B2 (en) 2008-03-20 2011-07-05 Microsoft Corporation Techniques to perform relative ranking for search results
CN101359331B (zh) 2008-05-04 2014-03-19 索意互动(北京)信息技术有限公司 对搜索结果重新排序的方法和系统
US20090307209A1 (en) 2008-06-10 2009-12-10 David Carmel Term-statistics modification for category-based search
US8326829B2 (en) 2008-10-17 2012-12-04 Centurylink Intellectual Property Llc System and method for displaying publication dates for search results
US8224847B2 (en) 2009-10-29 2012-07-17 Microsoft Corporation Relevant individual searching using managed property and ranking features
US8527507B2 (en) 2009-12-04 2013-09-03 Microsoft Corporation Custom ranking model schema
US8422786B2 (en) 2010-03-26 2013-04-16 International Business Machines Corporation Analyzing documents using stored templates
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8370331B2 (en) 2010-07-02 2013-02-05 Business Objects Software Limited Dynamic visualization of search results on a graphical user interface
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2273879C2 (ru) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем

Also Published As

Publication number Publication date Type
RU2010141559A (ru) 2012-04-20 application
JP5492187B2 (ja) 2014-05-14 grant
KR101557294B1 (ko) 2015-10-06 grant
JP2011516989A (ja) 2011-05-26 application
KR20110009098A (ko) 2011-01-27 application
EP2289007A1 (en) 2011-03-02 application
CN101990670A (zh) 2011-03-23 application
EP2289007A4 (en) 2012-10-31 application
EP2289007B1 (en) 2015-04-22 grant
WO2009126394A1 (en) 2009-10-15 application
CN101990670B (zh) 2013-12-18 grant
US8812493B2 (en) 2014-08-19 grant
US20090259651A1 (en) 2009-10-15 application

Similar Documents

Publication Publication Date Title
Xue et al. Optimizing web search using web click-through data
US6208988B1 (en) Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
US20110055192A1 (en) Full text query and search systems and method of use
US7647306B2 (en) Using community annotations as anchortext
US7216121B2 (en) Search engine facility with automated knowledge retrieval, generation and maintenance
US6691107B1 (en) Method and system for improving a text search
US20120278321A1 (en) Visualization of concepts within a collection of information
US7761471B1 (en) Document management techniques to account for user-specific patterns in document metadata
US6473752B1 (en) Method and system for locating documents based on previously accessed documents
US20090282023A1 (en) Search engine using prior search terms, results and prior interaction to construct current search term results
US20090216696A1 (en) Determining relevant information for domains of interest
US20110066619A1 (en) Automatically finding contextually related items of a task
US7636714B1 (en) Determining query term synonyms within query context
US20040139107A1 (en) Dynamically updating a search engine&#39;s knowledge and process database by tracking and saving user interactions
US20080065603A1 (en) System, method &amp; computer program product for concept-based searching &amp; analysis
US7085761B2 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
US20100125568A1 (en) Dynamic feature weighting
US20080065631A1 (en) User query data mining and related techniques
Baeza-Yates et al. Modeling user search behavior
US20080071772A1 (en) Information-retrieval systems, methods, and software with content relevancy enhancements
US20090006382A1 (en) System and method for measuring the quality of document sets
US20100169331A1 (en) Online relevance engine
US20050262058A1 (en) Query to task mapping
US20040128270A1 (en) Automated maintenance of an electronic database via a point system implementation
US20100036828A1 (en) Content analysis simulator for improving site findability in information retrieval systems

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20150306