Nigma.ru — российская интеллектуальная поисковая система. Первая кластеризующая и метапоисковая система в Рунете.

Научный проект Nigma создан при поддержке МГУ им. М. В. Ломоносова и Стэнфордского университета.

Название — Nigma (один из родов пауков семейства Dictynidae, en:Nigma) было выбрано по связи с Сетью, Всемирной паутиной — то есть, Интернетом. На момент появления Nigma.ru в проекте участвовало 3 человека. На начало 2009 года в проекте работает более 25 человек.
Содержание

Индекс

Nigma осуществляет поиск как по своему индексу, так и по индексам Google, Yahoo, MSN, Yandex, Rambler, AltaVista, Aport.

По состоянию на 28 февраля 2009 в суммарном индексе всех этих поисковых систем находится более 7 160 000 000 русскоязычных документов.
Кластеризация

На основе введённого пользовательского запроса Nigma формирует список документов, разделённых на несколько классов (кластеров). Пользователь может уточнить в каком классе продолжить поиск, тем самым улучшив релевантность результатов поиска. Пользователь также может исключить ненужные ему классы сайтов, например документы, пришедшие с интернет-магазинов (для них формируется специальный кластер).

Список кластеров выводится слева от списка результатов поиска. Для каждого кластера указывается образующая его фраза и количество документов в кластере. Пользователь может управлять кластерами при помощи специальных ссылок под списком кластеров.

Морфология

Nigma поддерживает русскую морфологию. Используется морфологический модуль для русского языка собственной разработки.

Ранее в Nigma.ru поддержка морфологии была реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены распространенные морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, предлагаемый алгоритм не сокращал, а увеличивал количество найденных документов, так как морфологически измененный запрос объединяется с исходным. Релевантность также увеличивалась, так как использовались специальные алгоритмы объединения результатов.

Таким образом, через Nigma, например, можно было искать документы в индексе Google с учётом русской морфологии, даже в то время пока Google не поддерживал русскую морфологию. Сейчас надобность в данной технологии отпала, так как все ведущие поисковые системы поддерживают русскую морфологию.

Синтаксис языка запросов

Операторы AND и +

По умолчанию считается, что слова разделенные пробелами — это то же самое, что слова, разделенные оператором «+», или оператором «AND» — все три формы запросов эквивалентны (a AND b — нас интересует и слово «a» и слово «b»). Например, запросы розовая пантера, розовая+пантера и розовая AND пантера для поисковой системы будут неотличимы.

Оператор OR

Иногда некоторые слова запроса для вас эквиваленты, например «скачать» и «download», тогда можно указать поисковой системе при помощи оператора «OR» между этими словами, что достаточно найти страницы с любым из этих слов. Будут найдены страницы, на которых есть хотя бы одно из слов. Примеры: бегемот OR гиппопотам, музыка mp3 (скачать OR download)

Оператор ""

Если вы хотите найти страницы, на которых встречается заданная фраза, в запросе заключите ее в кавычки. Это может быть полезным, например при поиске какого-нибудь стихотворения или текста песни по известной строчке. Сравните результаты: «мороз и солнце — день чудесный» и мороз и солнце — день чудесный Фраза, заключенная в кавычки, ищется целиком без изменения порядка слов и без учета словоформ, то есть находятся только точные вхождения этой фразы.

Оператор -

Иногда в результатах на некоторые запросы выдается не только нужная Вам информация, но и много другой. Например, по запросу «окна роста» будут выданы как результаты об агитационных плакатах советских времен, так и об одноименной фирме, занимающейся производством окон. Допустим, нам нужно найти информацию о плакатах. Ненужные результаты можно отфильтровать при помощи оператора «-», поставленного перед тем словом, которое Вы хотите исключить из результатов поиска. Уточним запрос окна роста при помощи оператора «-»: окна роста -пвх -производство -виа

Оператор site

Если требуется найти страницы, удовлетворяющие запросу и находящиеся на определенном сайте, добавьте к запросу оператор «site:адрес_сайта». Можно искать по нескольким сайтам сразу. По запросу: nigma site:www.habrahabr.ru будут найдены страницы с сайта www.habrahabr.ru, содержащие слово «nigma». А по запросу: новости site:lenta.ru site:utro.ru будут найдены новости, с двух сайтов. Можно уточнить адрес сайта до поддоменов, например такой запрос: новости site:auto.utro.ru задает поиск только по указанному поддомену (auto.utro.ru), результаты с других поддоменов будут проигнорированы.

Сложные запросы

Скобки позволяют группировать слова запроса для применения к ним оператора. Например: микроволновая печь samsung (руководство OR документация) слова «руководство» и «документация» объединены скобками для того, чтобы оператор OR применялся только к ним.

Орфография

Поддерживается орфография на базе словаря, составленного из реальной русской орфографии, которую авторы веб-сайтов используют на своих страницах, за исключением жаргона падонков.

Система исправления ошибок Nigma.ru исправляет грубые ошибки (Юрей Лушкоф, опечатки, предлагая пользователю на выбор не один, а несколько вариантов исправлений. Корректируются ошибки, связанные с неправильным выбором раскладки клавиатуры fibgrf- ошибка, (включая комбинации с другими ошибками). Словарь интеллектуальной поисковой системы расширен названиями известных брендов, набирать которые в строке запроса пользователь может даже на русском языке, так как Нигма автоматически расширяет поиск альтернативным написанием бренда.

Сервисы и инструменты

Математические

Система Nigma позволяет не только производить простейшие арифметические преобразования, но и решать математические задачи различной степени сложности. Также Нигма распознает более тысячи физических, математических констант и единиц измерения, что позволяет производить операции с множеством величин (в том числе решать с ними уравнения) и получать ответ в требуемых единицах измерения. Помимо уравнений система решает все задачи, характерные для калькуляторов поисковых систем и конверторов валют. Однако Нигма умеет считать в дробях и знает общеупотребимые синонимы валют. Так, например, можно посчитать, сколько деревянных в баксе. С помощью нового сервиса пользователи смогут решать различные математические задачи (упрощать выражения, решать линейные и квадратные уравнения, системы уравнений, уравнения с единицами измерения, конвертировать валюты, вычислять модуль числа, упрощать тригонометрические выражения, сокращать дроби и многое другое), вводя их прямо в строку поиска в виде строгого или нестрогого (обычного) текста.

По химическим реакциям

Система позволяет производить поиск по более чем 12000 неорганических реакций. Вещества можно записывать как при помощи названий («хлорид натрия», «каменная соль»), так и в виде формул («NaCl»). Для введенного набора из одного или нескольких веществ система попробует найти реакции с их участием.

Если пользователь хочет найти определенную реакцию, он вводит вещества, разделяя их знаками «+», например, «гидроксид натрия + HCl». Система найдёт все реакции с участием NaOH и соляной кислоты. Разработчики предусмотрели возможность указать с какой стороны в реакции находятся искомые вещества. Например, если написать знак «равно» после веществ: «2KOH + H2SO4 =", то Нигма найдёт только те реакции, где гидроксид калия и серная кислота находятся в исходных веществах. Если пользователь напишет знак «равно» перед реакцией: "= NaCl + H2S», то Нигма найдёт те реакции, где в конечных продуктах есть каменная соль и сероводород. Если пользователь укажет вещество и конечный продукт: «KOH = KCl», то Nigma отыщет все реакции, в которых из гидроксида калия получается его хлорид. Кроме молекулярной формулы для реакций, идущих в растворах, система выдает ионную формулу, которая поможет тем, кто учит химию, лучше понять суть химических процессов. В некоторых случаях система может подсказать пользователю, почему требуемая реакция невозможна. Например, если спросить у Нигмы, что будет при взаимодействии «K + NaOH», система даст ответ: «В водном растворе идёт не указанная реакция, а взаимодействие калия с водой».

Поиск цепочек химических реакций

Команда разработчиков Nigma.ru расширила функциональность поиска по химическим реакциям. В новой версии реализована возможность, которая наверняка понравится многим школьникам. Теперь можно искать не одну реакцию, а сразу целую цепочку, например: NaCl = Na = NaH = NaOH = NaHSO3. Система разобьет цепочку на стадии и подробно опишет, как из одного вещества получить другое. Для разделения стадий также можно использовать стрелочки, например, так: Fe -> FeS -> H2S -> S -> Na2S2O3 -> Na2S4O6. В цепочках могут быть и неизвестные вещества, которые можно обозначать буквой «X»: Ag -> X -> AgNO3 -> X -> Ag(NH3)2OH -> X -> Ag, а также знаком вопроса и многоточием: Cu2O -> X -> CuSO4 -> ? -> CuCl2 -> … -> Cu2O.

Новостной

В ответ на запрос пользователи увидят три самые свежие новости прямо на странице результатов поиска.

Разработчики проиндексировали и обработали данные более 3500 rss-лент СМИ и популярных блогов. На сайте также есть форма, через которую пользователи сами могут добавлять новостные ресурсы в индекс поисковой системы. База данных новостей обновляется каждые 5 минут.

Подсказки, автозаполнение строки поиска

Во-первых, система предлагает варианты на основе предыдущих запросов пользователей Nigma.ru.

Во-вторых, напротив предложенных примеров автозаполнения выводятся наиболее релевантные сайты, связанные с запросом пользователя. Теперь перейти на нужный сайт можно даже не вбивая запрос до конца, а лишь выбрав его из списка и нажав клавишу «вправо», или просто кликнув мышкой по ссылке. Если же нужный сайт находится на первом месте в подсказке, то его можно не выделять, а перейти на него только с помощью клавиши «вправо». Например, если ввести две буквы: «по» и нажать клавишу «вправо», то откроется сайт gismeteo.

В-третьих, разработчики максимально упростили переход на самые популярные сайты среди пользователей Нигма.ру. Например, раньше, чтобы попасть на сайт «Одноклассники», нужно было набрать 13 букв, нажать «Enter», дождаться поисковой выдачи, а потом кликнуть на первый результат. Теперь пользователи nigma.ru, удерживая клавишу «О» несколько секунд, а потом отпустив ее, тут же попадут на сайт «Одноклассники». То же самое будет при нажатии клавиш: «в» (пользователь попадет на сайт «в контакте»), «ю» («youtube.com»), «з» («зайцев.нет») и т. п. Причем пользователю не нужно переключать язык — вместо «о» можно нажать на «j» и он также будет перенаправлен на сайт одноклассников.

Улучшенная версия

В улучшенной версии поисковик отвечает на вопросы пользователя до того, как он полностью введет свой вопрос в строку поиска. Система предлагает варианты заполнения, учитывая популярности предыдущих запросов пользователей. Справа от варианта выдается ответ на вопрос. Например, если ввести короткий запрос, то система сама подберет похожие варианты запроса, сразу предлагая ответ. Для запуска новой версии автоматического заполнения разработчики использовали базу знаний, состоящую из 12 миллионов вопросов и ответов, которая была составлена на основе информации Википедии.

Всплывающие подсказки

При выборе нужного варианта в поисковой подсказке пользователь может увидеть определения понятий и слов, которые хочет найти. База данных содержит 340928 определения. Информация берется из Википедии. Предполагается подключение и других источников информации. [2]

Виктор Лавренко:

    «Мы работаем над тем, чтобы пользователю не нужно было нажимать кнопку "Найти", выбирать сайт, искать информацию на сайте. Поисковая система должна уметь давать ответ на вопрос еще до того, как он полностью набран».

Поиск по музыкальным файлам

Через вкладку «Музыка», пользователи Нигмы смогут найти и сразу послушать любимую песню прямо на странице результатов поиска («Вивальди Времена Года»). Поисковый робот Nigma.ru находит в Интернете музыкальные файлы и индексирует теги, содержащиеся в этих самых файлах.

Когда пользователь ищет во вкладке «музыка», то Нигма находит музыкальные файлы, а пользователь в качестве результатов получает прямые ссылки на них. Сейчас поисковая система проиндексировала 1.600.000 аудио файлов. Разработчики планируют расширение базы в следующем 2009 году.

История

    * 12 апреля 2005 запущена альфа версия
    * 26 сентября 2005 Nigma предоставила поиск сайту Livestream.ru
    * 3 ноября 2005 Nigma и компания Яндекс заключили партнерское соглашение, в рамках которого Яндекс будет поставлять Nigm-е результаты поиска в формате XML, а Nigma разместит рекламный блок Яндекс. Директа
    * 29 ноября 2005 Nigma создала собственный индекс
    * 24 апреля 2006 Nigma купила сто серверов оригинальной разработки
    * 12 июня 2006 Nigma запускает AJAX-интерфейс для поиска
    * 27 ноября 2006 Nigma внедрила новый механизм управления релевантностью
    * 26 февраля 2007 Nigma запускает поиск по картинкам
    * 10 апреля 2007 Nigma запускает поиск по электронным библиотекам
    * 16 июля 2007 Nigma вводит в экплуатацию новую систему исправления ошибок
    * 8 октября 2007 Nigma проводит тестирование новой версии поисковой системы
    * 22 апреля 2008 Nigma запускает сервис расшифровки сокращений
    * 21 октября 2008 Nigma запускает математический сервис
    * 4 декабря 2008 Nigma запускает сервис Свежих новостей
    * 18 декабря 2008 Nigma запускает сервис по автоматическому заполнению в строки поиска.
    * 22 декабря 2008 Nigma запускает сервис по поиску химических реакций
    * 23 декабря 2008 Nigma запустила поиск по музыкальным файлам
    * 10 февраля 2009 Nigma открывает свой собственный NigmaForum
    * 11 марта 2009 Nigma запускает систему по нахождению цепочек химических реакций
    * 28 мая 2009 Nigma запускает антикризисный поиск товаров – в подсказках показывается диапазон цен товара