В поисках быстрого поисковика

Автор: Aport Среда, Ноябрь 19th, 2014 Нет комментариев

Рубрика: Software

Говорить о том, что в наше время информационных технологий и бесконечного роста объема данных, доступных как отдельно взятому человеку, так и обществу, существует много проблем с обработкой информации и ее поиском — это уже кощунство. Кто только эту тему не поднимает. И дабы не загружать вас субъективными и частью объективными суждениями, почерпнутыми из различных источников касательно проблемы, я перейду непосредственно к ее решению. Сегодня поговорим о поиске. То есть о программах и серьезных информационных системах, осуществляющих поиск нужных нам документов и данных.

Апгрейд «прямого поиска»


Не так давно, когда деревья были большими и информации даже в локальной сети предприятия было не так много, любой поиск осуществлялся банальным перебором горстки файлов и последовательной проверкой их названий и содержимого. Такой поиск называется прямым, и программы (утилиты), использующие технологию прямого поиска, присутствуют во всех операционных системах и инструментальных пакетах. Но при прямом поиске даже мощности современных компьютеров не хватит для быстрого и адекватного поиска в гигантских объемах данных. Перебор пары сотен документов на диске и поиск в громадной библиотеке и нескольких десятках почтовых ящиков — разные вещи. Поэтому программы прямого поиска сегодня явно уходят на второй план, когда речь идет об универсальных средствах. И поэтому уже который год технологии, способные осуществлять быстрый и точный поиск документов разных форматов и из различных источников, более чем актуальны. Не так давно Билл Гейтс, позавидовав, судя по всему, феноменальному успеху Интернет-посковика Google, на одной из пресс-конференций обнародовал желание корпорации всячески способствовать, развивать и углублять создание поисковых систем и технологий. Но до создания феноменально работающей программы от Microsoft или конкурентоспособного сервера в Интернете пока далеко (MSN все равно до Google не дотягивает). Поэтому обратимся к уже существующим разработкам.
Индекс, запрос, релевантность

В основе современных технологий лежат два основополагающих процесса. Это индексация доступной информации и обработка запроса с последующим выводом результатов. Что касается первого, то любая программа (будь то настольный поисковик, корпоративная информационная система или поисковый интернет-движок) создает свою область поиска, то есть обрабатывает документы и формирует индекс этих документов (индекс — организованная структура, в которой содержится информация об обработанных данных). В дальнейшем именно созданный индекс используется для работы — быстрого получения списка нужных документов согласно запросу. Это уже вполне понятно обычному пользователю. Программа обрабатывает запрос (по ключевому слову-фразе) и выводит список документов, в которых эта фраза содержится. Поскольку информация содержится в структурированном индексе, обработка запроса проходит в десятки и сотни раз быстрее, чем в случае с прямым поиском (выборка документов осуществляется не перебором файлов, а анализом текстовой информации в индексе).

Найденные документы программа выводит в результирующем списке согласно релевантности — соответствия документа тексту запроса. В разных технологиях, конечно, присутствуют различные методы поиска и определения релевантности документа (количество «вхождений» слова и его частота упоминания в документе, соотношение этих параметров к общему количеству слов в документе, расстояние между словами фразы запроса в искомых файлах и т. д.). На основе этих параметров определяется «вес» документа и в зависимости от него тот или иной файл оказывается в списке результатов на определенной позиции. В случае с интернет-поиском дело обстоит еще сложнее. Ведь в данном случае надо учитывать и множество иных факторов (Page Rank Google тому пример). Но это тема для отдельной статьи, поэтому Интернет трогать не будем.

Обзор поисковиков


В данном материале рассмотрены возможности нескольких популярных программ поиска, которые могут похвастаться как приличными скоростями, так и неплохим функционалом. Но хвастаться в рекламных проспектах — это одно, а вот выдержать пристальный взгляд эксперта — совсем другое. А экспертов нашлось немало — полный офис любителей поковырять софт на предмет его юзабилити. На подопытный компьютер (Athlon 2,2 MГц, ОЗУ 1 Гбайт, винчестер Seagate IDE 160 Гбайт на 7200 об/мин и система Windows XP) был установлен набор программ: dtSearch Desktop, Ищейка Проф Deluxe, Google Desktop Search, SearchInform, Copernic Desktop Search, ISYS Desktop. Для тестов была скомпонована текстовая база документов в форматах doc, txt и html общим размером ни много ни мало 20 Гбайт. Группа товарищей под руководством вашего покорного слуги тестировала, сравнивала и делилась своими субъективными впечатлениями по каждой софтине. Сводное изложение полученных данных читайте ниже.

dtSearch Desktop
По заявлению разработчиков, программа претендует на звание самой быстрой, удобной и вообще лучшей поисковой системы. Как, впрочем, и все остальные из данного обзора. Интерфейс dtSearch довольно прост, но некоторые окна или вкладки несколько перегружены элементами, из-за чего создается впечатление сложности использования. Но на самом деле особых трудностей не возникает. Единственный действительно неприятный момент — отсутствие поддержки русского языка (несмотря на то, что искать документы программа может на нескольких языках, интерфейс исключительно английский). Зато dtSearch — одна из немногих программ, способных индексировать веб-страницы на заданную пользователем «глубину» (правда, с учетом «дозакупки» в комплект аддона dtSearch Spider). Это кроме поддержки файлов различных текстовых форматов и электронных писем из почтового ящика Outlook.

В то же время программа не умеет работать с базами данных, которые являются лакомым кусочком для поисковиков из-за больших объемов информации и широкого распространения в корпоративных сетях. Скорость индексирования документов dtSearch оказалась на должном уровне. Забегая вперед, скажу, что эта программа справилась с индексацией заданного объема информации на уровне с другим конкурсантом, iSYS, и поделила с ним второе место в списке самых быстрых поисковых систем. Тестовые 20 Гбайт информации dtSearch проиндексировала за 6 часов 13 минут, создав для последующего поиска индекс размером 7,9 Гбайт.

Возможности поиска на должном уровне. Во-первых, в dtSearch присутствует морфологический поиск (поиск слова во всех его морфологических формах). Используя данную возможность, вы освобождаете себя от раздумий типа «в каком же падеже стояло слово в нужном мне документе?». Возможность морфологического поиска востребована, поэтому должна присутствовать в любом профессиональном поисковике.

Поиск по звучанию является нестандартной возможностью даже для профессиональных поисковиков. Суть его заключается в том, что программа будет искать слова, которые звучат так же, как введенное вами слово. И что самое приятное, эта функция работает и для русского языка! Например, набрав слово «ухо» в поисковом запросе, вы увидите в результате не только слово «ухо», но и «уха».

Очень важная функция — поиск с коррекцией ошибок. Применяется для поиска слов, содержащих синтаксические ошибки — это могут быть опечатки и ошибки в документах, полученных, например, при помощи систем распознавания символов. Простой пример — вы ищете слово «клавиатура». В некотором документе содержится слово «клавиатупа», очевидно, что на самом деле это слово «клавиатура», просто человек ошибся при наборе текста. Так вот, поиск с коррекцией ошибок это обнаружит и включит документ со словом «клавиатупа» в индекс. В dtSearch есть даже настройка, позволяющая определять степень возможных ошибочных символов.

Поиск с синонимами. Эта возможность использует список синонимов для различных слов. Например, по слову «быстрый» программа также найдет слова «скоростной» и другие синонимы (если, конечно, таковые присутствуют в списке синонимов). Готового списка синонимов вместе с программой dtSearch не поставляется, однако можно воспользоваться списками из Интернета, либо можно составить свой список синонимов.

Кроме этого dtSearch может производить поиск на основе фраз, состоящих из слов, соединенных логическими операциями. Каждому слову в запросе можно устанавливать свой «вес», то есть значимость. Полезная опция — использование словаря, состоящего из незначимых слов, чтобы не учитывать их при поиске, однако этот словарь также пуст и его придется заполнять самостоятельно.

Хотя никаких специфических возможностей для работы с локальной сетью dtSearch не предлагает, использовать его в сети вполне возможно. Как вариант, можно создать некоторый индекс и положить его в общедоступную (расшаренную) папку. Саму же программу можно установить каждому пользователю на компьютер, либо выложить ее также на папку, открытую для общего доступа, и создать специальным образом ярлыки для каждого пользователя отдельно, используя параметры командной строки, предназначение которых описано в файле помощи, поставляемом с программой. Есть также возможность автоматической установки программы в сеть при помощи MSI-файла. При этом будут учтены настройки для каждого подключаемого пользователя.

В общем и целом — неплохая программа из разряда профессиональных поисковиков. Может претендовать на хорошую оценку, однако завоевание доверия и уважения со стороны пользователей может оказаться непростым для dtSearch в силу некоторых факторов (не все гладко с интерфейсом, русские пользователи обделены, нет ярких особенностей для работы с сетью). Что касается непосредственно поиска документов, то накладок с русским текстом у программы не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском. Система вполне адекватно находила нужные документы и по простому запросу в одно слово, и при использовании в качестве ключевой фразы пары абзацев какого-либо документа.

Официальный сайт: www.dtsearch.com . Размер дистрибутива: 23 Мбайт

Ищейка Проф Deluxe 
Исходя из названия можно догадаться, что поддержка русского языка в этой программе есть. Это уже приятно. Интерфейс несколько необычен, но с виду весьма привлекателен. Другое дело — удобство. Весьма спорный критерий, но все же, наверно, многооконное решение — не самый удачный вариант (запрос вводится в одном окне, результат отображается в другом и т. п.).

Ищейка использует все те же индексы для быстрого поиска, однако индексирование проходит значительно медленнее, нежели у других программ. Это весьма странно, особенно учитывая то, что возможности по обработке поисковых запросов у нее весьма слабые, а значит, и структура индекса несложная. Скорее всего, дело тут в неоптимизированных алгоритмах. Эта программа оказалась явным аутсайдером по скорости индексации и поиска: время, затраченное на создание индекса, в шесть раз больше, чем у тех же dtSearch и iSYS. Индексация 20 Гбайт текстов для Ищейки вылилась в 38 часов 46 минут работы. А созданная «область поиска» заняла на жестком диске тот же размер, что и исходные данные, за небольшим минусом — 19 Гбайт.

Ищейка может быть представлена как альтернатива стандартному поиску в Windows, на большее она вряд ли способна. О том, что первоочередная задача Ищейки — простейший поиск файлов, указывает не только малое количество функций для анализа текста поисковых запросов и расширенный поиск по атрибутам файлов, но даже окно результатов, выдающее прямые ссылки на найденные файлы, а также на папки, содержащие эти файлы.

Окно результатов не слишком информативно в том плане, что прочитать весь найденный файл можно только запустив его, — встроенного просмотрщика файлов нет. Зато выдается выдержка из файла, где встретилось искомое слово. В общем, такая схема отображения очень напоминает интернет-поисковики.

Говоря о конкретных возможностях по обработке поисковых запросов, стоит отметить, что здесь нет такого понятия как «искать текст», максимум, что можно искать — это фразу (хотя бы потому, что здесь нет многострочного поля ввода текста). При поиске по введенной фразе Ищейка предлагает стандартный поисковый набор: логические операции, поиск по маске и цитатный поиск… не густо. В программе присутствуют некоторые зачатки морфологического поиска, но, наверно, настолько сырого, что он скорее мешает корректной работе (во время тестов было замечено множество накладок с неправильным использованием морфологии).

Зато программа позволяет указывать при поиске атрибуты файлов (дата документа, имя файла, имя папки), причем в этих запросах также можно использовать тот же самый поисковый набор. Можно осуществлять поиск писем, указывая параметры (От, Тема…. и т. п.).

Трудно сказать, чем же еще интересным обладает программа и за что она получила столь многочисленные награды, судя по информации с официального сайта. Скорее всего, располагает к себе интерфейс Ищейки (именно внешне, не говоря о юзабилити).

Операции с индексами весьма стандартны, приятный момент — возможность обновления индексов по расписанию. Кроме того, индексы также могут использоваться в сети. С этого момента надо поподробнее.

Несмотря на примитивность поисковых запросов, программу можно использовать для поиска файлов, поэтому ее применение может быть оправдано в сетях. Хоть и с большой натяжкой, так как в большой сети приоритетной задачей является быстрый поиск данных с использованием сложных поисковых запросов из-за огромного количества информации, а со скоростью поиска у программы явно проблемы. Надо сказать, что работа с сетью у Ищейки продумана как следует. Специально для этого предназначено отдельное приложение — Ищейка Сервер. Оно работает так же, как и просто Ищейка (поисковой движок у них один), только для документов, размещенных на центральном сервере или на общих ресурсах в корпоративной сети. Ищейка Сервер создает новые индексы на общих ресурсах, либо использует ранее созданные. Любой пользователь локальной сети может подключиться к Ищейке Сервер и использовать ее для доступа к любому документу (находящемуся в текущем индексе), используя интернет-браузер. Согласитесь, такая схема крайне удобна: получается, что файлы в собственной сети можно искать таким же образом, как информацию в Интернете через, например, Google.

Сам собой напрашивается вывод, что для корпоративных сетей возможностей данной программы, скорее всего, не хватит (несмотря на неплохую организацию работы с сетью), а вот для домашнего компьютера или даже для домашней сети она, в принципе, может подойти. Хотя ни скорость работы, ни возможности по поиску не внушают оптимизма…

Официальный сайт на русском языке: www.isleuthhound.com/ru . Размер дистрибутива: 6 Мбайт

Google Desktop Search + GDS Enterprise
Конечно же, мы не могли обойти стороной такого именитого разработчика. Имя Google уже говорит о многом. Народ, годами пользовавшийся мощнейшим интернет-поисковиком, наверняка без единого сомнения решит установить на компьютере именно этот поисковик. Это ж подумать только: Google на домашнем компьютере! Однако, не поддаваясь на провокации с широко раскрученным брэндом, попробуем трезво и объективно рассмотреть возможности «настольного» поисковика от Google.

Первое, что бросается в глаза — отсутствие собственной оболочки для программы. Google Desktop Search по-прежнему находится в окне браузера, соответственно, весь интерфейс настольной версии достался софтине от старшего интернет-брата. Хорошо это или плохо — спорный вопрос: кому-то по душе минимализм в дизайне этого поисковика, а кому-то хочется видеть полноценное приложение, наполненное всякого рода кнопочками и т. д.

Что бросается в глаза сразу после дизайна? А то, что этот самый Google Desktop Search начинает индексировать на компьютере все подряд, без всякого на то спроса! И что самое интересное, выбрать пути индексации при помощи Google Desktop Search невозможно. Придется скачать отдельную программку (TweakGDS), которая позволит несколько расширить настройки Google Desktop, в том числе и указать необходимые для индексации места. Хотя, пока со всем этим разберешься, стандартный винчестер он уже проиндексирует, так что такая настройка нужна скорее при работе с большими массивами данных, что очень актуально при использовании в корпоративных сетях (версии Enterprise). Однако не факт, что после скачивания TweakGDS ваши проблемы решатся. Ведь для работы ей необходимы Microsoft .NET Framework и Microsoft Scripting Runtime. Да уж… установку, как и доступ к настройкам, можно было сделать и попроще, хотя, наверно разработчиков можно понять: зачем писать что-то новое, когда есть уже готовый поисковик, — портировал его на локальный компьютер, и пускай пользователь «наслаждается», а известное имя сделает из «этого» очередной шедевр. Ну да ладно, перейдем собственно к поиску.

Что касается анализа поисковых запросов и выдачи результатов, то здесь все абсолютно идентично Google в Интернете: такая же система отображения результатов, тот же набор логических операций для поисковых запросов. В общем, Google Desktop Search, как и предыдущая программа, предназначен исключительно для поиска файлов — внутреннего просмотрщика этих файлов в нем нет.

Количества поддерживаемых файловых форматов вполне достаточно. Приятно также, что Google Desktop Search осуществляет поиск по посещенным интернет-страницам, беря данные из кэша. Скорости поиска и индексирования вполне приемлемые. Правда, для домашнего использования. С внушительными 20 гигабайтами текстов Google Desktop Search справилась за 8 часов 17 минут. Потратить несколько дней на обработку информации из сети крупного предприятия не улыбается ни одному сисадмину. Из плюсов: размер создаваемого индекса (4,5 Гбайт) оказался на уровне с единоличным лидером данного обзора — поисковиком SearchInform.

Большое преимущество (или упущение — решать вам) Google Desktop Search заключается в том, что он поддерживает плагины, которые способны многое переменить к лучшему. Другое дело, что подключение плагинов и их настройка настолько усложняет задачу установки поисковика, что начинаешь задумываться — а надо ли все это, когда можно установить нормальную программу, в которой уже все присутствует. Ведь для задействования каждой возможности придется устанавливать новый плагин. Отдельная примочка нужна даже для того, чтобы программа могла полноценно работать с архивами. Завораживает и прельщает бесплатность всех дополнительных модулей. Однако, если не брать в расчет десктоповую версию поисковика, грамотная настройка GDS Enterprise может оказаться вам не под силу — ведь не зря специалисты из Google предлагают свои услуги по настройке их же ПО для вашей сети — всего лишь за $10000.

Если же вы все-таки осилите процедуру настройки и установки (или заплатите $10000 бригаде быстрого реагирования из конторы Google), то поймете, что сложность установки с лихвой компенсируется очень гибкими настройками при использовании в корпоративных сетях. Немаловажным моментом работы Google Desktop в этом случае является использование групповых политик, что дает возможность установить настройки для каждого пользователя.

Подводя итог, следует сказать, что самое разумное применение для этой программы — домашний или рабочий компьютер. Ведь для обычного компьютера достаточно просто установить программу — остальное она сделает сама (вас даже ни о чем не спросит). Тем не менее, Google Desktop Search Enterprise будет приемлема в случаях острой необходимости в гибкой настройке сетевой политики для использования поисковика, при этом возможности обработки поисковых запросов будут на втором месте по значимости, а время (или деньги), затраченное на настройку программы — на первом месте.

Официальный сайт: www.google.com . Размер дистрибутива вместе с TweakGDS: 1,2 Мбайт

Copernic Desktop Search 
Интерфейс программы вызывает только положительные эмоции — все сделано в соответствии с общепринятыми стандартами, ничего лишнего. Новичку разобраться в интерфейсе Copernic Desktop Search будет очень просто. Несколько смущает лишь то, что дизайнеры создавали интерфейс программы явно с учетом того, что она будет работать в стандартной теме оформления Windows XP. При использовании же классической темы программа выглядит не настолько симпатичной. Но это уже дело вкуса.

При первом же запуске программа предлагает создать индексы для поиска. Несколько необычным показалось то, что после выбора папок для индексирования программа не предлагает нажать какую-нибудь кнопку, вроде «Начать индексацию», при этом индексация не начинается автоматически. Оказалось, что Copernic пытается начать индексацию во время простоя компьютера. Придется несколько покопаться в опциях программы, чтобы настроить все должным образом. Надо отметить, что возможности по настройке автоматического создания индекса довольно широкие: встроенный планировщик, возможность индексации во время простоя компьютера, в фоновом режиме, с низким приоритетом. Индексация проходила не слишком быстро: 10 часов 51 минута — это медленнее, чем в других поисковиках (кроме Ищейки, все же Copernic быстрее разработки iSleuthHound Technologies на порядок).

В структуре индекса ничего особенного нет. Есть возможность выбора типов файлов, причем как в обобщенном виде, так и в подробном. Таким образом, изначально вы можете выбрать, что требуется индексировать — Документы, Изображения, Видео, Музыку. На другой вкладке окна опций есть возможность выбрать конкретно типы файлов по расширению. Дополнительно можно сделать так, чтобы, например, не индексировались картинки размером менее 16х16 или не индексировались звуковые файлы длиной менее 10 секунд. Помимо индексации файлов из папок Copernic умеет работать с электронными письмами и контактами из адресной книги Microsoft Outlook и Outlook Express, возможна индексация Избранного и Истории из Internet Explorer.

Что касается возможностей поиска, то они весьма слабы. Во время тестов было выявлено, что программа не ищет документы форматов txt и html на русском языке, позволяя найти их только по заголовкам, а отнюдь не по содержанию. Единственное, что программа предоставляет для повышения эффективности поиска — это использование стандартного набора логических операций, да и то эта возможность была обнаружена экспериментальным путем, так как документирована не была. Кстати, со справкой у программы также не все в порядке — она доступна только через Интернет, что, согласитесь, неудобно, да и в сети справочной информации не слишком много. Видимо разработчики решили, что простой интерфейс программы не предполагает наличия нормальной справки.

Продолжая разговор о возможностях поиска, следует отметить, что несмотря на слабый анализ запросов программа предоставляет интересную систему поиска — пользователь может выбрать тип файлов (изображения, видео, музыка…), ввести поисковый запрос и выбрать атрибуты, присущие именно данному типу файлов. Например, для звуковых файлов это могут быть значения из mp3-тегов (артист, альбом, дата и т. п.), для изображений, например, можно выбирать размер (по разрешению). В общем, каждому типу — свои настройки. После поиска по типу файлов программа выдаст в окне результатов весьма информативный список, причем, если под ваш запрос попали файлы других типов, то вы сможете открыть и их, нажав на определенную ссылку.

Отдельно стоит описать окно отображения результатов. Под списком найденных файлов отображается содержимое этих файлов (аналогичная схема часто используется в почтовых клиентах). Правда, просмотр текста возможен лишь в родном формате, а режима отображения plain-текста нет, что не всегда удобно, так как открытие документа в этом случае занимает больше времени. Зато, учитывая, что Copernic умеет искать изображения и музыку, здесь есть возможность просмотра и этих мультимедийных файлов.

Теперь посмотрим, что Copernic Desktop Search может предложить для работы с сетью. В принципе, смотреть можно очень долго, но увидеть что-либо вряд ли удастся. Короче, эта программа и не задумывалась как сетевая. Copernic Desktop Search — исключительно домашний поисковик.

На домашнем компьютере она вполне справится со всеми поисковыми запросами пользователей, состоящими из одного-двух слов, найдет нужную информацию, а разделение поиска по типам файлов и поддержка мультимедийных файлов вкупе с фоновой индексацией в режиме низкого приоритета и приятным интерфейсом только придают программе сил для завоевания доверия среди неискушенных пользователей.

Официальный сайт http://www.copernic.com/ . Размер дистрибутива: 2,6 Мбайт

ISYS Desktop 
Очень мощная программа. По уровню оснащенности всевозможными функциями она находится где-то рядом со следующей в списке системой поиска SearchInform. При этом размер установочного файла — более 40 Мбайт! Сложно сказать, что можно было засунуть в такие размеры, ведь тот же SearchInform с похожей функциональностью занимает 15 Мбайт.

Процесс установки здесь также не слишком приятен, точнее, даже не процесс установки. Еще до скачивания программы вас попросят зарегистрироваться, а иначе — никак. Далее, интерфейс. Сделан он весьма симпатично, ничего лишнего в глаза не бросается, однако новичку разобраться, где что находится и куда нажимать, будет непросто. Очень рекомендуется прочитать справку перед началом работы — сэкономите много нервов и времени. К этому добавляется также полное отсутствие поддержки русского языка.

Вдобавок окна здесь не перегружены элементами управления, однако расплатиться за это пришлось многомодульностью и использованием дополнительных окон. Например, запросы для поиска вводятся при помощи запуска одной программы, а управление индексами — при помощи уже другой программки. Поисковые запросы вводятся здесь также в отдельных появляющихся окошках. Что лучше — перегруженность интерфейса или повсеместная многооконность — сказать трудно, скорее, это дело вкуса.

Что касается создания индексов, программа предоставляет возможности по упрощению установки опций для нового индекса. Есть несколько готовых шаблонов для создания индексов по папкам «Мои документы», «Почта», «Почта и документы», «Определенная папка», «Папка с выбором типов файлов» и др. Такие шаблоны упрощают создание индексов на первом этапе.

Утилита для работы с индексами обладает не слишком удачным интерфейсом, отпугивающим некоторой сложностью (пусть это весьма субъективная оценка), однако, если разобраться, он предоставляет множество полезных опций и в целом особых трудностей не вызывает. ISYS Desktop умеет индексировать данные из разных источников данных, а также предоставляет множество гибких настроек для такой индексации. Среди дополнительных возможностей индексации: поддержка SQL, FTP, TRIM Context, WORLDOX 2002, скриптов. При создании индекса, если вы выбирали пункт «Папка с выбором типов файлов», можете выбрать типы файлов для индексации вручную (по расширению). Надо сказать, что поддерживаемых типов файлов огромное количество, однако свой тип (расширение) добавить в список не удастся. Можно также отметить наличие планировщика индексации. Созданием индекса и обработкой 20 Гбайт информации ISYS Desktop занималась 6 часов 13 минут, в конечном итоге показав неплохое время и размер созданного файла — 7.9 Гбайт.

У этой программы неплохие возможности поиска. То, что используется в ISYS, значительно мощнее обычной поддержки логических операций. Из продвинутых возможностей по поиску программа предлагает использование синонимов, фильтра сортировки (по пути, имени и дате создания файла). Набор логических операторов несколько шире стандартного. Помимо логических операций программа позволяет работать со многими другими операторами, которые способны заменить некоторые виды поиска. Например, поиск с синтаксическим разбором вполне можно заменить использованием специальных операторов. Очень удивило то, что отсутствует поиск с использованием морфологии. Это серьезное упущение, так как сильно снижает эффективность поиска. Кроме того, нет списка значимых слов, зато присутствует обширный список незначимых. Заявлены и такие функции при поиске, как «приблизительный поиск» и «эвристический анализ».

ISYS предоставляет на выбор несколько видов поисковых запросов, именно видов — визуальных. Это достигается при помощи разных видов окон для ввода поисковых запросов, однако фактически ни одно окно не позволяет использовать технологии, отличные от перечисленных выше. Результаты поиска информативны, отображаются в виде списка документов, отсортированных по релевантности. Ниже отображается предпросмотр выбранного документа. В отличие от Copernic Desktop Search, предпросмотр здесь доступен лишь в виде plain-текста, добиться отображения документов в «родном» формате, будь то Word, HTML или PDF, так и не удалось, хотя в принципе это не слишком критично. Программа позволяет разбивать найденные документы на группы по определенным признакам (по умолчанию они разделены по релевантности). Можно также просматривать уже найденные документы, выбирая отдельные папки (это удобно, когда в результате вы получаете очень большое количество документов).

Использование программы в локальной сети также вполне оправдано — она предоставляет неплохие возможности по организации сетевого поиска. В основе — создание общедоступного индекса, который содержит проиндексированные данные с общедоступных сетевых ресурсов.

По сути программа от ISYS достойна внимания. Это зрелый проект, обладающий огромным количеством функций (не всегда и не всем, конечно, они бывают нужны, но все же). Шансы на то, что в программе появятся некоторые улучшения в части обработки поисковых запросов, неизвестны, но и на данный момент ее можно рекомендовать практически для повсеместного использования. А учитывая, что для домашних систем она все же слишком грузная, то основные места ее инсталляции — корпоративные сети.

Официальный сайт: www.isys-search.com/ . Размер дистрибутива: 40 Мбайт

SearchInform 
Для начала опишу процесс установки, а точнее, одну его деталь: вы не сможете установить программу без подключения к Интернету. Дело в том, что перед первым запуском программа требует регистрации пользователя (бесплатной) и отправляет все введенные данные на сервер. Видимо, разработчикам пришлось принять такие меры в борьбе с пиратством, однако на удобстве установки это положительным образом не отразилось.

Интерфейс программы выполнен с соблюдением всех общепринятых правил, однако, на первый взгляд, несколько громоздок. Новичку покажется, что он чересчур сложный, иногда бывает не просто вспомнить, в каком меню или на какой вкладке находится нужная опция. Однако при более длительном использовании интерфейс уже не кажется таким ужасающе сложным. Главное — предварительно почитать справку.

Процесс создания индекса весьма прост, скорость индексации даже на глаз значительно выше, чем у всех других поисковиков из обзора. Четкие цифры тестов показывают: SearchInform в два раза обогнала dtSearch и iSYS по скорости индексации! Программа проиндексировала 20 Гбайт данных за рекордное время — 3 часа 17 минут. Да и размер созданного индекса оказался самым небольшим, 4,4 Гбайт — на 100 Мбайт меньше, чем у Google Desktop Search.

Помимо обычных файлов и папок программа поддерживает индексацию электронных писем, подключение и индексацию баз данных (!) и других внешних источников (DMS, CRM). Сразу же при индексации можно указать словарь для морфологического поиска, индексироваться могут все атрибуты файлов. Учитывая такую сложную структуру индекса и оптимизация алгоритмов заслуживает уважения! А ведь помимо реактивных скоростей индексирования сам поиск информации также оказался самым быстрым. Да и размер файла индекса опять же самый маленький! Казалось бы, не бывает так, что все параметры выше — чем-то всегда приходится платить. Однако SearchInform — явное исключение из закона сохранения энергии.

После создания индекса при попытке провести первый пробный поиск документов можно прийти в некоторое замешательство: «Здесь два вида поиска, а какой же из них нужен мне?». Как уже говорилось, главное — прочитать справку, тогда все станет понятно. Программа действительно ориентирована на два вида поиска -фразовый поиск и поиск документов, похожих по содержанию на текст запроса.

Описание основных функций для анализа поискового запроса было приведено выше, поэтому сейчас лишь перечислю предоставляемые возможности поиска. Начнем с фразового поиска: конечно же, морфологический поиск, цитатный поиск, логические операции, поиск с синтаксическим разбором слова (поиск по началу слова, по окончанию, по средней части, либо полное совпадение), смешанный цитатный поиск (когда все слова из запроса должны присутствовать в документе, но необязательно во введенном порядке), поиск с коррекцией ошибок, использование синонимов, «почти цитатный поиск» (поиск введенной фразы как цитаты, но между введенными словами могут присутствовать другие слова) и т. п. Некоторые из перечисленных опций имеют особые настройки. Кроме того, есть возможность использования словаря незначимых слов, причем в программе уже есть готовый их список. Для поиска можно использовать также словарь приоритетных слов (его, разумеется, вам придется заполнить самому).

Вот, в принципе, и все основные возможности фразового поиска. Теперь становится понятна причина перегруженности интерфейса — потрясающая функциональность тяжело уместить в нескольких кнопках! Изюминка данной программы — поиск похожих документов. Разработчики утверждают, что это не простой поиск текста, а именно «поиск похожих» — так он описан у них везде. Ну да ладно, называть это можно как угодно, главное — суть. Недолгие поиски в Интернете могут быстро дать информацию о том, что так называемый «поиск похожих» — революционная разработка в области анализа текста. Эта система позволяет находить тексты, похожие именно по смысловому содержанию. Самым приятным оказалось то, что тесты подтвердили: теория тут вполне совпадает с практикой! Программа действительно ищет похожие по содержанию документы и отображает их в списке, упорядочивая по проценту похожести. Похвально!

Теперь посмотрим, что предлагает SearchInform (в частности, ее корпоративная версия SearchInform Corporate) для работы в корпоративной сети. Оказывается, что и здесь все на должном уровне. Существует два вида приложений: серверная часть и пользовательская. Серверная часть самостоятельно обрабатывает указанные индексы, а пользователи могут использовать их для поиска в зависимости от назначенных им прав доступа. Последние могут быть настроены автоматически, используя учетные записи Windows (говоря профессиональным языком, SearchInform использует NTFS-аутентификацию Windows), так и вручную (пользователей придется добавлять по отдельности). Каждому пользователю можно разрешить или запретить доступ к определенным индексам, можно объединять пользователей в группы. В общем, по гибкости настроек для работы в сети SearchInform определенно опережает Google, а по удобству и простоте — Ищейку Сервер.

Эту программу можно с уверенностью порекомендовать к использованию в любых условиях. Если для работы критична скорость и мощный анализ запросов, то здесь SearchInform проявит себя в полной мере.

Официальный сайт: www.searchinform.com . Размер дистрибутива: 14,7 Мбайт

Резюме


Все программы достойны внимания за исключением разве что Ищейки Проф Deluxe, показавшей посредственные результаты в скоростях и качестве поиска и оказавшейся на самом дне при создании индекса (кстати, размер индекса соответствовал индексируемой информации — это огромный минус).

Можно сделать определенные выводы. Итак, Google Desktop Search и Copernic Desktop Search вполне подойдут неискушенному пользователю как домашние системы поиска информации. Они неплохо справляются с простыми запросами, не сильно загрузят пользователя настройками и при том совершенно бесплатны. Попытка Google выйти на рынок корпоративных поисковиков пока не сильно оправдана: для полноценной работы программу нужно обвешивать дополнительными модулями, да и в настройке она далеко не проста. Поэтому говорящие названия Desktop Search что у Copernic, что у Google отставляют за ними нишу «настольных» поисковиков.

Правда, более мощные решения — dtSearch, iSYS и SearchInform — тоже предлагают пользователям свои «настольные» версии, но по сходной цене, в отличие от бесплатных софтин от Google и Copernic. Конечно, за мощность, скорость и функционал приходится платить. Но главный прицел разработчики dtSearch, iSYS и SearchInform делают на корпоративный сектор. Работа с сетью, функциональность, скорость индексации и поиска — вот что отличает эти продукты от их конкурентов. Но и тут благодаря проведению тестов и кропотливому разбору результатов удалось установить явного победителя. Это разработка российской компании СофтИнформ — поисковая система SearchInform. Программа опережает аналогичные разработки как по скорости индексирования и поиска, так и по набору функций. А если учесть революционную и уникальную возможность SearchInform — поиск документов, похожих по содержанию и смыслу на текст запроса, — то данная программа просто вне конкуренции.

 

Источник: winzone.ru

Оставить комментарий

Чтобы оставлять комментарии Вы должны быть авторизованы.

Похожие посты