|
|
pro-search - file search and navigation system |
(Версия: 0.18.3 от 2009-10-09) [+] [обсудить] |
| Система файлового поиска и навигации. Быстрое сканирование ftp, windows shares, http. Обработка описаний из *.m3u, files.bbs, descript.ion.
Гибкая система выдачи результатов поиска (M3U, RSS, XML, в консоль) |
|
|
|
|
smbsearch - система поиска файлов по SMB сети |
[+] [обсудить] |
| Система поиска файлов в расшаренных каталогах компьютеров локальной сети. Система не только индексирует данные, но и следит за активностью работы машин, ведет статистику, как суммарную, так и по файлам.Присутствует режим просмотра содержимого сети. Для работы используется php, apache, perl, nmap, samba, MySQL.
Аналог: ffsearch - поиск по SMB томам и FTP серверам. |
|
|
|
|
|
ASPSeek - GNU GPL Поисковая машина для Интернет, написана на С++ |
(Версия: 1.2.10 от 2002-07-23) [+] [есть мнение] |
| Программа состоит из индексирующего робота,
демона поиска и поискового CGI-скрипта.
ASPSeek может индексировать и искать по нескольким
миллионам URL. Поддерживается поиск слов, фраз,
wildcards, булевские выражения. Результаты сортируются
по релевантности (используются PageRanks) или
по дате. Продукт оптимизирован для работы с большим
количеством сайтов. ASPSeek понимает все русские кодировки. |
|
|
|
|
FLUIdS - Локальная поисковая система |
[+] [есть мнение] |
| FLUIdS представляет собой свободно распространяемую локальную поисковую машину, предназначенную для использования совместно
с Web сервером. С ее помощью Вы легко можете создать службу поиска для своего сервера. Изначальная поддержка всех русских кодировок. |
|
|
|
|
mnoGoSearch - full-featured SQL-based free search engine |
(Версия: 3.3.14 от 2013-04-04) [+] [обсудить] |
| Универсальная поисковая система для Internet/Intranet серверов.
Индексирует по протоколам HTTP, FTP, NNTP и на локальных дисках.
Настраиваемые веса для заголовков, ключевых слов, тела документа. В запросах воспринимает различные формы слов и логические операторы. Результаты запросов можно настроить с помощью HTML шаблонов. mnoGoSearch может хранить данные во всех популярных SQL БД, а также во встроенной базе для малых сайтов.
Поисковые движки с web-интерфейсом на PHP: iSearch, PHPDig , RiSearch, Sphider, TSEP.
|
|
|
|
|
Apache Lucy - full-text search engine library written in C |
(Версия: 2.4.9 от 2014-06-14) [+] [обсудить] |
| Попытка переписать один из самых мощных поисковых движков Apache Lucene на языке Си. Изначально библиотека Lucene написана на Java и обладает неплохой производительностью, переработка её на Си сулит ещё большее увеличение скорости работы и возможность создания на базе Lucy реализаций модулей для различных скриптовых языков программирования.
В настоящий момент биндинги для Lucy доступны только для языка Perl, но в будущем ожидается реализация поддержки и других динамических языков. |
|
|
|
|
Thrudb - indexing and document storage services |
[+] [обсудить] |
| Thrudb предназначен для индексирования и хранения документов. Код системы основан на наработках социальной сети Facebook, поддерживается интеграция с системами кеширования Memcache и Spread, в качестве бэкенда для конечного хранения данных может использоваться BerkeleyDB, Disk, MySQL, S3. |
|
|
|
|
HyperEstraier - full-text search system |
[+] [обсудить] |
| Система полнотекстового поиска, в качестве БД для хранения индексов используется специализированное хранилище QDBM (B+ tree). Особенности:
- Высокая производительность поиска;
- Поддержка горизонтального масштабирования, P2P архитектура (на базе данной системы работает поиск в крупнейшей социальной сети Японии);
- Учет ссылок при расчете релевантности, через задействование N-gram (группа из N последовательных символов) метода и морфологического анализатора;
- Поддержка поиска точных фраз, поиска по регулярным выражениям и неточным совпадениям;
- Поддержка Unicode;
- Для индексации web-страниц задействован функциональный бот;
- Простой API с поддержкой биндингов для языков Java, Ruby, Perl, Python;
|
|
|
|
|
YaCy - Web Search Engine |
(Версия: 1.4 от 2013-04-12) [+] [обсудить] |
| Проект открытого поискового механизма с реализацией на языке Java. Система полностью децентрализованная (peer to peer), поисковый индекс распределен по машинам добровольцев, запустивших YaCy сервис, в разных точках сети. |
|
|
|
|
Chestnut FTP Search |
[+] [есть мнение] |
| Web-приложение для поиска файлов на FTP серверах, написанное на Python используя web.py. Для хранения индексов файлов используется PostgreSQL или MySQL. Возможности: режимы поиска: частичное совпадение, точное совпадение, регулярное выражение, шаблон оболочки; возможность указания кодировки для отдельных серверов; поиск с транслитерацией; интернационализация (русский, украинский, английский). |
|
|
|
|
|
Semantic Indexing Project |
[+] [обсудить] |
| Проект по созданию поискового движка, позволяющего вместо традиционной обработки ключевых слов выявить смысловые связи между поисковой фразой и документами в базе, отталкиваясь от близости слов по смыслу.
Для наглядного представления семантических связей в документе, разработана специальная утилита.
Базовый код (Semantic-Engine) написан на Си++, также присутствует интерфейсный модуль на Perl. Все наработки проекта распространяются под лицензией GPL. |
|
|
|
|
Sphinx - Free open-source SQL full-text search engine |
[+] [обсудить] |
| В рамках проекта Sphinx реализована поддержка полнотекстового поиска для любых типов хранилищ MySQL, включая InnoDB. В последних версиях дополнительно поддерживается СУБД PostgreSQL. Кроме, того приложение привносит ряд дополнительных новшеств, например, создание распределенных поисковых запросов.
Так как автор проекта (Andrew Aksyonoff) проживает в России, то в Sphinx имеется отличная поддержка русского языка, включая возможность подключения русскоязычного стеммера.
Что касается поискового механизма Sphinx (выше речь шла о патче для MySQL входящем в комплект Sphinx), то кроме MySQL имеется поддержка PostgreSQL. При измерении производительности Sphinx выполнил запрос в 15 раз быстрее чем Mnogosearch, в среднем потратив 0.1 сек при индексации 2-4 Гб текста. Разработчики заявляют, что Sphinx неплохо себя чувствует при объемах индексируемых данных до100 Гб или 100 миллионов документов.
Основные особенности Sphinx:
- Высокая скорость индексации (до 10 Мб/сек);
- Высокая скорость поисковой выборки (0.1 сек. для запроса в базе с 2-4 Гб проиндексированного текста);
- Высокая масштабируемость (один CPU может использоваться для обслуживания 100 Гб текста и 100 млн. документов);
- Возможность организации распределенного на несколько узлов поискового механизма;
- Нативная поддержка MySQL, поддерживаются как стандартные движки MyISAM и InnoDB, так и собственное хранилище SphinxSE
- Поддержка поиска по заданным фразам;
- Возможность вероятностного поиска с использованием ранжирования с элементами нечеткой логики;
- Поддержка стеммеров для русского и английского языков;
- Поддержка индексации любого числа полей в документах, вес для которых может изменяться на лету;
- Поддержка групп документов;
- Возможность определения запрещенных слов
- Поддержка различных моделей поиска (совпадение всех ключей, совпадение фразы целиком, совпадение отдельных слов);
- XML интерфейс для интеграции со сторонними проектами;
- Доступно API для PHP, Python, Java, Perl и Ruby.
|
|
|
|
|
|
|
|
Namazu - full-text search engine software |
[+] [обсудить] |
| Подходит для организации системы полнотекстового поиска на локальном диске, а так же на небольшом или среднем сайте. Написана на Perl. В качестве хранилища используются простые текстовые индексы. |
|
|
|
|
IndexData Zebra - high-performance structured text indexing and retrieval engine |
[+] [обсудить] |
| Высокопроизводительная система хранения проиндексированной информации. Выборка данных осуществляется через поисковый запрос (кроме простых запросов возможно использование регулярных выражений или выборка примерных совпадений). Для управления используется специальный язык запросов. Система может хранить десятки миллионов документов.
Похожие проекты (кирпичики для построения поисковых систем):
Senga - components to build a large scale internet search engine;
Greenstone - software for building and distributing digital library collections;
MG - open-source indexing and retrieval system for text, images, and textual images;
|
|
|
|
|
Harvest - A Distributed Search System |
[+] [обсудить] |
| Поисковый механизм выгодно отличающийся тем, что может индексировать что угодно (HTML, DVI, PS, PDF, troff, RTF, Microsoft Word/Excel, SGML и т.д.), где угодно (HTTP, FTP, NNTP и т.д.). Индексы хранятся в GDBM базе. Для индексации 100 тыс. документов, объемом 1.5 GB достаточно Pentium 650MHz с 256MB ОЗУ, присутствует возможность распределения нагрузки на несколько машин.
harvest-ng - попытка переписать Harvest на Perl с сохранением общей архитектуры.
Документация пользователя Harvest на русском языке. |
|
|
|
|
Swish-e - Simple Web Indexing System for Humans - Enhanced |
(Версия: 2.4.3 от 2005-08-20) [+] [обсудить] |
| Перспективный, активно развивающийся набор инструментов для построения поисковой системы. Swish-e написана на языке Си, присутствует Perl интерфейс и API для построения расширений. Индекс хранится в файле собственного формата (разновидность бинарных деревьев). Для стеминга используется Snowball. Богатые возможности настройки, кроме web-сайтов может индексировать файлы различного формата в локальной ФС и содержимое полей в СУБД. Присутствует режим экономии ОЗУ (-e), когда в процессе индексации используется файл подкачки. |
|
|
|
|
Perlfect Search - site indexing/searching suite |
[+] [есть мнение] |
| Небольшая GPL система для организации поиска на сайте (несколько тысяч страниц). Написана на Perl, для хранения индексов используется Berkeley DB база. Скрипт ввода результатов поиска использует темплейты, что упрощает русификацию. |
|
|
|
|
Nutch - open-source web search engine. |
[+] [обсудить] |
| Поисковый механизм в открытых исходных текстах. Написан преимущественно на Java, критичные подсистемы разработаны с использованием C++. Позиционируется как движок для поисковых систем глобального масштаба, например, тестируется на индексе в 100 миллионов страниц.
Carrot2 - система для подготовки и ранжирования результатов поиска;
egothor - еще один, очень скромный на фоне nutch, открытый поисковый движок на Java; |
|
|
|
|
|
|
|
|
FFIND - FTP-search engine |
[+] [обсудить] |
| Поисковая система по нескольким ftp-серверам (индексация примерно 1,000,000 файлов). Для работы не требуется БД, внешний вид настраивается через темплейт. |
|
|
|
|