 |
Навигация |
 |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
Отдых  |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • Кыргызстан |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • Египет |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
Ремонт  |
| •
|
| • |
| • |
| • Жалюзи |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
| • |
|
 |
|


|
 |
|
| |
|
Новость добавлена:
28 февраля 2007 |
 |
 |
|
Поиск в Сети, которой «нет»... |
| |
Deep Web — обширное хранилище информации, которое иногда не индексируется автоматическими механизмами поиска, но всегда
открыто для знающих пользователей.
Shallow Web (ее также называют Surface Web или Static Web) представляет собой совокупность Web-сайтов, проиндексированных
автоматическими механизмами поиска. Сетевой агент («робот») поисковой машины проходит по известным ему ссылкам URL,
индексирует контент, а затем передает результаты поисковой машине для консолидации результатов и последующих ответов на
запросы пользователей.
В идеале в рамках этого процесса в конечном итоге должна быть просмотрена вся Сеть с учетом ограничений времени,
отпущенного разработчиком на поиск, и объема хранения.
Ключевой момент в этом процессе — индексация. Агент не сообщает, что он не может что-либо индексировать. На первом этапе
формирования Web, когда она в основном состояла из статических, общих HTML-кодов, это не вызывало особых проблем, но сегодня
Web-сайты содержат мультимедиа, скрипты и другие виды динамического контента.
Deep Web состоит из Web-страниц, которые механизмы поиска не могут или не станут индексировать. Популярный термин
«Невидимая Сеть» на самом деле не верен, поскольку эта информация вовсе не является невидимой — просто агент ее по тем или
иным причинам не проиндексировал.
Между тем объем Deep Web больше, чем Shallow Web, как минимум в пять раз. Этот показатель может вырасти до 500 — в
зависимости от того, у «кого» вы спрашиваете. Так или иначе, это огромный и исключительно важный сетевой ресурс. Судите
сами: если ведущие поисковые машины все вместе индексируют лишь 20% Web, то свыше 80% ее содержимого остается вне поля их
зрения.
Почему она больше?
Как правило, механизмы поиска не индексируют следующие виды Web-сайтов: закрытые; требующие регистрации; содержащие
скрипты; динамические; создающиеся на очень короткое время; блокированные их Web-мастерами; в специальных форматах;
поисковые базы данных.
Закрытые сайты требуют платы. Для того чтобы попасть на сайты с регистрацией, необходимо учетное имя или пароль. Агент
может индексировать код скриптов (например, Flash, JavaScript), но не всегда в состоянии установить, что этот код делает.
Некоторые некорректно написанные скрипты оказываются для агента ловушками, заставляя его входить в бесконечный цикл.
Динамические страницы (например, расписание авиарейсов) создаются по требованию и до появления запроса вообще не
существуют, после чего сохраняются совсем ненадолго.
Если вы даже заметили интересную ссылку на новостном сайте, возможно, что к вечеру того же дня вы ее просто не
найдете.
Web-мастер может попросить, чтобы его Web-сайт не индексировался (для этого служит, в частности, протокол Robot Exclusion
Protocol), а некоторые машины поиска пропускают сайты, построенные на своих собственных закрытых корпоративных
политиках.
Еще совсем недавно механизмы поиска не могли индексировать и файлы в формате PDF, в силу чего пропускали огромное
количество информационных материалов и технических отчетов различных компаний, не говоря уже об официальных государственных
документах.
По мере совершенствования механизмов индексации специальные форматы вызывают все меньше проблем.
Безусловно, самые ценные ресурсы Deep Web — это базы данных, в которых можно вести поиск. Существует тысячи обладающих
высоким качеством, заслуживающих доверия специализированных онлайновых поисковых баз данных. Эти ресурсы особенно полезны
для целенаправленного поиска.
В Web имеется немало сайтов, которые играют роль интерфейса для таких баз данных. Complete Planet, IncyWincy Spider и
Librarians’ Internet Index дают ссылки для качественного поиска по базам данных Web. Такая методика называется поуровневым
поиском. Введите фразу searchable database на любом из вышеперечисленных сайтов, и вы узнаете о таких базах данных
значительно больше.
Вы можете найти и другие тематические базы данных, введя ключевую фразу "<предметная область> database" в поисковое окно
предпочитаемого вами механизма поиска, например (jazz database, virus database).
Наивный пользователь, как правило, вводит ключевое слово в окно механизма поиска общего назначения, получает слишком много
ссылок, а затем тратит время и силы на то, чтобы выбрать из них интересные для себя. Может случиться и обратное: не будет
найдена ни одна ссылка, и пользователю останется лишь удивляться, почему? Так или иначе, очень трудно получить все нужные и
не получить ненужные ссылки. Специалисты по информатике называют это «законом полноты и точности».
Аутентичные специализированные поисковые базы данных (как это следует из их названия) содержат относящуюся к делу
информацию и очень немного посторонних сведений.
Не забывайте сохранять закладки на различные тематические базы данных, чтобы впоследствии можно было быстро обратиться к
нужному ресурсу Deep Web.
Стратегия поиска в Deep Web
Deep Web содержит ценные ресурсы, труднодоступные для автоматических механизмов поиска, но открытые для знающих
пользователей. Для доступа ресурсов, пропущенных в Shallow Web, более эффективным и результативным инструментом может
оказаться процесс интерактивного поиска
Имейте в виду, что Deep Web существует.
Используйте общий механизм поиска для широкого тематического поиска.
Используйте поисковые базы данных для направленного поиска.
Зарегистрируйтесь на специальных сайтах и используйте их архивы.
Изучите Web-сайт публичной библиотеки. Некоторые из них предлагают бесплатные услуги удаленного доступа к коммерческим и
научным базам данных для тех, у кого есть библиотечная карточка. Кроме того, библиотеки учебных заведений могут иметь
подписку на соответствующие сервисы и предоставляют возможность бесплатно искать информацию на сайтах, недоступных для
механизмов поиска общего назначения.
http://www.osp.ru
|
| |
|
|
|
 |
 |
|
 |
|