Поисковые машины Интернета

Поисковые машины Интернета
Разное / Интернет

Врач-аспирант может найти в Интернете научные статьи для написания литературного обзора медицинской кандидатской диссертации, статьи на иностранном языке для подготовки к экзамену кандидатского минимума, описание современных методик исследования и многое другое...

О том, как искать с помощью поисковых машин информацию в Интернете и пойдет речь в данной статье.

Для тех, кто еще не очень хорошо ориентируется в таких понятиях как сайт, сервер - сообщаю начальные сведения о Интернете.

Интернет - это множество сайтов, размещенных на серверах, объединенных каналами связи (телефонными, оптоволоконными и спутниковыми линиями).

Сайт - это совокупность документов в формате html (страниц сайта), связанных между собой гиперссылками.

Большой сайт (например "Medlink" - медицинский тематический каталог http://www.medlinks.ru - состоит из 30000 страниц, а объем дискового пространства, который он занимает на сервере, составляет около 400 Mб).
Небольшой сайт состоит из нескольких десятков - сотен страниц и занимает 1 - 10 Мб (например мой сайт "Врач-аспирант" http://www.disser.ru 25 июля 2004 г. состоял из 280 .htm-страниц и занимал на сервере 6 Мб).

Сервер - это компьютер, подключенный к Интернету и работающий круглосуточно. На сервере могут быть размещены одновременно от нескольких сотен до нескольких тысяч сайтов.

Сайты, размещенные на компьютере-сервере, могут просматривать и копировать пользователи Интернета.

Для обеспечения бесперебойного доступа к сайтам, электроснабжение сервера осуществляется через источники бесперебойного питания, а помещение, где работают серверы (дата-центр), оборудовано автоматической системой пожаротушения, организовано круглосуточное дежурство технического персонала.

За более чем 10 лет своего существования Рунет (русскоязычный Интернет) стал упорядоченной структурой и поиск информации в Сети стал более предсказуем.

Основной инструмент поиска информации в Интернете - поисковые машины.

Поисковая машина состоит из программы-паука, которая просматривает сайты Интернета и базы данных (индекса), в которой находится информация о просмотренных сайтах.

По заявке веб-мастера робот-паук заходит на сайт и просматривает страницы сайта, занося в индекс поисковой машины информацию о страницах сайта. Поисковая машина может сама найти сайт, даже если его веб-мастер и не подавал заявку на регистрацию. Если ссылка на сайт попадется где-либо на пути поисковой машины (на другом сайте, например), то она сайт тут же проиндексирует.

Паук не копирует страницы сайта в индекс поисковой машины, а сохраняет информацию о структуре каждой страницы сайта - например, какие слова встречаются в документе и в каком порядке, адреса гиперссылок страницы сайта, размер документа в килобайтах, дата его создания и многое другое. Поэтому индекс поисковой машины в несколько раз меньше, чем объем проиндексированной информации.

Что и как ищет поисковая машина в Интернете?

Поисковую машину придумали люди, чтобы она помогала им искать информацию. Что такое информация в нашем человеческом понимании и наглядном представлении? Это не запахи или звуки, не ощущения и не образы. Это просто слова, текст. Когда мы что-то ищем в Интернете, мы запрашиваем слова - поисковый запрос, и в ответ надеемся получить текст, содержащий именно эти слова. Потому что мы знаем, что поисковая система будет искать в массиве информации именно запрошенные нами слова. Потому что именно таковой она была задумана, чтобы искать слова.

Поисковая машина ищет слова не в Интернете, а в своем индексе. В индексе поисковой машины находится информация только о небольшом количестве сайтов Интернета. Существуют поисковые машины, которые индексируют только сайты на английском языке и есть поисковые машины, которые заносят в свой индекс только русскоязычные сайты.

Поисковые машины Интернета (в индексе находятся сайты на английском, немецком и других европейских языках)

1. Alta Vista http://www.altavista.com
2. Fast http://www.alltheweb.com
3. Google http://www.google.ru
4. Yahoo! http://google.yahoo.com
5. MSN Search http://search.msn.com

Поисковые машины Рунета (в индексе находятся сайты на русском языке)

1. Яндекс http://www.yandex.ru
2. Рамблер http://www.rambler.ru
3. Апорт http://www.aport.ru
4. Mail.ru http://go.mail.ru
5. Punto http://www.punto.ru
6. Google http://www.google.ru

Особенности некоторых поисковых машин Рунета

Поисковая машина Google не учитывает морфологию русского языка. Например, Google слова "диссертация" и "диссертации" считает разными.

Судите сами. Отправим в Google http://www.google.ru поисковый запрос "диссертации". Google в результатах поиска выдаст нам 151000 документов. Обратите внимание в результатах поиска на слова, выделенные жирным шрифтом. Именно эти слова Google считает соответствующими поисковому запросу. При запросе "диссертации" Google пропускает слова "диссертация" и считает только слова "диссертации".

Отправим в Google поисковый запрос "диссертация". Результат будет совершенно другой. Можно даже не сравнивать верхние позиции результата поиска. Посмотрите на количество найденных документов - всего 35300, почти в 4 раза меньше, чем по запросу "диссертации".

Информация о сайте может быть занесена не во все поисковые машины Рунета.

Так, например, 18 июня 2003 г. я отправил заявку на индексацию своего сайта "Врач-аспирант" http://www.disser.ru одновременно в три крупнейшие поисковые машины Рунета - Яндекс, Рамблер и Апорт. Рамблер проиндексировал мой сайт через 2 дня, Яндекс - через неделю, Апорт - 1 августа.

Другой важной характеристикой поисковой машины является способность переиндексировать сайт, т.е. обновлять в своем индексе информацию о сайте. Обычно робот-паук поисковой системы повторно заходит на сайт через 1-2 недели после первой индексации. Мощная поисковая машина обходит всю сеть за неделю (т.е. за месяц поисковая система переиндексирует сайт 3-4 раза). При этом составляется весьма свежий и довольно подробный индекс. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются.

По определенному поисковому запросу поисковая система выдает в результатах поиска только одну страницу с сайта, наиболее релевантную (соответствующую) поисковому запросу.

По умолчанию в результатах поискового запроса поисковая машина показывает по одной странице с каждого сайта, соответствующего поисковому запросу. В противном случае вместо 1283 страниц пользователю пришлось бы перебирать все 74095 с целью отбора нужной информации.

Нахождение сайта по чьему-либо запросу на первой странице результата поискового запроса совершенно не зависит от посещаемости сайта, поэтому и давно созданные сайты, и сайты-новички для поисковой машины равны.

От чего зависит позиция сайта в результате поискового запроса?

Положение страницы в списке результатов зависит от многих факторов. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов.

Вот что определяет положение сайта в результате поискового запроса (при запросе по одному слову).

1. Частота слова в индексе поисковой машины и странице сайта, размер индекса и страницы сайта

2. Привилегированное положение слова в странице сайта (например, заголовок) и наличие его в списке ключевых слов данной страницы (метатег meta NAME="keywords")

3. Присутствие слова в "авторитетных" ссылках на страницу сайта

4. Индекс цитирования сайта

Индекс цитирования ? принятая в научном мире мера "значимости" трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная.

Тематический индекс цитирования сайта (тИЦ). Представляет собой "авторитетность" интернет-ресурса с учетом качественной характеристики ссылок на него с других сайтов. Эту качественную характеристику называют "весом" ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Почти все поисковые машины умеют определять тематический индекс цитирования сайта.

Например, тИЦ крупнейшего медицинского сайта Рунета - Русского медицинского сервера http://www.rusmedserv.com 30 августа 2004 года составлял 3900 (по версии Яндекса), а тИЦ сайта "Врач-аспирант" http://www.disser.ru - 375.

Необходимо просматривать не только первую страницу результата поискового запроса, но и остальные.

Потому что нередко сайты, в которых содержится действительно нужная пользователю информация, находятся на 4 - 10 странице результата поискового запроса.

Почему так происходит? Во-первых, многие создатели сайтов не оптимизируют страницы своего сайта для поисковых машин, например, не включают в страницы сайта метатеги.

Метатеги - это служебные элементы web-документа, которые на экране не видны, но имеют важное значение при нахождении вашего сайта поисковыми системами. Метатеги облегчают поиск поисковым машинам, чтобы тем не нужно было лезть вглубь документа и анализировать весь текст сайта для составления определенной картины о нем. Наиболее важный метатег - meta NAME="keywords" - ключевые слова страницы сайта. Если слово из основного текста документа не расценено как "поисковый спам" и есть в "keywords" среди первых 50, то вес этого слова в запросе повышается, то есть документ получает более высокую релевантность.

Во-вторых, между веб-мастерами сайтов существует жесткая конкуренция за первые позиции в результате поискового запроса.

Согласно статистике, 80% посетителей на сайт приходит именно с поисковых машин. Рано или поздно веб-мастера осознают это и начинают адаптировать свои сайты к законам поисковых машин.

К сожалению, некоторые из создателей сайтов применяют нечестный метод раскрутки своего сайта через поисковые системы - так называемый "поисковый спам" для создания как будто бы соответствия содержания метатегов и остального текста сайта - размещают на страницах сайта скрытые слова, набранные цветом фона, так что они не мешают посетителям сайта. Однако создатели поисковых машин отслеживают подобные хитрости и сайт "поискового спамера" падает с достигнутых высот на самое дно.

В Интернете малопригодны метафоры и образные сравнения. Они искажают истину, уводят пользователей Интернета от точной и однозначной информации. Чем меньше художественности и больше точности в стиле автора сайта - тем более высокие позиции в результатах поискового запроса занимает сайт.

В свою очередь, если вы хотите, чтобы поисковая машина находила для вас статьи в Интернете - думайте как машина, станьте машиной. Хотя бы на время. На время поиска.

Автор: Евгений Логвин,
E-Mail: logvin@yandex.ru
Сайт: http://www.disser.ru

06.03.2005