Поисковые машины ИнтернетаРазное / ИнтернетВрач-аспирант может найти в Интернете
научные статьи для написания литературного
обзора медицинской кандидатской
диссертации, статьи на иностранном языке
для подготовки к экзамену кандидатского
минимума, описание современных методик
исследования и многое другое...
О том, как искать с помощью поисковых
машин информацию в Интернете и пойдет речь
в данной статье.
Для тех, кто еще не очень хорошо
ориентируется в таких понятиях как сайт,
сервер - сообщаю начальные сведения о
Интернете.
Интернет - это множество сайтов,
размещенных на серверах, объединенных
каналами связи (телефонными,
оптоволоконными и спутниковыми линиями).
Сайт - это совокупность документов в
формате html (страниц сайта), связанных между
собой гиперссылками.
Большой сайт (например "Medlink" -
медицинский тематический каталог http://www.medlinks.ru
- состоит из 30000 страниц, а объем дискового
пространства, который он занимает на
сервере, составляет около 400 Mб).
Небольшой сайт состоит из нескольких
десятков - сотен страниц и занимает 1 - 10 Мб (например
мой сайт "Врач-аспирант" http://www.disser.ru
25 июля 2004 г. состоял из 280 .htm-страниц и
занимал на сервере 6 Мб).
Сервер - это компьютер, подключенный к
Интернету и работающий круглосуточно. На
сервере могут быть размещены одновременно
от нескольких сотен до нескольких тысяч
сайтов.
Сайты, размещенные на компьютере-сервере,
могут просматривать и копировать
пользователи Интернета.
Для обеспечения бесперебойного доступа к
сайтам, электроснабжение сервера
осуществляется через источники
бесперебойного питания, а помещение, где
работают серверы (дата-центр), оборудовано
автоматической системой пожаротушения,
организовано круглосуточное дежурство
технического персонала.
За более чем 10 лет своего существования
Рунет (русскоязычный Интернет) стал
упорядоченной структурой и поиск
информации в Сети стал более предсказуем.
Основной инструмент поиска информации в
Интернете - поисковые машины.
Поисковая машина состоит из программы-паука,
которая просматривает сайты Интернета и
базы данных (индекса), в которой находится
информация о просмотренных сайтах.
По заявке веб-мастера робот-паук заходит
на сайт и просматривает страницы сайта,
занося в индекс поисковой машины
информацию о страницах сайта. Поисковая
машина может сама найти сайт, даже если его
веб-мастер и не подавал заявку на
регистрацию. Если ссылка на сайт попадется
где-либо на пути поисковой машины (на другом
сайте, например), то она сайт тут же
проиндексирует.
Паук не копирует страницы сайта в индекс
поисковой машины, а сохраняет информацию о
структуре каждой страницы сайта - например,
какие слова встречаются в документе и в
каком порядке, адреса гиперссылок страницы
сайта, размер документа в килобайтах, дата
его создания и многое другое. Поэтому
индекс поисковой машины в несколько раз
меньше, чем объем проиндексированной
информации.
Что и как ищет поисковая машина в
Интернете?
Поисковую машину придумали люди, чтобы
она помогала им искать информацию. Что
такое информация в нашем человеческом
понимании и наглядном представлении? Это не
запахи или звуки, не ощущения и не образы.
Это просто слова, текст. Когда мы что-то ищем
в Интернете, мы запрашиваем слова -
поисковый запрос, и в ответ надеемся
получить текст, содержащий именно эти слова.
Потому что мы знаем, что поисковая система
будет искать в массиве информации именно
запрошенные нами слова. Потому что именно
таковой она была задумана, чтобы искать
слова.
Поисковая машина ищет слова не в
Интернете, а в своем индексе. В индексе
поисковой машины находится информация
только о небольшом количестве сайтов
Интернета. Существуют поисковые машины,
которые индексируют только сайты на
английском языке и есть поисковые машины,
которые заносят в свой индекс только
русскоязычные сайты.
Поисковые машины Интернета (в индексе
находятся сайты на английском, немецком и
других европейских языках)
1. Alta Vista http://www.altavista.com
2. Fast http://www.alltheweb.com
3. Google http://www.google.ru
4. Yahoo! http://google.yahoo.com
5. MSN Search http://search.msn.com
Поисковые машины Рунета (в индексе
находятся сайты на русском языке)
1. Яндекс http://www.yandex.ru
2. Рамблер http://www.rambler.ru
3. Апорт http://www.aport.ru
4. Mail.ru http://go.mail.ru
5. Punto http://www.punto.ru
6. Google http://www.google.ru
Особенности некоторых поисковых машин
Рунета
Поисковая машина Google не учитывает
морфологию русского языка. Например, Google
слова "диссертация" и "диссертации"
считает разными.
Судите сами. Отправим в Google
http://www.google.ru поисковый запрос "диссертации".
Google в результатах поиска выдаст нам 151000
документов. Обратите внимание в
результатах поиска на слова, выделенные
жирным шрифтом. Именно эти слова Google
считает соответствующими поисковому
запросу. При запросе "диссертации" Google
пропускает слова "диссертация" и
считает только слова "диссертации".
Отправим в Google поисковый запрос "диссертация".
Результат будет совершенно другой. Можно
даже не сравнивать верхние позиции
результата поиска. Посмотрите на
количество найденных документов - всего 35300,
почти в 4 раза меньше, чем по запросу "диссертации".
Информация о сайте может быть занесена не
во все поисковые машины Рунета.
Так, например, 18 июня 2003 г. я отправил
заявку на индексацию своего сайта "Врач-аспирант"
http://www.disser.ru одновременно
в три крупнейшие поисковые машины Рунета -
Яндекс, Рамблер и Апорт. Рамблер
проиндексировал мой сайт через 2 дня, Яндекс
- через неделю, Апорт - 1 августа.
Другой важной характеристикой поисковой
машины является способность
переиндексировать сайт, т.е. обновлять в
своем индексе информацию о сайте. Обычно
робот-паук поисковой системы повторно
заходит на сайт через 1-2 недели после первой
индексации. Мощная поисковая машина
обходит всю сеть за неделю (т.е. за месяц
поисковая система переиндексирует сайт 3-4
раза). При этом составляется весьма свежий и
довольно подробный индекс. При каждом новом
цикле обхода индекс обновляется, и старые
недействительные адреса удаляются.
По определенному поисковому запросу
поисковая система выдает в результатах
поиска только одну страницу с сайта,
наиболее релевантную (соответствующую)
поисковому запросу.
По умолчанию в результатах поискового
запроса поисковая машина показывает по
одной странице с каждого сайта,
соответствующего поисковому запросу. В
противном случае вместо 1283 страниц
пользователю пришлось бы перебирать все 74095
с целью отбора нужной информации.
Нахождение сайта по чьему-либо запросу на
первой странице результата поискового
запроса совершенно не зависит от
посещаемости сайта, поэтому и давно
созданные сайты, и сайты-новички для
поисковой машины равны.
От чего зависит позиция сайта в
результате поискового запроса?
Положение страницы в списке результатов
зависит от многих факторов. При каждом
запросе ищутся (и получают более высокий
ранг) фразы, точно совпадающие с запросом,
затем предложения, содержащие все слова
запроса, и т.д. Важную роль играет
относительное положение слов.
Вот что определяет положение сайта в
результате поискового запроса (при запросе
по одному слову).
1. Частота слова в индексе поисковой
машины и странице сайта, размер индекса и
страницы сайта
2. Привилегированное положение слова в
странице сайта (например, заголовок) и
наличие его в списке ключевых слов данной
страницы (метатег meta NAME="keywords")
3. Присутствие слова в "авторитетных"
ссылках на страницу сайта
4. Индекс цитирования сайта
Индекс цитирования ? принятая в научном
мире мера "значимости" трудов какого-либо
ученого. Величина индекса определяется
количеством ссылок на этот труд (или
фамилию) в других источниках. Однако для
действительно точного определения
значимости научных трудов важно не только
количество ссылок на них, но и качество этих
ссылок. Так, на работу может ссылаться
авторитетное академическое издание,
популярная брошюра или развлекательный
журнал. Значимость у таких ссылок разная.
Тематический индекс цитирования сайта (тИЦ).
Представляет собой "авторитетность"
интернет-ресурса с учетом качественной
характеристики ссылок на него с других
сайтов. Эту качественную характеристику
называют "весом" ссылки.
Рассчитывается она по специально
разработанному алгоритму. Большую роль
играет тематическая близость ресурса и
ссылающихся на него сайтов. Почти все
поисковые машины умеют определять
тематический индекс цитирования сайта.
Например, тИЦ крупнейшего медицинского
сайта Рунета - Русского медицинского
сервера http://www.rusmedserv.com
30 августа 2004 года составлял 3900 (по версии
Яндекса), а тИЦ сайта "Врач-аспирант" http://www.disser.ru
- 375.
Необходимо просматривать не только
первую страницу результата поискового
запроса, но и остальные.
Потому что нередко сайты, в которых
содержится действительно нужная
пользователю информация, находятся на 4 - 10
странице результата поискового запроса.
Почему так происходит? Во-первых, многие
создатели сайтов не оптимизируют страницы
своего сайта для поисковых машин, например,
не включают в страницы сайта метатеги.
Метатеги - это служебные элементы web-документа,
которые на экране не видны, но имеют важное
значение при нахождении вашего сайта
поисковыми системами. Метатеги облегчают
поиск поисковым машинам, чтобы тем не нужно
было лезть вглубь документа и
анализировать весь текст сайта для
составления определенной картины о нем.
Наиболее важный метатег - meta NAME="keywords" -
ключевые слова страницы сайта. Если слово
из основного текста документа не расценено
как "поисковый спам" и есть в "keywords"
среди первых 50, то вес этого слова в запросе
повышается, то есть документ получает более
высокую релевантность.
Во-вторых, между веб-мастерами сайтов
существует жесткая конкуренция за первые
позиции в результате поискового запроса.
Согласно статистике, 80% посетителей на
сайт приходит именно с поисковых машин.
Рано или поздно веб-мастера осознают это и
начинают адаптировать свои сайты к законам
поисковых машин.
К сожалению, некоторые из создателей
сайтов применяют нечестный метод раскрутки
своего сайта через поисковые системы - так
называемый "поисковый спам" для
создания как будто бы соответствия
содержания метатегов и остального текста
сайта - размещают на страницах сайта
скрытые слова, набранные цветом фона, так
что они не мешают посетителям сайта. Однако
создатели поисковых машин отслеживают
подобные хитрости и сайт "поискового
спамера" падает с достигнутых высот на
самое дно.
В Интернете малопригодны метафоры и
образные сравнения. Они искажают истину,
уводят пользователей Интернета от точной и
однозначной информации. Чем меньше
художественности и больше точности в стиле
автора сайта - тем более высокие позиции в
результатах поискового запроса занимает
сайт.
В свою очередь, если вы хотите, чтобы
поисковая машина находила для вас статьи в
Интернете - думайте как машина, станьте
машиной. Хотя бы на время. На время поиска.
Автор: Евгений Логвин,
E-Mail: logvin@yandex.ru
Сайт: http://www.disser.ru
06.03.2005