Принципы поиска некоторых поисковых машин

Принципы поиска http://www.yаndex.ru

Поиск производится по тексту документа, заголовку документа (<title>), ключевым словам документа(<meta name=keywords content=...>), описанию документа (<meta name=description content=...>) и полям alt для изображений (<img src=... alt="...">).
Индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта). С помощью мета-тэга Robots (<meta name=robots content=...>) можно управлять индексацией документа.
Определение соответствия документа запросу пользователя имеет следующие особенности:
- наивысший приоритет имеет текст указанный в заголовке документа. сам заголовок рекомендуется делать не более 20-25 слов.
- слово встречающееся в основном тексте документа и содержащиеся в первых 50-ти ключевых слов документа повышает соответствие документа запросу пользователя
- для поиска имеет значение размер документа, т.е. слово встречающееся в маленьком документе будет иметь больший приоритет, чем то же самое слово, но в большом документе, поэтому дается совет делать разбивать большие документы на несколько частей.
- чтобы Яндекс определял последовательность букв как слово надо не набирать слова вразрядку (каждая буква через пробел), избегать набора слов только большими буквами, точки и запятые ставить сразу после слова, а после них ставить пробел.
Определенную часть текста Яндекс может признать спамом (огромное количество ключевых слов, текст написанный мелким шрифтом, цветом фона и пр.) из-за чего снижает соответствие документа запросу пользователя.
Важным моментом с точки зрения Яндекса является дата последнего изменения страницы (http-заголовок Last-Modified) и charset страницы, которые выводятся при запросе пользователя как справочная информация о странице.

Принципы поиска http://www.aport.ru

Поиск производится по тексту документа, заголовку документа (<title>), ключевым словам документа (<meta name=keywords content=...>), описанию документа (<meta name=description content=...>) и полям alt для изображений (<img src=... alt="...">). Также считаются принадлежащими документу тексты ссылок на эту страницу (<a href=...>text</a>), с самого сайта и внешних по отношению к сайту страниц, и описание сайта, составленное редакторами Апорта.
Индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы содержащие в URL знак '?' (страницы автоматически создающиеся на стороне сервера по параметрам присланым в запросе). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта), имя робота для Апорта в этом файле - Aport. С помощью мета-тэга Robots (<meta name=robots content=...>) можно управлять индексацией документа.
Ключевые слова документа не имеют особого приоритета при определении соответствия документа запросу пользователя перед другими частями документа.
Множественное повторение одного и того же слова в тексте документа не влияет на определение соответствия документа запросу пользователя.
Принципы определения соответствия документов запросу пользователя насайте Апорта описаны так:
- количество искомых слов в тексте документа (в процентах), расстояние между поисковыми словами в тексте документа
- место в тексте, где встречаются поисковые слова (заголовок, описание,мета-таг и т.п.)
- внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет)
- количество ссылок из Интернета на данный документ - использование искомого слова в тексте ссылок из Интернета на данный документ

Принципы поиска http://www.rambler.ru/

Поиск производится только по тексту документа. Ключевые слова и описания документа (<meta name=keywords content=...> и <meta name=description content=...>) игнорируются. Максимальный размер индексируемого документа - 200Кб, все документы большего размера отсекаются по этому размеру.
Индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта). Для управления индексацией текста в документе можно использовать тэги <index> и <noindex>. Из индекса исключаются слова, встреченные Rambler'ом более чем на 800.000 документов.
Значимость слова увеличивается, если оно находится внутри тэгов (в порядке убывания значимости): - <title> - <h1>..<h6> - <address> - <b>, <strong> Чем ближе к началу текста располагается слово, тем более увеличивается его значимость.
Текст, написанный цветом фона, не учитывается - об этом сказано что "не следует использовать".

HTML Сайт

создаем сайт сами

Принципы поиска некоторых поисковых машин