Принципы поиска некоторых поисковых машин

назад

 Принципы поиска http://www.yаndex.ru

  1. Поиск производится по тексту документа, заголовку документа (<title>), ключевым словам документа(<meta name=keywords content=...>), описанию документа (<meta name=description content=...>) и полям alt для изображений (<img src=... alt="...">).
  2. Индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта). С помощью мета-тэга Robots (<meta name=robots content=...>) можно управлять индексацией документа.
  3. Определение соответствия документа запросу пользователя имеет следующие особенности:
    • наивысший приоритет имеет текст указанный в заголовке документа. сам заголовок рекомендуется делать не более 20-25 слов.
    • слово встречающееся в основном тексте документа и содержащиеся в первых 50-ти ключевых слов документа повышает соответствие документа запросу пользователя
    • для поиска имеет значение размер документа, т.е. слово встречающееся в маленьком документе будет иметь больший приоритет, чем то же самое слово, но в большом документе, поэтому дается совет делать разбивать большие документы на несколько частей.
    • чтобы Яндекс определял последовательность букв как слово надо не набирать слова вразрядку (каждая буква через пробел), избегать набора слов только большими буквами, точки и запятые ставить сразу после слова, а после них ставить пробел.
  4. Определенную часть текста Яндекс может признать спамом (огромное количество ключевых слов, текст написанный мелким шрифтом, цветом фона и пр.) из-за чего снижает соответствие документа запросу пользователя.
  5. Важным моментом с точки зрения Яндекса является дата последнего изменения страницы (http-заголовок Last-Modified) и charset страницы, которые выводятся при запросе пользователя как справочная информация о странице.


Принципы поиска http://www.aport.ru
  1. Поиск производится по тексту документа, заголовку документа (<title>), ключевым словам документа (<meta name=keywords content=...>), описанию документа (<meta name=description content=...>) и полям alt для изображений (<img src=... alt="...">). Также считаются принадлежащими документу тексты ссылок на эту страницу (<a href=...>text</a>), с самого сайта и внешних по отношению к сайту страниц, и описание сайта, составленное редакторами Апорта.
  2. Индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы содержащие в URL знак '?' (страницы автоматически создающиеся на стороне сервера по параметрам присланым в запросе). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта), имя робота для Апорта в этом файле - Aport. С помощью мета-тэга Robots (<meta name=robots content=...>) можно управлять индексацией документа.
  3. Ключевые слова документа не имеют особого приоритета при определении соответствия документа запросу пользователя перед другими частями документа.
  4. Множественное повторение одного и того же слова в тексте документа не влияет на определение соответствия документа запросу пользователя.
  5. Принципы определения соответствия документов запросу пользователя насайте Апорта описаны так:
    • количество искомых слов в тексте документа (в процентах), расстояние между поисковыми словами в тексте документа
    • место в тексте, где встречаются поисковые слова (заголовок, описание,мета-таг и т.п.)
    • внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет)
    • количество ссылок из Интернета на данный документ - использование искомого слова в тексте ссылок из Интернета на данный документ


Принципы поиска http://www.rambler.ru/
  1. Поиск производится только по тексту документа. Ключевые слова и описания документа (<meta name=keywords content=...> и <meta name=description content=...>) игнорируются. Максимальный размер индексируемого документа - 200Кб, все документы большего размера отсекаются по этому размеру.
  2. Индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта). Для управления индексацией текста в документе можно использовать тэги <index> и <noindex>. Из индекса исключаются слова, встреченные Rambler'ом более чем на 800.000 документов.
  3. Значимость слова увеличивается, если оно находится внутри тэгов (в порядке убывания значимости): - <title> - <h1>..<h6> - <address> - <b>, <strong> Чем ближе к началу текста располагается слово, тем более увеличивается его значимость.
  4. Текст, написанный цветом фона, не учитывается - об этом сказано что "не следует использовать".