Поисковые машины
Известно, что
пользователи, попадающие на сайт из
поисковых машин, дают до сорока процентов
трафика. Поэтому позаботиться о
правильном индексировании Вашего сайта в
поисковых машинах весьма полезно. Под "правильным
индексированием" я имею в виду, что
должна быть соблюдена релевантность
запроса и содержания сайта, т.е., говоря
простым и доступным языком, содержание
сайта должно соответствовать запросу (некоторые
"мастера" злоупотребляют наборами
не отвечающих реальности ключевых слов.
Например, когда моя сестра готовила к
выпуску компакт-диск с локальными
копиями первых уровней Web-страниц, слово
"х#й" и иже с ним встречалось на
серверах весьма солидных компаний,
ничего общего не имеющих с подобного рода
лексикой:-).
Почему я
перечислил именно эти поисковые машины?
Потому что именно ими, по моим
наблюдениям, пользуются русскоязычные
нетизены (netizen). Что такое "мои
наблюдения"? Это анализ логов доступа к
моему серверу http://citforum.ru/,
точнее той части логов, гда собирается
информация по HTTP_REFERER, т.е. адреса (URLs), на
которых клиенты воспользовались ссылкой
на какую либо страницу моего сервера.
Каков рейтинг
перечисленных мною машин на практике,
какими машинами пользуются больше,
какими - меньше?
На первом
месте с колоссальным отрывом от
остальных идет Altavista. Эта поисковая
машина лидировала еще до того как там
появился поиск по различным языкам (в том
числе - по русскоязычным документам). Ну
оно и понятно - прекрасный,
легкодоступный сервер, давно работает (с
начала 1996 года), огромная база документов
(свыше 50 миллионов адресов). Следует также
учесть, что русскоязычные пользователи
находятся не только в России, но и в
Болгарии, Чехии и Словакии, в Польше,
Израиле, Германии, не говоря уже о бывших
республиках СССР - Украина, Белоруссия ... (Особо
хочу сказать о прибалтах: это они при
встрече на улицах какого-нибудь Каунаса
или Таллинна не знают русского языка, а
перед монитором, особенно если очень
нужно, очень даже знают:-)) Так вот всем
этим пользователям удобнее пользоваться
Альтавистой, а не нашими отечественными
машинами - ближе, все таки...
Следующая по
популярности поисковая машина, как ни
странно, самая молодая в России - Яndex. Как
мне говорил Алекей Амилющенко (компания
Comptek) на сегодняшний день там наблюдается
в среднем 72000 запросов в суткии и есть
тенденция +10% в неделю (данные от 7.04.98). Мне
кажется, Яndex наиболее перспективная
российская поисковая машина. С
комптековской системой разбора "великого
и могучего" русского языка Яndex вполне
может выйти победителем в конкуренции со
вторым китом в этой сфере - Рамблером.
Рамблер -
третья серьезная поисковая машина для
русскоязычных пользователей. Главное,
что мне в ней не нравится, так это
игнорирование содержимого конструкции
<meta name=keywords content=...>. (Это я не придумал,
это сказал Дмитрий Крюков из компании Stack
Ltd.) Наверное, именно из-за отказа
учитывать ключевые слова, в результатах
запросов выдаются такой странный набор
ссылок. Второй недостаток чисто
интерфейсного характера - результаты
постоянно выдаются в кодировке КОИ,
независимо от того, что выбрано
пользователем перед этим. Третий
недостаток: спайдер Рамблера работает по
протоколу HTTP 0.9, что приводит к ошибкам
индексирования, т.е. если на одном IP-адресе
живут несколько виртуальных серверов,
Рамблер видит только первый, а все
остальные считает просто синонимами. Ну
да ладно, будем надеяться, что это вскоре
исправят.
Ну и на
последнем месте по моему рейтингу идут
Апорт-Поиск, который очень странно
индексирует сервера, РусИнфОил, который
регулярно закрывается на реконструкции и
ТЕЛА-Поиск - красивый и почти бесполезный
прибамбас для сервера www.dux.ru.
Вы спросите: а
в списке были еще HotBot и метапоисковая
машина Следопыт компании "Медиалингва"?
Я их не забыл, просто HotBot непонятно почему
оставляет в моих логах толпу записей, что
не может быть случайными залетами не
понимающих русского языка иностранцев (с
других импортных машин таких залетов
гораздо меньше), а "Следопыт" я еще
недостаточно серьезно изучил.
А зачем же поисковые
машины для раскрутки сайта?
Все очень
просто, как я уже говорил, поисковые
машины могут дать до сорока процентов
трафика к сайту. А чтобы это происходило,
необходимо, чтобы Ваш сайт был правильно
проиндексирован, а для этого необходимо
знать, как это делается.
А делается это
следующим образом: либо робот поисковой
машины сам добирается до вашего сайта,
либо Вы сами указываете сайт в
соответствующем интерфейсе (AddUrl), который
наличествует в любой уважающей себя
поисковой машине. Первый вариант
страдает затянутостью (пока еще робот
доберется, может через день, может через
год: Internet-то большой). Второй - требует
затратить некоторое время (разнообразный
софт для автоматической регистрации
Вашего сайта в туче поисковых машин нам
ничего не дает - машины-то импортные).
Чтобы все произошло в
лучшем виде требуется:
- на сайте должет быть
хоть какой-нибудь текст. Картинки и
тест на них поисковые машины
игнорируют. Правда, можно
продублировать текст в атрибуте alt тага
img
- В каждом документе
сайта ОБЯЗАТЕЛЬНО должны
присутствовать осмысленный заголовок
(title), ключевые слова (keywords) и краткое
описание (description). Это только пишут, что
поисковые машины - полнотекстовые, на
самом деле это не так.
- Изготовление файла
robots.txt (особенно, если у вас есть
собственный сервер типа www.name.ru).
- Прописка вручную в
каждой интересующей Вас поисковой
машине и последующий контроль
индексирования Вашего сайта.
Итак, Вы уже
зарегистрировали первую страницу своего
сайта в различных поисковых машинах.
Вы думаете уже
все в подрядке? Как бы не так. Если ссылка
на Ваш сайт в ответе поисковой машины
выводится на втором экране -"это так же
плохо, как если бы ссылки вообще не было"
(Danny Sullivan, searchenginewatch.com)
Иначе говоря,
просто указать страницу в AddURL
недостаточно. Необходимо заранее
подготовить документ так, чтобы на
соответствующие запросы к поисковой
машине в ее ответе на запрос ссылка на Ваш
документ находилась если не первой, то
хотя бы в первой десятке ссылок (а лучше,
если в этой десятке было несколько ссылок
на Вашы документы:-). Что значит "подготовить"?
Это чисто технический вопрос, ничего
сверхестественного. Просто в секции HEAD
каждого документа Вашего сайта стоит
указать "говорящий" Title, KeyWords, Description
и Robots.
Title:
заголовок документа. Хороший осмысленный
заголовок может заставить пользователя
из множества других выбрать именно Вашу
ссылку. Зачастую видишь примерно
следующие заголовки: "Содержание" -
чего, зачем - непонятно, не возникает
желания проверять. Другой случай: на всех
страницах сайта в качестве заголовка -
"Добро пожаловать в компанию ..." -
тоже не слишком привлекательно проверять
все таким образом озаглавленные
документы. Представьте себе, что выбран
режим поиска по заголовкам, без описания
каждого документа.
KeyWords:
ключевые слова. Именно содержимое этого
контейнера влияет на релевантность
документа запросу поиска.
<meta name=keywords content="разделенный
запятыми список ключевых слов и
устойчивых словосочетаний">
Сколько ни
говорят, что поисковые машины -
полнотекстовые, это не совсем верно, а вот
содержимое этого контейнера точно
попадет в индекс поисковой машины. К
сожалению, создатели одной из крупнейших
отечественных поисковых машин Rambler, не
хотят отрабатывать этот контейнер. А зря.
- в поле content не должно
быть знаков конца строки, кавычек и
других специальных символов, регистр
символов роли не играет
- не рекомендуется
повторять одни и те же ключевые слова
по нескольку раз, это может быть
воспринято как spam и страница рискует
быть удаленной из индекса поисковой
машины.
- не стоит делать
одинаковые keywords для разных страниц
Вашего сайта. Это, конечно проще, но
содержимое самих документов различное.
Если очень хочется автоматизировать
этот процесс, можно написать
программку, которая прописывала бы в
это поле все выделенные блоки
документа, например, то что стоит между
тагами H, I и B.
- если строка в content
слишком длинная, не возбраняется
сделать еще несколько аналогичных
конструкций.
- вообще говоря, общий
объем ключевых слов одного документа
может достигать до 50% объема этого
документа.
Description:
краткое описание документа. Довольно
полезный контейер, его содержимое
используется как краткое описание
релевантных документов в ответе
современных поисковых машин. Если этого
контейнера нет, то выдаются некоторое
количество строк с начала документа.
Соответственно, не редкая катина, когда в
самом начале документа расположен JavaScript,
и вместо нормального описания выдается
абракадабра в виде куска скрипта.
<meta name=description
content="краткая аннотация документа">
- в поле content не должно
быть знаков конца строки, кавычек и
других специальных символов.
- желательно, чтобы
здесь была осмысленная аннотация
документа из пары-тройки человеческих
предложений, чтобы пользователь
поисковой машины помимо заголовка смог
понять смысл документа.
- к сожалению,
отечественные поисковые машины пока не
умеют работать с этим контейнером, хотя
божатся, что в скором времени научатся.
Можно ли управлять
действиями поисковых машин?
Можно, и даже
нужно! Первое действие, которое для этого
нужно совершить, это написать файл robots.txt
и положить его в корень Вашего сервера.
Этот файл популярно объясняет роботу
поисковой машины что надо индексировать,
а что не стоит. Например, зачем
индексировать служебные файлы, типа
статистических отчетов? Или результаты
работы скриптов? Более того, многие "умные"
машины просто не станут индексировать
сервера, не найдя robots.txt. Кстати, в этом
файле можно указать разные маски
индексирования для разных поисковых
машин.
Подробнее об
этом можно прочитать в моем переводе "Standard
for Robots Exclusion". Второе действие:
снабдить страницы сайта МЕТА-тагами Robots.
Это более гибкое средство управления
индексацией, чем robots.txt. В частности, в
этом таге можно предписать роботу
поисковой машины не уходить по ссылкам на
чужие сервера, например, в документах со
списками ссылок. Формат этого безобразия
таков:
<META NAME="ROBOTS"
CONTENT="robot_terms">
robot_terms - это
разделенный запятыми список следующих
ключевых слов (заглавные или строчные
символы роли не играют): ALL, NONE, INDEX, NOINDEX,
FOLLOW, NOFOLLOW.
- NONE
- говорит всем роботам
игнорировать эту страницу при
индексации (эквивалентно
одновременному использованию ключевых
слов NOINDEX, NOFOLLOW).
- ALL
- разрешает
индексировать эту страницу и все
ссылки из нее (эквивалентно
одновременному использованию ключевых
слов INDEX, FOLLOW).
- INDEX
- разрешает
индексировать эту страницу
- NOINDEX
- неразрешает
индексировать эту страницу
- FOLLOW
- разрешает
индексировать все ссылки из этой
страницы
- NOFOLLOW
- неразрешает
индексировать ссылки из этой страницы
Если этот мета-таг
пропущен или не указаны robot_terms, то по
умолчанию поисковый робот поступает как
если бы были указаны robot_terms=INDEX, FOLLOW (т.е.
ALL). Если в CONTENT обнаружено ключевое слово
ALL, то робот поступает соответственно,
игнорируя возможно указанные другие
ключевые слова.. Если в CONTENT имеются
противоположные по смыслу ключевые слова,
например, FOLLOW, NOFOLLOW, то робот поступает по
своему усмотрению (в этом случае FOLLOW).
Если robot_terms
содержит только NOINDEX, то ссылки с этой
страницы не индексируются. Если robot_terms
содержит только NOFOLLOW, то страница
индексируется, а ссылки, соответственно,
игнорируются.
Контроль за текущим
состоянием Ваших документов в индексе
поисковых машин.
Ну хорошо, Вы
прочитали все, что было выше и так и
сделали. Что же дальше? А дальше будет
долгая, нудная и, главное, регулярная
проверка на предмет того, как обстоят
дела. Как ни печально, а придется уделять
этому внимание хотя бы потому, что
документы временами пропадают из
поисковых машин. Почему? Знать бы... Итак, в
хороших поисковых машинах можно
посмотреть какие документы и сколько их в
текущее время находится в индексе. Вот
как это делается:
Alta Vista
В этой поисковой
машине проверку статуса URL осуществить
довольно просто - достаточно набрать в
строке запроса:
url: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml
В первом случае будут
выданы все проиндексированные страницы
сервера. Во втором - только страницы Windows-кодировки.
В третьем - есть ли в индексе AltaVista файл
index.shtml из указанной директории
Excite
Так же просто как и
в AltaVista проверяется статус URL в поисковой
машине Excite. Достаточно набрать URL.
Например:
http://citforum.ru/win/database/articles/art_1.shtml
HotBot
Несколько по-другому
проверяется статус URL в поисковой машине
HotBot. Это делается так:
- Введите URL в поле
запроса
- Измените опцию "all of
the words" на "links to this URL"
Infoseek
В поисковой машине
Infoseek для проверки статуса URL существует
отдельный интерфейс с целым набором
настроек:
http://www.infoseek.com/Forms?&sv=IS&lk=noframes&pg=special.html
WebCrawler
WebCrawler
предоставляет возможность проверить
статус URL на странице:
http://www.webcrawler.com/WebCrawler/Status.html
Rambler
В этой поисковой
машине статус URL можно проверить двумя
способами.
- В разделе "Расширеный
поиск" путем указания имени
сервера в качестве маски в одной из
опций
- Можно набрать
$URL:www.citforum.ru в обычном поле запроса
Aport
Для проверки
статуса URL в этой поисковой машине есть
специальный запрос url=www.citforum.ru/*
Основные технические
характеристики поисковых машин
Чего люди хотят от этой
жизни?
<< предыдущая
||
следующая >>
|