Часто встречающиеся ошибки вебмастеров

Редакция от  21/11/2016

Эта статья, основана на частых вопросах вебмастеров, с форума google для вебмастеров и других форумах.
Одна из главных ошибок вебмастера, не правильное добавление и выбор главного зеркала в search console.  Почитайте Как правильно добавлять сайт в google search console , перед просмотром данной статьи , чтобы убедится, что Вы правильно все сделали при добавлении своего сайта, в search console

В файле robots.txt
Индексация.

1.1 Вопрос: Я закрыл страницу(страницы) в файле  robots.txt, но страницы все равно находятся в индексе. Почему?
Ответ: закрыв в robots.txt. Вы запретили её(страницу) сканировать, а не индексировать, для googlebot. Чтобы удалить страницу из индекса, она не должна быть закрыта в robots.txt и содержать метатеги <meta name=»robots» content=»noindex»>  . Только в этом случае, сканирующий бот прочитает страницу, и удалит ее из индекса. Также необходимо дождаться, когда бот посетит данную страницу и увидит все изменения.

1.2 Вопрос: я закрыл страницу в robots.txt и поставил  метатег canonical(или редирект 301) на другую страницу сайта, но бот «не видит» новую страницу. Что делать?
Ответ:  закрыв в robots.txt. Вы запретили её(страницу) сканировать, поэтому бот и не видит никаких манипуляций с ней, и не будет ничего делать. Разблокируйте страницу в robots.txt и дождитесь когда бот ее считает. Можно использовать инструмент «посмотреть как googlebot» нажав после «только этот урл» для ускорения операции. Учитывайте, что все изменения робот будет делать не очень быстро.

1.3 Вопрос: что значит надпись в поиске при использовании команды site «страница закрыта  в robots.txt? Участвует ли данная страница в поиске?
Ответ: такая ошибка, часто возникает из за действий, описанных в п.1.1  Страница добавлена в индекс, но вебмастер решил ее заблокировать в файле  robots.txt Читайте п.1.1 как правильно убрать страницу из индекса.

Индексация и инструменты в Search Console
2.1 Вопрос: сайт(или отдельная страница сайта) не индексируются. Что делать?
Ответ: вариантов, очень много.
— проверьте, не заблокировано ли сканирование в robots.txt
— проверьте, нет ли метатегов, запрещающих индексацию, в коде сайта или страницы.
— проверьте, что если на странице, есть метатег canonical то он правильно настроен и не показывает на главную или на 404 страницу.
— содержатся ошибки в коде. Проверьте валидатором.
— проверьте, что отдается боту через «посмотреть как googlebot» в search console
— проверьте, что Вы(или кто то другой – юзер или вдруг злоумышленник) не использовал инструмент «удаление url» В инструменте выберите справа показать «все»
— проверьте, что страница не содержит переадресаций, ошибок 404
— проверьте, что не существует полных или частичных дубликатов(похожих) страниц на сайте.
— проверьте, что бот может пройти без ошибок главная->рубрики-> страница статьи или карточка товара.
Также необходимо убедится, что сайт не содержит фатальный ошибок. Не отдаются по всем или многим страница код 404. Что хостинг работает успешно и т.д.

2.2 Вопрос: я добавляю страницы, через «посмотреть как googlebot», но страницы, через какое то время снова удаляются ботом из индекса. Почему?
Ответ: значит боту, страница показалась
— содержатся ошибки в коде. Проверьте валидатором.
— не интересной
— дубликатом других страниц
— откровенным копипастом
— не информативной. К примеру, если на ней только одна картинка и подпись.
— такой же, как на 100500 других похожих сайтов, без добавленной стоимости.
Также необходимо убедится, что сайт не содержит фатальных ошибок. Не отдаются по всем или многим страница код 404. Что хостинг работает успешно и т.д.

2.3 Вопрос: переданный в google файл sitemap.xml содержит 10000 страниц, а гугл показывает, что проиндексировал всего 5000. Почему?
Ответ: почитайте п 2.2 В нем частично есть ответ. Также необходимо проверить, «статус индексирования», «сканирование» и «ошибки сайта», чтобы убедиться, что у сайта нет проблем с доступностью для googlebot.

2.4 Вопрос: в ошибках файла sitemap.xml пишется «в файле содержатся url запрещенные к индексации в файле robots.txt»
Ответ: значит действительно в файле, содержатся такие ссылки на страницы.  В данном файле, должны содержаться только урлы страниц главного зеркала сайта(с www или без), окончательные при редиректе 301, и канонические, если такие существуют на сайте.

2.5 Вопрос:  гугл сообщает, что сайтмап сайта, не открывается(или дает ошибки). Что делать?
Ответ: проверьте, что googlebot может открыть файл через «посмотреть как googlebot».  При этом необходимо убедится, что заголовки(headers)  содержат правильный заголовок text/xml, а не  text/html

2.6 Вопрос: при использовании инструмента «посмотреть как googlebot» мне пишется, что «некоторые страницы закрыты в файле robots.txt», но у моего файла, нет таких ограничений. Что делать?
Ответ: проверьте, какие именно урлы в коде страницы, содержат эти ограничения. Такая надпись обычно возникает, при использовании подгружаемых скриптов-шрифтов или картинок с других сайтов. Они просто закрыты от сканирования, на том сайте в файле robots.txt

2.7  Вопрос: в search console нет никаких данных. Индексация, поисковые слова, ссылки и т.д . Почему?
Ответ: для начала, Вам нужно прочитать статью, Как правильно добавлять сайт в google search console, и как выбрать правильное зеркало. Если сайт новый, или  в первый раз добавляется в консоль, то нужно просто подождать, пока гугл соберет некоторые данные для показа.

2.8 Вопрос В search console мне показывается много ошибок 404. Но таких страниц, нет на сайте, и в “источник ссылок” я ничего не вижу. Откуда бот берет эти страницы, что с ними делать, и как они могут повлиять на мой сайт?

Ответ: googlebot может находить такие ссылки, на чужих сайтах, в яваскриптах, в файлах pdf и т.д. Т.е источник ссылок, действительно определить сложно. Поэтому он(источник) и не показывается в сообщении. Данный раздел, больше сигнализатор возможных проблем, а не “все плохо”. Если данные страницы Вам не важны, то просто отмечайте их как “исправлено” и все. На ранжирование сайта, если конечно все страницы не отдадут код 404, это никак не повлияет.

2.9 Вопрос: Сайт использует протокол http. В поисковой выдаче google преимущественно все страницы http, но недавно случайно наткнулись в выдаче google на страницу нашего сайта с https. Мы не поддерживаем https, поэтому конечно же при переходе с поиска по этому адресу получаем ошибку сертификата.
Ответ: во первых, googlebot начинает сканировать сайт с https(была на блоге статья у них про это). Поэтому, если сайт не правильно настроен и может по протоколу https отдать код 200(существует) то страница попадет в индекс. даже если сам протокол не работает на сайте. Для исправления ситуации используйте редирект 301 с https на http. Этого будет достаточно.

3. Сайт в поиске.
3.1 Вопрос: мой сайт пропал из поиска. Поиск с оператором site ничего не показывает. Что делать?
Ответ:  смотрите раздел в search console раздел «меры к сайту» (в обеих версиях с ВВВ и без), что там ничего нет. В случаях заражения сайта, вирусами или переадресацией из рекламы, меры могут запаздывать. Их нужно просто подождать. Проверьте все, по п. 2.1

3.2 Вопрос:  google в поиске, изменяет title страницы. Что делать?
Ответ:  нужно убедится, что страницу правильно читает googlebot Смотрите в search console раздел «посмотреть как googlebot». Убедитесь, что страница, проходит валидацию. Убедитесь, что нет каких то плагинов, которые подменяют title сайта для googlebot.  Чаще всего, сниппет меняется, чтобы больше дать информации тому кто ищет. Это вполне нормальная ситуация. Читайте статью в справке Заголовки и описания страниц читайте еще п. 3.3

3.3 Вопрос:  google в поиске, изменяет title страницы. В title добавляется какой то текст(название сайта или не понятно откуда) Что делать?
Ответ: частично ответ, есть в п 3.2. Вам необходимо убедится, что title достаточно информативен, и не содержит текст как на 100500 похожих страницах.  Добавление названия сайта или бренда в титл, свидетельствует об этом. Если текст добавления «левый» нужно убедится, что данный текст  не содержится в анкорах ссылок на данную страницу. Также может браться текст, из каких то скриптов на странице.

Часто встречающиеся ошибки вебмастеров: 7 комментариев

  1. Добрый день. У меня вопрос. Сайт резко вылетел из индекса. Осталась всего лишь одна страница. Ошибок, описаных в пункте 2.1 нету. Как еще проверить почему это произошло и как вернуть сайт к индексации?

    P.S. ссылки не покупались, контент пишем уникальный

    1. Здравствуйте.
      Гугл просто так не оставляет только главную в индексе. На форуме вопрос создайте и приложите урл.

  2. Здравствуйте, Андрей.
    Я к Вам с этой ветки форума https://productforums.google.com/forum/#!topic/webmaster-ru/1_xh7gX7wlo;context-place=forum/webmaster-ru

    Писать на email_ как-то некрасиво, ведь вы его не афишируете.
    В этой статье еще раз проверила свои настройки, сайт поймете по моему email.
    Андрей, очень прошу вашего совета, лаконичного как и все ваши рекомендации:
    Я раньше не особо уделяла этому внимание — ну стоят 2 зеркала и все ок. Сайт по простому http:// был давно проиндексирован. Но тут полная смена маркетинга компании, отказ от мультиязычного сайта, и как следствие разделение языковых версий на отдельные независимые домены. Главный домен — англоязычный с https. Индекс идет но медленно, хотя думаю за пару-тройку недель проиндексирует.

    Мой вопрос: Прошу Вашего мнения, важно ли !указать! предпочтительную версию отображения сайта. Или можно не парится и на обоих зеркалах оставить — на усмотрение Google.?
    /*
    Например, если в Англии крупные коммерческие сайты давно используют отображение без www (кто их знает, что там у них в настройках?)
    то,
    в Испании, из-за медленного развития (юг) приоритет для отображения отдается адресам с www. */
    Спасибо большое.
    Олеся.

    1. Здравствуйте Олеся.
      Если вопрос о выборе с www или без, то делать однозначно одно из них главным. с протоколами сложней. Гугл не поддерживает перенос в консоли с http, на https.
      Мой емайл это имя тоже что и на форуме собака mail.ru Мождете писать.

      1. Добрый день, Андрей. Спасибо, прислушаюсь к Вашей рекомендации. Грасиас за контакт.
        С наилучшими пожеланиями, Олеся

  3. к п.2.3. всё никак в толк не возьму .. ну зачем столько «новостей» интернету от 1-го субъекта … Кстати, Карл Маркс + В.И. Ленин в сумме сколько страниц?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *