Яндекс пассажи Главная > Вебмастеру > Продвижение сайтов > Как Яндекс делит текст на предложения (пассажи)

Как Яндекс делит текст на предложения (пассажи)

«Душевная, всё-таки, женщина, — вздохнул он. — Лишь бы до дому дошла».
«Кошмар на улице Стачек», Андрей Кивинов.
21 сентября 2007

 

 

    Нескончаемая тема про «пассажи» обрела новую жизнь и так надоела, что я решил перестать гадать на кофейной гуще, а проверить всё аккуратно и наглядно:

  1. Является разделителем предложений.
  2. Не является разделителем предложений.
    Многословники
    с пробелом, с заглавной
  1. Дорогой заводчик. Обмазчик, немчик.
  2. Мокрый коннозаводчик, Подмазчик, любимчик.
  3. Умный горнозаводчик — Смазчик, херувимчик.
  4. Малый сахарозаводчик; Образчик, родимчик.
  5. Узкий наводчик: Резчик, альбомчик.
  6. Нормальный обводчик! Нарезчик, костюмчик.
  7. Крепкий подводчик? Обрезчик, азямчик.

  8. с пробелом, не с заглавной
  9. Различный неводчик. врезчик, кабанчик.
  10. Мягкий переводчик, надрезчик, барабанчик.
  11. Редкий разводчик — подрезчик, жбанчик.
  12. Круглый приводчик; корьерезчик, лобанчик.
  13. Деревянный доводчик: зуборезчик, чурбанчик.
  14. Специальный проводчик! газорезчик, диванчик.
  15. Светлый трубопроводчик? стопорезчик, болванчик.

  16. без пробела, с заглавной
  17. Яркий водопроводчик.Прорезчик, одуванчик.
  18. Реальный газопроводчик,Электрорезчик, тарбаганчик.
  19. Сложный сводчик—Болторезчик, балаганчик.
  20. Низкий отводчик;Срезчик, таганчик.
  21. Вечный воздухоотводчик:Вырезчик, органчик.
  22. Приятный уводчик!Обозчик, курганчик.
  23. Угодный молодчик?Возчик, чемоданчик.

  24. без пробела, без заглавной
  25. Домашний господчик.завозчик, розанчик.
  26. Богатый находчик,обвозчик, пузанчик.
  27. Твердый обходчик—подвозчик, стаканчик.
  28. Обыкновенный путеобходчик;перевозчик, капканчик.
  29. Иностранный подходчик:развозчик, тушканчик.
  30. Особенный самоходчик!извозчик, чуланчик.
  31. Мощный пароходчик?привозчик, романчик.
    Однословники
    с пробелом, с заглавной
  1. Проходчик. Свозчик.
  2. Первопроходчик, Отвозчик.
  3. Скоропроходчик — Грузчик.
  4. Шахтопроходчик; Загрузчик.
  5. Приходорасходчик: Нагрузчик.
  6. Пересудчик! Сенонагрузчик.
  7. Рядчик? Разгрузчик.

  8. с пробелом, не с заглавной
  9. Зарядчик. автомобилеразгрузчик.
  10. Нарядчик, снегоразгрузчик.
  11. Обрядчик — саморазгрузчик.
  12. Подрядчик; погрузчик.
  13. Субподрядчик: углепогрузчик.
  14. Кузнечик! путепогрузчик.
  15. Перебежчик? снегопогрузчик.

  16. без пробела, с заглавной
  17. Затяжчик.Навозопогрузчик.
  18. Обтяжчик,Свеклопогрузчик.
  19. Протяжчик—Самопогрузчик.
  20. Заказчик;Зернопогрузчик.
  21. Приказчик:Силосопогрузчик.
  22. Душеприказчик!Автопогрузчик.
  23. Доказчик?Выгрузчик.

  24. без пробела, без заглавной
  25. Показчик.вязчик.
  26. Подсказчик,обвязчик.
  27. Пересказчик—кирпичик.
  28. Рассказчик;трамвайчик.
  29. Отказчик:расстегайчик.
  30. Указчик!попугайчик.
  31. Вылазчик?зайчик.

Проверка   vs обычный пробел
Первое предложение — красное. Второе предложение — оранжевое. Третье предложение — жёлтое. Четвёртое предложение — зелёное. Пятое предложение — голубое. Шестое предложение — синее. Седьмое предложение — фиолетовое.
  1. (1). (2)
  2. (2). (3)
  3. (3). (4)
  4. (4). (5)
  5. (5). (6)
  6. (6). (7)

 

 

Вывод: граница предложений проходит по конструкции

знак «.», «:», «!» или «?» + пробел + слово, начинающееся с заглавной буквы

Сейчас ждём результатов аналогичного эксперимента Михаила Райцина, где проверяться будут границы пассажей/предложений в анкор-листе. У эксперимента Михаила, как кажется, велик шанс провалиться из-за всяких фильтров на ссылочное — просто тестовые ссылки не сработают на ссылочное — ну да будем надеяться на лучшее. 8)

А ещё в той дискуссии появился отдельный поток «религиозного диспута» (© wolf) о запросозависимости «пассажа». Лезть туда как-то неохота; скажу только, что pro-maker меня убедил, что есть три сущности:

  1. лингвистическое предложение (которого, на самом деле, нет и которое к делу не относится)
  2. предложение-глазами-Яндекса (то, что я опрометчиво называю «пассажем»)
  3. и, наконец, собственно «пассаж», который «релевантный».

В этом тексте речь идёт именно о «предложении-глазами-Яндекса».

    Автор: Денис Иванов.


 

 

Комментарии:

romych (25.09.2007, 14:09): «:» или «;»?

Денис Иванов (25.09.2007, 14:35): Там же все видно!

kozlodoy (25.09.2007, 21:33):
В принципе это и так было известно. Только про двоеточие что-то новое.
И что нам может дать инфа о разделении пасажей в анкор листе?
Чтобы четко было 1 анкор 1 пасаж?

Денис Иванов (25.09.2007, 21:56):
Есть и еще где использовать. В том числе, чтобы вылизывать текстовую релевантность и сниппеты.

MaulNet (29.09.2007, 22:52):
“где проверяться будут границы пассажей/предложений в анкор-листе”
Что выяснилось по поводу анкоров?

Денис Иванов (29.09.2007, 23:59):
Ничего. Мои опасения подтвердились: сработала только одна ссылка из всей серии. 8(

MaulNet (30.09.2007, 01:46):
Можно поподробнее?
Или если лень - где почитать?

Денис Иванов (30.09.2007, 01:54):
Да все просто — Михаил сделал аналогичную моей страничку и поставил ссылки из каждого проверяемого отрезка текста. Но все обломалось. 8(
Впрочем, я полагаю, что правила «нарезки» текстов в теле документа и при формировании анкор-файла совпадают. Есть некоторые странные исключения, но не думаю, что их можно повторить экспериментально. То есть я не знаю версий, которые имеет смысл проверять экспериментально.

MaulNet (30.09.2007, 02:16):
“Впрочем, я полагаю, что правила «нарезки» текстов в теле документа и при формировании анкор-файла совпадают.”
Логично, спасибо за информацию. Но вот как получается - к примеру, анкор “курорты Зимбабе” - неужели полюбому на 2 части?

Денис Иванов (30.09.2007, 02:41):
Нет, конечно:
знак «.», «:», «!» или «?» + пробел + слово, начинающееся с заглавной буквы

MaulNet (30.09.2007, 04:33):
Дак вот объснение то и не совсем ясно.
Тут плюс это обязательное условие? Я лично сразу этого не понял. Но если обязательное, то “рыба. Рыба” поделиться, а “рыба. рыба” нет?

Денис Иванов (30.09.2007, 12:09):
Обязательное; про рыбу — именно так.

MaulNet (30.09.2007, 21:07):
Окей, спасибо, что уточнил. Сейчас сошлюсь на твой эксперимент.
Пиши чаще.

Денис Иванов (30.09.2007, 21:11):
Спасибо. Ща заценим твой блог как источник трафика. 8)

Денис Иванов (01.10.2007, 18:21):
Впрочем, сам можешь посмотреть.
Тут тоже заметен прогресс.
И еще 9 спам-комментов тут же навалило. 8)

Kokos (27.10.2007, 21:51):
а как быть с городами…
например, !+г &/(1 1)!+Москва находится, точка не делит на 2 разных предложения, это подтвержается, если искать с расстоянием в предложение !+г &&/(1 1)!+Москва

Коля Дубр (24.10.2007, 19:57):
Дык, надо попробовать сослаться не на один документ, а на много разных :)

Денис Иванов (25.10.2007, 02:26):
А ты серьезно полагаешь, что там могут быть серьезные регулярные отличия от текстового разбиения?
(аномалии типа Серча-курятника в рассчет не берем)

brodyaga (26.10.2007, 08:59):
Не учтет яша ссылки с одной страницы на одну страницу

brodyaga (26.10.2007, 08:56):
Денис, а ссылки вели на одну страницу?

Денис Иванов (31.10.2007, 17:12):
Ага, в этом-то и был прокол.

Заметки от The end - читать вебмастерам! » Дайджест (01.10.2007, 14:41):
[…] Денис Иванов: Как Яндекс делит текст на Я.предложения. Вообще стоит пролистать блог - там много полезного. […]

ivanov/seo/ Расстояния внутри Я.предложений (07.10.2007, 06:08):
[…] Тут некоторые любят задавать вопрос имени академика Нариньяни: зачем это все нужно простому трактористу? В общем случае ответ прост: учи матчасть. Но не каждому Нариньяни скажешь такое. 8) […]

Несколько интересных постов за неделю. : Записки муркетолога.. (08.10.2007, 15:35):
[…] 1) Серию полезных экспериментов провел Денис Иванов: - Как Яндекс делит текст на Я.предложения - Расстояния внутри Я.предложений […]

Kokos (27.10.2007, 21:55):
Непонятки с городами…
Например, !+г &/(1 1)!+Москва не делит на 2 предложения, это подтверждается и при использовании !+г &&/(1 1)!+Москва

Денис Иванов (31.10.2007, 17:01):
А в чем непонятки-то? Таких конструкций несколько, и список их явно закрытый. Если охота, то можно просто сесть и проверить все распространенные сокращения.

zangzezi (29.10.2007, 17:39):
а как на разделение предложений влияют скобочки () не смотрели?

Денис Иванов (31.10.2007, 17:01):
Нет. Полагаю, что не делят.

Наталия (31.10.2007, 10:47):
После прочтения статьи и анализа выдачи возник вопрос. Помогите, пожалуйста, разобраться. Если я не права - укажите в чем.
Если, как видно из опыта, Яндекс видет пассаж (предложение) от “. Большая буква” и до “. Большая буква” (частный случай). По запросу “театральные кресла” (колдунщик до того как его отменили переколдовывал запрос в “театральные&кресла”) оба слова должны находится в одном предложении. В результатах выдачи в сниппете по одному сайту выдается “Большое внимание наша компания уделяет реализации офисных стульев и кресел. У нас в ассортименте театральные кресла, кресла для кинотеатров”.
Почему выдается данный сниппет и поиск идет между предложениями? Либо предложение определяется не как показал опыт (от “. Большая буква” и до “. Большая буква”), либо по-новому переколдовывается запрос, либо в сниппете отображается не вполне реальная картина.
Помогите разобраться!!!

Денис Иванов (31.10.2007, 17:09):
Странно. Кажется, глюк уже прошел?

Наталия (06.11.2007, 15:59):
Нет, не прошел. Посмотрите позицию №8.
Это видно при поиске всего фрагмента: “Большое внимание наша компания уделяет реализации офисных стульев и кресел. У нас в ассортименте театральные кресла, кресла для кинотеатров”.

Денис Иванов (06.11.2007, 16:37):
Да, теперь понял о чем речь. Замечу еще, что совершенно нестандартная ситуация, когда в одном сниппете мы видим два предложения, разделенных точкой.
Единственное, что подумалось, — может, дело в   между предложениями. Попробуйте заменить на нормальный пробел.

Наталия (06.11.2007, 17:00):
Возможно Вы правы на счет  . Но к сожалению сайт не мой проверить это не могу, однако если настроить поиск на выдачу 5 фрагментов в позиции 2 можно увидеть следующий сниппет: “Приоритетом для нашей компании является офисная мебель. Большой выбор офисных,театральных и различных кресел руководителя, а также офисных стульев …” И если смотреть в коде, то предложения разделены как раз  .
< !– P.S. удален, но принят к сведению. 8) –>

Денис Иванов (06.11.2007, 18:07):
А в чем проблема убрать &nbsp;? Или это не ваш сайт?

Наталия (06.11.2007, 18:12):
Сайт не мой, это просто наблюдение в тему, которое, возможно, расширит понимание “предложение” и “пассаж”.
И спасибо, что удалили P.S.

Денис Иванов (06.11.2007, 18:25):
И вам спасибо за интересный пример. Надо будет написать об этом. 8)
Что касается P.S. — напишу, как будет время, окей?

Наталия (06.11.2007, 18:37):
Буду ждать с нетерпением - вопросов и примеров много интересных, а вот поделиться и обсудить по достоинству не с кем!

Денис Иванов (09.11.2007, 19:51):
Нашел еще один чудной пример.
Тут сразу куча интересного:
1. Внутреннее ссылочное (мой сайт).
2. «Рабочий» cквозняк (мой сайт).
3. «Второй пассаж» в анкор-листе (несколько).
4. Пример с &nbsp; (www.gazeta.ru).
Скриншот:
Пассажи в выдаче Яндекса

А.Ю. (09.11.2007, 12:13):
Денис, в приведенном примере присутствует знак “точка с запятой”, а не “двоеточие”. Это опечатка?

Денис Иванов (09.11.2007, 14:19):
Где именно? Вроде все правильно: двоеточие устроено как точка, точка с запятой — как запятая. Проверьте тут.

А.Ю. (09.11.2007, 16:49):
Все что сейчас написал - все стер, внимательней приглядевшись к примеру. Теперь понятно, что граница предложений не проходит по конструкции
знак «,», «;» или «—» при любых вариантах следующих за ними символов.
Спасибо!

ivanov/seo/ Яндекс: разделители и &nbsp;, вторые предложения анкоров и ограничивающие операторы (01.12.2007, 06:39):
[…] Назрело уточнение к устройству разделителей предложений: по конструкции точка + &nbsp; (неразрывный пробел) + большая буква граница предложений не проходит. […]

garem (24.03.2008, 20:59):
Небольшое дополнение.
[слово>3 букв]&&(«.»||«:»||«!»||«?»)&&пробел&&[(слово, начинающееся с заглавной буквы)||«(»||«[»||«цифра»)]
Левые скобки под вопросом, точно определить не получается.
пример: Шолохов & речь

Денис Иванов (24.03.2008, 21:37):
Да, с инициалами и экзотикой не разбирался. Может быть, и так.

SEO семинар Миралаба, который прошел 12 сентября » Sonja’s home page. (01.10.2008, 01:06):
[…] несколько раз упоминал эксперимент Дениса Иванова «Как Яндекс делит текст на Я.предложения», ближе к концу мероприятия из зала был задан вопрос: […]

Наталия (07.11.2008, 18:34):
Анализируя выдачу яндекса по запросу “асбестоцементные трубы”, было замечено, что для cайта на 19 месте формируется сниппет странным образом:
Пластиковые и асбестоцементные трубы от Труба-торг. Наша торговая ?компания работает на рынке строительных материалов более 10-ти лет?.
Смотря код страницы, можно увидеть следующее:
Пластиковые и асбестоцементные трубы от Труба-торг Наша торговая компания работает на рынке строительных материалов более 10-ти лет Каталог нашей компании содержит большое…
Получается, что в сниппет яндекс добавляет точки сам (как для первого, так и для второго предложения) и для него пассажем в данном случае будет подобная конструкция.

Денис Иванов (07.11.2008, 18:47):
Да, занятно. Похоже, что действительно сам цепляет точку.
Кстати, мудреное чтиво про новые сниппеты (доклад с последнего РОМИПа).

Txan (05.03.2009, 22:52):
Получается что если использовать &nbsp; вместо пробела то яндекс не сможет понять где начало предложения а где конец? Ведь так получается? Поправьте Денис если я чего то не понимаю

Денис Иванов (05.03.2009, 23:10):
Так было на момент написания этого поста. Конечно, если речь про текст, не разделенный границами HTML-блоков.
Теперь не так, проверьте сами

 

⇓ 

Поделись ссылкой на Seoded.ru с друзьями, знакомыми и собеседниками в соцсетях и на форумах! А сам сайт добавь в закладки! Так победим.

Поделиться ссылкой на эту страницу в:

Полезные ссылки:

Болельщик зарабатывает на футбольных матчах Какой Форекс будет лучше

Ещё материалы по этой теме:

Социальный поиск Promotext Поисковые системы создают свой интернет Какие ссылки лучше работают? Эффективный кросспостинг

основан в 2008 г. © Все права на материалы сайта Seoded.ru принадлежат Алексею Вострову.
Копирование (полное или частичное) любых материалов сайта возможно только с разрешения автора и при указании ссылки на источник.
Ослушавшихся находит и забирает Бабайка!