G-news

Среда, 22-е Мая 2019
08:21:59

1. Какова динамика увеличения числа веб-страниц, которые индексируются Яндексом? Каков объем базы, которая индексируется сейчас?

 

Динамика положительная, Рунет практически бесконечен, ведь любой динамический сайт может сгенерировать неограниченное количество страниц.  Поэтому, хотя наша база постоянно пополняется качественными документами, мы стараемся исключить из обхода дубликаты страниц и сайтов, документы со спамерским контентом и другой «мусор».

 

Объем базы проиндексированных документов без дублей превышает 220 Тбайт, а с учетом дубликатов – 300 Тбайт.

 

Это более 100 миллионов хостов, имеющих хотя бы одну страницу в базе, а всего роботу Яндекса известно более 500 миллионов хостов.

 

Мария Григорьева, руководитель группы поддержки поисковых сервисов: Индексирование сайтов проводит робот. Есть служба поддержки, которая отвечает на письма пользователей и помогает решить проблемы вроде «Помогите, сайт не находится Яндексом!». С ростом интернета количество обращений в службу поддержки пропорционально растет.

 

С какой скоростью приходится увеличивать серверный парк, штат людей?

 

 Парк серверов наращивается так, чтобы быстро и всегда отвечать на запросы пользователей. Скорость роста зависит от нескольких переменных, например, количества индексируемых документов и числа задаваемых пользователями запросов. Мы отслеживаем нагрузку на серверы и по мере необходимости наращиваем поисковые кластеры. О наших дата-центрах можно прочитать здесь.

 

2. Может ли новый сайт ускорить «попадание» в число страниц, которые индексируются Яндексом? Если отправить заявку в Яндекс, сколько времени пройдет до того, как сайт будет включен в базу, которую индексирует Яндекс?

 

Робот индексирует сайты автоматически, и у него есть много источников, откуда он может узнать о новом сайте. Яндекс стремится находить свежую информацию как можно быстрее после ее появления, поэтому обычно новому сайту делать ничего не нужно. Для тех, кто предпочитает сам контролировать этот процесс, существует специальный сервис Яндекс.Вебмастер, с помощью которого нам можно сообщить о появлении нового сайта. Достаточно прислать URL главной страницы сайта, а остальные страницы будут найдены автоматически. Сайт начнет обходиться роботом через 1-2 суток после получения нами этой заявки и появится в поиске при очередном обновлении базы.

 

 3. Динамика увеличения количества поисковых запросив и что вообще ищут ищут пользователи в Рунете?

 

Осенью прошлого года мы впервые опубликовали исследование о том, что и как ищут пользователи в Рунете. Исследование целиком построено на данных нашего поиска. Оно охватило период с сентября 1997 по сентябрь 2008 года и хорошо отражает, как за 11 лет изменились «поисковые привычки» пользователей и как они выглядят сейчас, как меняется число запросов на определенные темы в зависимости от сезона (например, запросы, связанные со школьной программой по русской литературе). А несколько дней назад мы выпустили новое исследование.

 

По оценке Яндекса на сентябрь прошлого года, пользователи русскоязычного интернета просма­тривали страницы результатов поиска всех поисковых машин более 1,9 млрд раз в месяц. По состоянию на лето 2009 года это число возросло до 3,1 млрд. Именно этот показатель — число показов страниц результатов поиска — часто считают числом поисковых запросов. Но реальных запросов мень­ше. К поисковым системам Рунета год назад задавали, по оценке Яндекса, около 48 млн запросов в день (при ежедневном просмотре страниц результатов поиска более 63 млн раз). Число поисковых запросов за последний год увеличилось почти вдвое – сегодня это 85 млн запросов при ежедневном просмотре страниц результатов поиска более 104 млн раз.

 

Если в августе 2008 года средняя длина поискового запроса составляла 2,5 слова, то сегодня это 3 слова. За двенадцать лет работы поиска Яндекса пользователи стали многословнее — в 1997 году, когда поиск на www.yandex.ru только появился, средний запрос состоял всего из 1,2 слова. Теперь количество информа­ции в интернете во много раз увеличилось, и для того чтобы найти ответ на свой вопрос, бывает нужно сформулировать запрос точнее. Что интересно, если сравнивать порталы, на которых установлен поиск Яндекса, то самые длинные запросы (в среднем) задают пользователи поиска Яндекса на Ukr.net — около 5 слов.

 

Поисковые запросы также показывают, как появляются новые предметы и явления, а вместе с ними — новые слова в языке. До 2006 года, пока не появилась социальная сеть Вконтакте.ру, запроса [вконтакте] без пробела не существовало, а теперь он — один из самых часто задаваемых (см. рис).

 

Появление новых поисковых запросов. По данным открытой статистики сервиса wordstat.yandex.ru, август 2007 — август 2008

Появление новых поисковых запросов. По данным открытой статистики сервиса wordstat.yandex.ru, август 2007 — август 2008

 

В 2008 году список топ 10 поисковых запросов украинских пользователей к Яндексу выглядел так:

1.      порно

2.      одноклассники

3.      в контакте

4.      mail.ru

5.      погода

6.      одноклассники.ru

7.      порно фото

8.      контакт

9.      гороскоп

10.   вконтакте

 

Здесь важно отметить следующее:

-10 самых популярных запросов составляют очень малую часть от всех запросов к поиску за 2008 год - всего 1,6%. То есть, данный список не отражает интересов большинства пользователей. (А общее количество запросов из первой сотни составляет 3,8% запросов к Яндексу от украинских пользователей за год).

- Список включает в себя именно слова, которые пользователи используют для запросов, с учётом орфографии. Это не темы, которые могут объединять множество запросов, сходных по смыслу.

- В топ обычно попадают простые слова, у которых мало синонимов. Чем сложнее запрос, тем ниже он будет в рейтинге.

 

4. Какова динамика изменения доли Яндекса в поисковых запросах для стран СНГ?

 

За ответом на этот вопрос лучше обратиться к независимым экспертам, которые исследуют рынок поисковых систем в СНГ. К слову, не во всех странах существуют регулярные и качественные измерения рынка.  Мы всегда стараемся идти навстречу тем, кто готов организовать их, и участвуем, например, в российской панели TNS.

 

5. Какие на сегодня средние показатели программно-аппаратного обеспечения пользователей (ОС, размер монитора и т.д)?

 

На этот вопрос лучше нас ответят компании, которые проводят соответствующие исследования.

 

6. Оцениваете ли вы объёмы заброшенных или необновляемых ресурсов рунета. Если да, то можно ли показать динамику?

 

Такой оценки мы пока не проводили.

 

7. Какие поисковые возможности Яндекса являются уникальными, чего не умеют другие поисковики?

 

- Глубокое понимание русского языка (например, снятие омонимии, распознавание схожих по написанию русских и латинских символов, умение извлекать из сообщений СМИ факты об известных людях и составлять из них пресс-портреты);

- поиск информации о товарах, музыке и др. в специально отобранных источниках. Например, в ответ на запрос о товаре мы показываем над результатами поиска карточку товара, а на запрос о музыкальной композиции предлагаем ее прослушать;

- локальное ранжирование результатов поиска для многих российских городов, в то время как другие поисковые системы считают Россию единым регионом;

- ряд уникальных интерфейсных и технологических решений, например, поиск цитат из русской классики – см. выдачу по запросу [я помню чудное мгновенье], – визуальный поиск, поиск цветов;

- Яндекс – пока единственный среди массовых поисковиков, кто дает возможность прослушать найденную музыкальную композицию, не покидая страницу результатов поиска. Чтобы получить возможность проигрывать музыку прямо на выдаче, мы заключили договора с крупными звукозаписывающими компаниями, работающими на рынке России и стран СНГ (в Украине пока данный сервис, к сожалению, недоступен). Подробнее об этом рассказано в нашем корпоративном блоге.

 

8. Работаете ли Вы с технологией голосовых запросов?

 

 Текущее состояние технологий распознавания голоса не позволяет сделать поиск по голосовым запросам полноценным. Существующие промышленные системы распознают отдельные слова из фиксированного словаря. На базе такой технологии можно сделать поиск словарной информации, искать адреса компаний по их названиям и т.д., но для сотен миллионов произвольных голосовых запросов такая технология не подходит.

 

9. Какое направление(я) развития поиска Вы относите к самым перспективным?

 

- Структурирование информации в результатах поиска. Например, в сниппетах по запросу [madonna profusion youtube] вместо простого цитирования фрагмента веб-страницы можно показывать сниппет с кадром из клипа Мадонны Love Profusion, описанием клипа и возможностью его воспроизвести, а по запросу [офис Яндекса] – адрес московского, одесского или другого офиса нашей компании (в зависимости от региона проживания пользователя);

- выдача ответа пользователю прямо на странице результатов по тем запросам, где это возможно;

- дальнейшая персонализация поиска (существующая регионализация выдачи – только первый шаг);

- лучшее понимание текстов веб-страниц (извлечение фактов и пр. – например, по запросу [столица Турции] извлекать из найденных веб-страниц слово «Анкара» и выводить его в результаты поиска, как здесь.

 

Вы здесь: Home Новости Телеком и IT Интервью «Рунет практически бесконечен», Александр Садовский - руководитель отдела веб-поиска Яндекса