вторник, 15 января 2008 г.

Илья Сегалович: Мы думаем прежде всего о поиске

Илья Сегалович: Мы думаем прежде всего о поиске

Алгоритм, определяющий релевантность сайтов – наша главная задача, и продолжим над ним работать и дальше

Технический директор компании «Яндекс» Илья Сегалович – особо секретная персона. Его никогда не отпускают одного к девушкам, особенно если девушка – журналист. В этот раз он тоже пришел не один. Поэтому Демфира Шакурова, воспользовавшись моментом, задала несколько вопросов ещё и руководителю пресс-службы «Яндекса» Михаилу Ушакову.

По образованию Вы геофизик, как с таким образованием Вы работаете в интернет-компании?


Илья Сегалович: По-моему, образование – это не панацея. Чем меньше у человека «красивых корочек», тем больше у него чувство неудовлетворенности и стремления к совершенству. У меня нет комплекса. Я, будучи студентом, занял второе место на «всесоюзке» (всесоюзной олимпиаде) по математике и всех мехматовцев, которые со мной выступали вместе, победил.


Так же как Яндекс победил конкурентов. 4 года назад в базе Яндекса было 15 миллионов страниц, сколько сейчас? Как много индексируется страниц в день?


Илья Сегалович: Поиск Яндекса индексирует порядка миллиарда страниц, но там очень много спама. Хотя этого добра в любой базе много. Мы измеряем число страниц в базе специальными способами. Для конференции WWW2006 мы писали на эту тему статью, мы, правда, не довели ее до ума, но там правильные вещи написаны…Можно понять, что мы измеряем и как. Мы следим за свежестью и чистотой поиска. Свежесть – это процент страниц, которые отвечают данному поисковому запросу и содержат искомое слово. Если доля таких страниц в выдаче равна 100%, значит, все страницы живые и содержат искомое слово.


А у вас какой процент сейчас?


Илья Сегалович: Сейчас хороший процент. Мы занимаемся расчетом базы сайтов и по отношению к нам, и по отношению к Google, Rambler, Апорту. Соответственно, видим, кто работает лучше, а кто – хуже, у кого какой прогресс. Yаhoo, например, прошлой осенью объявили, что у них самая большая база в мире. А им никто не поверил. Мы по нашим приборам не видели, что база Yаhoo больше. Мы просто заметили рост, а с зимы, она действительно стала больше. Интересно, что эти наши измерения подтвердил на конференции WWW2006 русский юноша из Израиля. Он, кстати, получил первое место среди юношеских докладов. Его методика очень похожа на нашу, но более аккуратна математически. Он сделал расчет и доказал всему поисковому сообществу, что базаYahoo все таки больше базы Google. Это просто информация – никакого личного наезда на товарища Долгова (генеральный директор Google Россия) и Google Россия. (смеется)


А какие у Вас личные отношения с Владимиром Долговым?


Илья Сегалович: Лично у меня никаких отношений нет. Сережа Бурков (руководитель центра разработок и исследований Google Россия), Лена (Колмановская) его знает, был в жюри Кубка Яндекса в Калифорнии. Владимир Долгов работал в Ozon.ru, и был аспирантом Андрея Себранта (директор компании «Яндекс» по специальным проектам). Я не знаю лично ни того, ни другого.


Рост вашей базы влияет на работу поискового движка?


Илья Сегалович: Влияет, тяжелее работать. Все очень пропорционально, чем больше база, тем труднее работать.


Успеваете апдейты делать?


Илья Сегалович: Успеваем, успеваем, успеваем. (задумчиво)


Михаил Ушаков: Кроме апдейтов, у нас еще идет технологическое обновление, то есть мы каждый день «кушаем» по 3 сервера: на завтрак обед и ужин.


Заменяете?


Михал Ушаков: Нет. Новые ставим. Сегодня в технопарке Яндекса около тысячи серверов.


Хороший аппетит у серверного парка. Но волнует нас и читателей не количество серверов, а технические проблемы, связанные с регулярным, массовым выпадением сайтов по разным запросам (с большой или маленькой буквы, с окончанием или без окончания)?


Илья Сегалович: Нестабильность есть, мы с ней боремся, но наша цель – удовлетворить не веб-мастера, а конечного пользователя. А что касается разницы выдачи по запросу с большой и маленькой буквой, то, это учет словоформы. Это нормально.


А выпадения из выдачи? Они не связаны с ростом базы, с тем, что не успеваете обновлять парк?


Илья Сегалович: Выпадение всех страниц сайта невозможно, потому что все проиндексированные страницы одного сайта не лежат на одном сервере. Если выпадет весь сайт, то это связано с пессимизацией. Да, действительно, нагрузки есть, с ростом базы возникают ситуации не очень стабильной работы, мы эту проблему понимаем, и действуем. Была, например, проблема – страницы одного сайта по-разному кешировались. Её пофиксили еще в начале весны.


Но, по отзывам оптимизаторов и клиентов, эта проблема, массовая и повторяется периодически?


Илья Сегалович: Да поймите, эта проблема есть, но она практически незаметна пользователю, в этом смысле она минорная. Мы сейчас сосредоточены на других проблемах . К сожалению, я должен извиниться перед веб-мастерами. Повторюсь, эта проблема у нас минорная и я понимаю их недобрые чувства, связанные с нестабильной работой Яндекса. Я просто подчеркиваю, что мы думаем, прежде всего, о поиске.
Мы предпринимаем какие-то шаги, чтобы этого не было, но полностью от этого «не излечишься». Да, причина в очень большой базе, однако, с точки зрения пользователя, это минимальный брак – для пользователя важно то, что на его запрос находится релевантный ответ, и не так важно, на каком именно сайте.


Вопросы наших читателей для Ильи Сегаловича:

Вадим М.:

Как вы можете прокомментировать, тот факт, что в выдаче поисковой системы «Яндекс» практически по любому низкоконкурентному запросу появляются сайты дорвеи, принудительно перенаправляющие пользователя на сайт www.rupoisk.ru? Когда кончится это безобразие и есть ли эффективные методы борьбы с этим злом?


Илья Сегалович: Да, действительно, редиректы на такие сайты, как www.rupoisk.ru и www.bloknotik.ru, появляются в выдаче Яндекса. Мы с этим боремся. Есть эффективные методы борьбы с этим злом. Думаю, ждать осталось не долго.


Мария И.: Ожидаются ли кардинальные изменения в поисковом алгоритме?


Илья Сегалович: Да.


Например, изменения в ссылочном ранжировании сайтов?


Илья Сегалович: Да.


Учете ссылок с главных страниц?


Илья Сегалович: Это детали, которые я не могу разглашать.


Павел К.: Насколько стабильно работают и будут работать алгоритмы ранжирования?


Илья Сегалович: Алгоритмы ранжирования работают стабильно, но у баз большая нагрузка. Мы стараемся, чтобы эта стабильность повышалась. Что касается стабильности временной, то алгоритмы будут меняться.


Дмитрий Р.: Почему сейчас приоритет отдается быстроте индексации страниц и количеству сайтов в базе поисковой системы, а не качеству выдаваемых пользователю страниц по запросу, их релевантности?


Илья Сегалович: Приоритет отдается качеству, и только на втором месте быстрота. Поэтому я не согласен с этим утверждением.


Почему «Яндекс» придумывает и развивает новые сервисы (поиск по картинкам, в блогах, погода разная, телепрограмма), а алгоритм, определяющий релевантность сайта, работает все хуже и релевантность выдаваемых сайтов все ниже?


Илья Сегалович: Работы над новыми проектами и над качеством поиска идут параллельно, ими занимаются разные люди и одно другому не мешает. Мы понимаем, что алгоритм, определяющий релевантность сайтов – наша главная задача, и продолжим над ним работать и дальше.



взято здесь

Комментариев нет: