«Я в любой стране готов захватить долю Google. Но сейчас это неоправданно»
Большое интервью директора по технологиям «Яндекса» Михаила Парахина
После смерти Ильи Сегаловича в 2013 году должность директора по технологиям «Яндекса» два года оставалась вакантной. В 2015-м этот пост занял бывший сотрудник Microsoft и специалист по машинному обучению Михаил Парахин. За последующие два года Парахин не дал ни одного интервью, его имя практически не мелькало в СМИ. Журналисту «Медузы» Султану Сулейманову удалось поговорить с Парахиным об отношении к русским разработчикам в США, о конкуренции с Google и о состоянии «Яндекс.Новостей».
— Вы пришли в «Яндекс» из Microsoft. Чем вы занимались в Microsoft и еще раньше?
— Я прожил в Штатах 13 лет, половину из которых проработал в компании Parascript. Мы занимались машинным обучением, в основном связанным с распознаванием текста — рукописного и печатного. Компания — почти монополия в этой области, они с большим отрывом лучшие в этом. А когда я дорос там практически до потолка, став человеком номер два в технической части, ушел в Microsoft.
В Microsoft еще семь лет проработал на разных должностях, последняя была — руководитель поиска по картинкам и видео Bing, multimedia search поисковика. А когда пришел новый CEO, Сатья Наделла, он довольно логично сказал, что Bing для компании не в приоритете: «Почему у нас 20% инженеров компании работает над тем, что приносит полпроцента дохода? Это, кажется, неоптимально». После этого были большие перестановки, очень сильный технически человек, мой руководитель Хэрри Шам, ушел из Bing руководить исследовательским подразделением Microsoft. И я понял, что надо искать какие-то новые возможности. У меня было несколько довольно интересных предложений, ну и «Яндекс» мне понравился больше всего.
— Работая в Microsoft, вы жили в США?
— В майкрософтовское время я жил и работал в Сиэтле.
— Вы чувствовали какое-то особое отношение к вам?
— Конечно, это вообще чуть ли не моя любимая тема. Иногда меня раздражает то, насколько разное восприятие русских в Штатах и русских в России.
Как у нас относятся к чему-нибудь русскому? «А, это отечественная какая-то штука, да ладно, что у вас там, технологий, наверное, никаких нет, сиволапые, лаптем щи хлебают, а вот на Западе — там технологии».
Какое впечатление обычно на Западе о русских? Русские — это такие суперматематики, они всегда играют в шахматы, у них все четко, они в компьютерах самые лучшие. Есть анекдоты про русских программистов, которые никого не слушают, но могут делать вещи, которые никто другой делать не может. То есть ассоциация со словом «русский» в Штатах совершенно не такая, как здесь, она обычно значит «плохо управляемый, но очень умный, с очень сильной математической подготовкой, начитанный, часто хакер, и если делать искусственный интеллект или что-нибудь такое, русские с этим лучше всех справляются».
Я сталкивался с этим миллионы раз. Например, в ресторане начинают считать, сколько чаевых оставить, и говорят: «А вот, у нас русский, пусть он посчитает». Поэтому если в Штатах я когда-нибудь буду делать стартап про машинное обучение, я обязательно вставлю в название что-нибудь со словом «русский». А в России, похоже, наоборот, надо притворяться, что ты американский стартап.
— Я что-то не уверен, что в России есть какая-то сильная школа машинного обучения. Неужели у российских разработчиков есть какая-то особенность? «Русская школа AI»?
— Конечно, есть. Наверное, мы можем это документально доказать. Россия с точки зрения машинного обучения точно никогда не отставала. И с точки зрения индустриального применения… мне трудно говорить про всю Америку, но в тех кругах, в которых я общаюсь, сильное мнение, что в России, возможно, масштабное индустриальное применение началось раньше. У меня есть конкретные примеры.
Первыми действительно успешными, измеряемыми, условно, сотнями миллионов долларов, применениями машинного обучения, которые я знаю, было распознавание рукописного и сложного печатного текста. Вот был у Apple компьютер Newton. Кто в нем делал распознавание рукописного текста? Русские делали.
Была тогда компания Paragraph. Приехали в начале 1990-х тогда еще в Советский Союз представители Apple. Параграфцы пришли и говорят: мы можем делать что угодно. Все это сложилось случайно, потому что в Союзе тогда были Шеля Губерман и другие энтузиасты распознавания рукописного текста, которые занимались этим с 70–80-х годов, а на Западе этим почему-то не занимались. И в Paragraph сделали отличный распознаватель для Newton, который сейчас, после многих инкарнаций и покупок-продаж авторских прав, встроен в Windows. Когда меня брали на работу в Microsoft, моя первая задача звучала так: «А, ты русский, значит, наверное, сможешь разобраться с этим приложением, которое русские сделали. Его надо улучшить».
А когда USPS решила автоматизировать распознавание текста на конвертах — они проводили тендер между Lockheed Martin и Siemens. И та и другая в итоге стали покупать технологии распознавания у кого? У русской компании Parascript, которая потом открыла представительство в США, в Колорадо. «Яндекс», кстати, купил русскую часть Parascript пару лет назад.
А когда я еще работал в России, было такое ЗАО НТЦ «Модуль», которое занималось многими ныне популярными вещами. Впервые, наверное, в России там начали применять то, что сейчас называется сверточными нейронными сетями, — для обработки изображений, работы с картами, выделения на них дорог. То, что сейчас работает в наших картах, — это все делалось в 90-х годах и делалось вполне в России. Я не хочу сказать, что в Штатах было хуже, — наверное, там были такого же масштаба компании, может больше, но они точно не были сильно больше. И точно в США такая разработка не была более централизованной.
Машинное обучение — это в каком-то смысле новое развитие статистики, а в статистику и функциональный анализ и в Советском Союзе, и в России много вкладывались. Здесь у нас точно нет никакого отставания. Я бы даже сказал, что с точки зрения применения машинного обучения в индустрии Россия всегда сохраняла паритет. Я в этом варился, поэтому это видел. Именно потому, что я в этом варился, у меня было некоторое конкурентное преимущество на Западе, когда я устраивался на работу: ни у кого нет опыта, а у меня есть.
— А вам не кажется, что из-за всех этих разговоров про русских хакеров, которые «взломали» американские выборы, отношение к нашим специалистам может ухудшиться?
— Не думаю, хоть в определенном смысле в мире и культивируется негативный имидж России. Я езжу в Штаты по своим делам и много общаюсь со своими прошлыми друзьями, и пока эта история только подняла, так сказать, мое реноме. Теперь они говорят: «О, ну вы такие могущественные ребята, президентами управляете, выбираете, кого хотите».
То есть если говорить об обычных людях, об обычном повседневном общении, то быть русским в Штатах, по-моему, стало даже более престижно.
— Когда вас звали в «Яндекс» — вам сразу намекали, что вас сделают CTO, или вы шли просто заниматься поиском?
— У нас был такой план: я приду, где-то в течение года осмотрюсь, на меня повнимательнее посмотрят. Если все нормально, то сделают CTO, об этом договаривались, да.
— Неужели предложение «Яндекса» было настолько хорошим, что вы оказались готовы переехать из классного Сиэтла в не очень классную и холодную Москву?
— Я сам родом из ближнего Подмосковья, поэтому холодная погода меня не пугала. Классный Сиэтл? Сам Сиэтл мне не нравится. Штаб-квартира Microsoft расположена, что называется, в Eastside — через озеро, в Редмонде. Вот там другая жизнь. Но с точки зрения качества жизни Москва среди больших городов — готов подписаться — наверное, лучшая. Я сравниваю с Нью-Йорком, Лондоном.
У меня были предложения из Нью-Йорка, но, на мой взгляд, этот город с жизнью несовместим. У тебя есть шесть деревьев и малюсенький Центральный парк размером примерно с парк Горького, только на весь город. И все. Московские пробки вам не нравятся? Поездите по Манхэттену, расскажите, как вам там.
В Лондоне Bloomberg делал лабораторию по машинному обучению, и меня туда звали. Но с точки зрения качества жизни Москва довольно сильно превосходит Лондон по тем же причинам. В центре нет детских площадок, квартирки маленькие, отопления нет, краны текут. Мне местная жительница так и сказала: «Краны у нас всегда текут, это у нас национальная традиция».
Если абстрагироваться от пиара и пропаганды, то на самом деле в Москве очень много деревьев, нормальный трафик, очень широкие улицы по сравнению с любым крупным городом Европы или Америки. С платными парковками стало сильно проще парковаться. Это, наверное, лучшее место на Земле, если ты занимаешься развитием детей. Например, здесь я за 50 долларов в час имею возможность нанять чуть ли не олимпийского чемпиона по плаванию, чтобы он учил моих детей. Такого нигде больше нельзя представить.
А с точки зрения самих предложений о работе — у меня были довольно крупные. Например, мне предлагали возглавлять направление DoubleClick. Но «Яндекс» мне понравился тем, что он совмещает темпы роста стартапа, то есть действительно очень активно движется вперед, и стабильность крупной компании. Обычно ты выбираешь что-то одно. Либо ты идешь в Facebook, Microsoft или Google, где стабильно, но ты там как бы в бетоне: чтобы что-то сделать, надо это выгрызать. Либо ты идешь в стартап, но там риски и хаос. «Яндекс» — очень хорошая комбинация того и другого. У меня здесь было много друзей, я знал Илью Сегаловича и Андрея Гулина, здесь познакомился уже в процессе переговоров с Аркадием Воложем.
В Bing мультимедиа — второе по важности направление, уступающее только основному поиску по вебу. Мне всегда казалось, что я знаю, как делать вещи лучше в общем, вебовском поиске. Но в Microsoft мне было тяжело влиять на него, а в «Яндексе» появилась возможность наконец-то проверить гипотезы, которые я выдвигал.
— Оказалось, что вы были правы, или все-таки было ощущение: «Ух, черт возьми, все по-другому, какой-то другой поиск в „Яндексе“»? Или все сейчас более-менее одинаково у всех и разницы нет?
— Фундаментально, математически, алгоритмически они примерно одинаково работают, то есть, условно, все используют двигатель внутреннего сгорания. У всех, если смотреть на алгоритм, приемы примерно одинаковые. «Яндекс», если сравнивать именно с Bing, с точки зрения ранжирования и принципиальности подхода к измерениям ушел дальше. Здесь очень сильно проработали метрики, такой более академический подход, что правильно. Я бы сказал, что в «Яндексе» это устроено даже более правильно, чем в Google.
У «Яндекса» проблема в том, что у нас меньше компьютеров, меньше серверов, машин, которые нужны, чтобы индексировать интернет, отвечать на запросы и вообще обеспечивать весь процессинг поиска. Поэтому голь на выдумки хитра: эффективность на один компьютер в «Яндексе» с большим запасом лучше, чем в Google или в Bing. В Bing она вообще была довольно низкая, там довольно сильно заливают инфраструктуру деньгами. А мы из одной машины выжимаем сильно больше, потому что довольно много сил вкладывали в оптимизацию, понимая, что у нас столько денег нет.
В каком-то смысле это хорошо: ограничение ресурсов заставляет тебя задумываться больше о качестве и в результате дисциплинирует команду. По объективным параметрам, например по размеру индекса, мы сильно больше, чем Bing. По нашим измерениям мы вторые в мире после Google. Но на наших рынках, конечно, мы несравненно больше знаем веб-документов, у нас выше скорость их индексации и так далее.
— А еще вы что-то делаете, чтобы противостоять гигантам? Кроме оптимизации кода?
— Если сравнивать с Google, то большое отличие, которое, я думаю, даже Google признает, это то, что мы движемся сильно быстрее. Мы быстрее внедряем новшества, мы обычно их обгоняем. Потому что у них есть 220 стран, где они уже де-факто лидеры, и главная задача — ничего не сломать. Им приходится любую вещь, которую они делают, делать сразу на все страны. Это, кстати, очень хороший подход, он в ДНК у Google прямо заложен. И его нету, например, у Amazon.
Но это же их и ограничивает, потому что если твоя главная задача — не сломать, то если ты придумал что-то, что улучшает качество на один процент, тебе, скорее всего, скажут: не надо пока ничего делать, один процент никто не заметит, а вдруг что сломается — и у нас будут миллиардные убытки. Поэтому спокойненько, пусть отлежится пока. Хороший наш приятель, который работал и в «Яндексе», и в Google, — он из Google просто ушел с возмущением, потому что за год он смог в продакшен докатить шесть строчек кода. Он хотел работать, он очень умный и получал хорошие бонусы, но у них очень много таких вот препон. Частично именно из-за того, что нельзя допустить, чтобы все сломалось, а частично — потому что надо делать сразу на много стран вместе. У нас другая ситуация: если мы не будем быстро двигаться, мы проиграем, потому что у Google больше денег и ресурсов.
— По сравнению с вами — примерно бесконечно.
— Да, разница минимум в два порядка. Поэтому, например, мы намного больше «затачиваем» поиск под конкретные страны. Мы стараемся быть более локальными, более персонализированными для человека — просто потому, что у нас меньше рынков, мы можем себе это позволить. Google, если начнет это делать для каждого региона, то просто взорвется — не хватит даже их ресурсов.
— Почему количество рынков для «Яндекса» не растет? У меня ощущение, что вы как-то остановились. Была Турция — и после этого не слышно, чтобы вы пытались какую-нибудь Боливию взять и захватить. Или вам пока достаточно этих рынков и вы их домонополизируете?
— Поиск имеет тенденцию быть чем-то типа естественной монополии, потому что его производство — довольно дорогое удовольствие, чем-то он похож, извините, на водопровод. В том смысле что его очень дорого построить и очень дорого поддерживать. Это означает, что если водопровод в стране есть, а ты приходишь с водой лучше и говоришь: «У нас есть газированная вода, и у нас она из святого источника и еще насыщена какими-нибудь ионами добра», — почти наверняка у тебя ничего с ходу не выйдет, потому что люди уже привыкли пользоваться существующим водопроводом. Получается довольно тяжело (и дорого) конкурировать с Google там, где он уже лидер. То есть практически везде.
Можем ли мы побороться с Google? Я в любой стране готов это делать и захватить долю, но, к сожалению, так, как мы сейчас это делаем, получается экономически неоправданно. Чтобы людям внушить, рассказать про то, что у тебя есть поиск; чтобы создать такой поиск, который действительно может быть сильно лучше Google, чтобы у людей была причина переключаться — все эти затраты не окупаются полученной когда-нибудь потом прибылью. Ведь Google в свое время приходил в разные страны практически на пустое место. Конечно, не везде — кроме России, Чехии, Южной Кореи и еще пары стран. Baidu, когда Google пришел в Китай, был довольно слабым с технической точки зрения — и государству пришлось его поддерживать. «Яндекс» справляется безо всякой государственной поддержки.
«Яндекс» появился в России в 1997 году, еще когда Google не существовало. И им тяжело нас выбить отсюда. Но и нам захватывать другие рынки просто экономически невыгодно. Google это часто делает просто идеологически — чтобы не было конкурентов. Я уверен, что они в итоге вложили денег в Россию больше, чем заработали здесь. Но они себе могут это позволить, а нам другие рынки нужны, по сути, только для ярмарки тщеславия. Это мне не кажется правильным.
— Но Google при этом активно жрет вашу долю в России — благодаря телефонам. Понятно, что есть эта история про переговоры с производителями телефонов, чтобы в Android по умолчанию ставить поиск и сервисы «Яндекса». Но мне не очень понятно, почему вы не можете взять и выпустить свой «яндексфон». Не Fly какой-нибудь с «Яндексом», а прямо желтый «яндексфон» с сервисами «Яндекса».
— Хороший вопрос. Понятно, что не в первый раз мы его слышим и не в первый раз его обсуждаем внутри. Но сначала про долю: на самом деле, если брать прошлый год, на десктопе наша доля чуть выросла, на мобильном она чуть снизилась. На Android, кстати, чуть подросла, а на iOS из-за обновления платформы, из-за того, что исчез целый ряд возможностей для пользователя сменить поиск по умолчанию, упала. В целом доля снизилась, потому что больше мобильного стало, но здесь я еще раз напомню, что почти 100 процентов телефонов, которые сейчас продаются в России, приходят с предустановленным поиском Google во всех местах — и его довольно тяжело сменить. И все равно 30–40 процентов владельцев смартфонов на Android используют наш поиск. Я считаю, что это скорее комплимент, что такое происходит, а не какой-то проигрыш.
Google действительно, как мы знаем, показывал контракты в судебном разбирательстве, в которых явно прописан запрет производителям мобильных телефонов предустанавливать конкретно поиск «Яндекса».
А что касается создания своего телефона — это исключено. Мы исследовали этот вопрос и даже создавали прототипы. Выясняется, что это исключительно дорого. Создать свой телефон на основе Android ты можешь, но если ты хочешь Google Play, если ты хочешь магазин приложений, ты обязан ставить Google по умолчанию.
Соответственно, если мы делаем свой телефон с сервисами «Яндекса», мы не можем использовать Google Play и так называемые GPS (Google Play Services), служебные программы внутри Android, которые влияют на работоспособность приложений. Мы даже написали в тот момент свой аналог GPS, у нас был проект «Яндекс.Кит», но стало понятно, что, чтобы стимулировать разработчиков писать приложения для нашего магазина приложений или размещать их в нашем магазине, нужны такие вложения, которые экономически не оправданны.
Возьмем даже таких титанов, как Microsoft, который в попытке создания своей экосистемы закопал в землю количество миллиардов, значительно превышающее то, которое мы когда-либо вообще зарабатывали. И они не смогли существенно продвинуться, притом что у них какие-то вещи были реализованы сильно лучше, чем на Android.
— Если говорить про поиск — им вообще сейчас интересно заниматься? Ведь сейчас он так развит, что ты вкалываешь, внедряешь новую супертехнологию, а у тебя в итоге на одну тысячную процента в пяти процентах запросов что-то улучшилось.
— Совершенно верно. Чем дальше ты идешь, тем больше усилий нужно прикладывать, чтобы прогрессировать, чтобы получить следующий процент улучшений. Но именно это и делает эту работу интересной! Раньше было скучно. Я помню хорошо, что когда пришел в Bing в 2007 году после контрактов с USPS, а там, в Parascript, мы дошли до того, что система читала адреса, рукописные, машинные, сфотографированные фотоаппаратом, с тенями, порванные, — сильно лучше, чем человек. У меня тогда была проблема верифицировать качество, потому что непонятно, с чем сравнивать, если возможности человека мы уже обогнали. И там использовались все возможные машинные алгоритмы во всех комбинациях, очень была сложная система.
Так вот, я пришел в поиск Bing — а там все тривиально. Первые несколько лет жаловался, что мне не нужно думать над какими-то новыми идеями, надо просто реализовать то, что я уже знал. Я ограничен был просто количеством машин и скоростью печатания на клавиатуре. И это было, на самом деле, не очень интересно. Сейчас я наконец-то рад: где-то примерно года два назад мы достигли такой ситуации, при которой я уже не знаю следующего шага и надо уже думать. Мы из других индустрий все уже собрали.
И вот наша технология «Палех», например, — это как раз то, над чем ты работаешь и понимаешь, что это суперкруто, суперинтересно. И поэтому сейчас (наверное, обижу кого-нибудь) самые умные люди и самые прокачанные в машинном обучении компании стремятся, как правило, либо в индустрию поиска, либо в рекламу. Это две области, где много и долго работали, и сейчас там по-настоящему сложные и интересные задачи. Мне с трудом приходится оттаскивать разработчиков поиска в какой-нибудь другой суперважный проект «Яндекса», они говорят: «Да ладно, там же тривиально, это кто-нибудь другой сделает, у меня тут сейчас вот интересное очень». Хотят соревноваться люди.
— А мы не подходим к какой-то революции, когда бах — и тот, кто эту революцию придумает, получит более серьезное преимущество? Я вижу, что поисковики уже научились отвечать на вопросы. Если я спрошу «Температура кошки», то он сразу напишет среднюю температуру. Но вот эта стена со ссылками в выдаче, которая за 20 лет поднадоела, — она заменится чем-нибудь?
— Десять лет занимаюсь поиском. И все десять лет говорят про «Поиск 2.0», и все ждут революции. Как Йоги Берра говорил: предсказания делать довольно сложно, особенно о будущем. Лично я думаю, что именно революции не случится. Я не очень верю, что появится какой-то новый стартап, маленькая компания, которая вдруг что-то сделает такое, что все начнут пользоваться ее поиском, а другими перестанут. Я думаю, что поиск эволюционирует — и довольно понятно, в какую сторону. Мы эти тренды все время анализируем и видим, что независимо от Google приходим примерно к таким же выводам. Мы начинаем что-то делать, что-то выпускаем и замечаем, что Google делает то же самое, и при этом никто друг друга не копирует. Просто есть рыночные силы, которые всех игроков толкают в определенном направлении.
И здесь мы видим, что основные направления — это то, что мы называем «потребление на серпе». «Серп» — это сленг, search engine result page, то есть вот эта самая стена ссылок. «Потребление на серпе» означает как можно большее вытаскивание информации туда. Раньше задача поисковиков была как можно быстрее отправить человека на какой-то другой сайт, то есть минимизировать время, которое ты проводишь в поиске. Сейчас и Google, и мы, и Bing, и Baidu, и Naver (это южнокорейские, очень серьезные ребята) движутся в обратную сторону: конденсировать информацию, собирать и предоставлять ответ сразу. Это происходит эволюционно уже несколько лет. Постепенно это трансформирует то, как мы взаимодействуем с поиском. Но такое изменение потребления не произойдет за один день. В какой-то момент вдруг все почувствуют: «О, сегодняшний поиск не такой, какой он был».
Температура кошки — это очень понятный, простой запрос, и понятно, как на него ответить. А если мне хочется почитать про немецкие подводные лодки Type XXI, куда мы идем? Мы идем на «Википедию». Там люди из разных источников надергали и сконденсировали информацию, рассеянную везде по интернету, в какой-то области. Сейчас это делает «Википедия» для ограниченного набора сценариев и руками. Постепенно такие вещи будут собираться автоматически и для всех запросов. Пример, чтобы не быть голословным: если я хочу про какой-то объект, про ту же подводную лодку, почитать, я иду на «Википедию». А если я хочу, например, научиться торговать опционами — я не имею в виду вот эти тотализаторы, бинарные опционы, я имею в виду нормальное хеджирование опционов — сейчас мне нужно перелопатить гигантский объем информации. Я не могу пойти на «Википедию», там не будет статьи про это, если и будет, то она будет по сути академической и довольно бессмысленной в практическом плане. Мне придется изучить десятки разных статей, почитать, по ссылкам походить, потом что-то попробовать, потом понять, что опять не понял, и что-то еще изучить. Но можно все это собрать в конденсированном виде и показать человеку в ответ на запрос «как научиться торговать акциями» — вот это то, куда мы сейчас движемся.
Сбор и представление информации — это одна часть. А вторая — то, что больше офлайн-мира затаскивается в онлайн: карты, навигаторы, поиск организаций — это самые базовые вещи. Следующий шаг — взаимодействие с бизнесом. То есть не выходя из поиска можно будет делать заказы и чатиться с компанией. Отсюда же автоматически возникают чат-боты, которые будут отвечать на базовые вопросы и уже в сложных случаях переправлять к человеку. Получение человеком в одном месте большего объема информации и возможность взаимодействовать с ней — сейчас поисковики явно идут в эту сторону.
А третья большая составляющая, как мне кажется, это… слоган такой даже придумали: «навигатор для реального мира». Сейчас я сажусь в машину, и куда бы я ни поехал, я не буду смотреть дорогу на карте. Я нажму на навигатор и буду знать, что он меня выведет. И если где-то будет ДТП или перекопанная дорога, то он сам перестроит мне маршрут. Вот то же самое должно появиться и для всего остального. То, во что постепенно выльются все эти помощники. То есть некая сущность, с которой ты взаимодействуешь, которая тебе интерактивно и контекстно подсказывает, помнит, что тебе обычно нужно; которой ты можешь задать вопросы, если ты в сложной ситуации.
— А то, что все переходят в телефоны, повлияет на поиск?
— Да, есть интересный тренд, который почти все разработчики заметили. И мой любимый Naver дальше всех убежал по этому пути. В свое время, когда Apple выпустила айфон, они всем вбивали мантру, что одно приложение должно выполнять одну функцию. Они это, как мне кажется, делали немножко с эгоистическими целями, потому что у них есть одно приложение — называется айфон. А дальше, если все остальные раздроблены, то Apple самой проще, если нужно, пойти и заменить часть чужих приложений на свои собственные или запретить, когда начинаются конфликты. Конечно, это позволяет поддерживать и более унифицированный пользовательский интерфейс.
Но с точки зрения пользователя это довольно неудобно, потому что, если у тебя есть набор задач, которые ты на мобильном решаешь, тебе надо скачать для каждой свое приложение и в нужный момент вспомнить и открыть его. Я по маме своей сужу, она вполне образованный человек, химик, но установка еще одного приложения для нее — всегда неприятное действие. Лучше обойдется.
А сейчас постепенно все идут по пути интеграции разных функций в сервис «Все в одном». Так делает и «Яндекс». Причем в вебе это всегда было так. Никто не заходит в браузер, не вспоминает: «О! Мне надо найти „Яндекс.Карты“» — и пишет maps.yandex.ru. Или нужны картинки — и пишет images.yandex.ru. Все идут на yandex.ru и кликают по ссылкам.
В мобильных, к сожалению, появилась раздробленность, которая дошла в некоторых случаях до абсурда. У «Яндекса» есть геосервисы, которые разделены на карты, навигатор, электрички, транспорт, расписание и метро. Шесть разных приложений надо вспомнить и поставить. Про каждое приложение надо людям рассказать, надо его разрекламировать, заплатить деньги, в том числе Apple и Google, чтобы показать рекламу. Такая разобщенность мешает приложениям общаться между собой, то есть мне в каждом надо отдельно залогиниться, чтобы меня знали, чтобы помнили о моих привычках. Каждому приложению приходится узнавать по отдельности, где я живу, чтобы подсказывать какую-то информацию, они начинают отправлять мне одинаковые уведомления. Сейчас вот, например, лечим проблему, чтобы разные приложения не слали одно и то же: «Погода» мне про погоду, и поиск про погоду, и Google еще присылает про погоду.
И сейчас это осознали все, причем относительно независимо друг от друга, и идет процесс собирания. Как я сказал, Naver прошел по этому пути дальше всех, они вообще умные ребята, и у них очень интегрированное приложение, и в Южной Корее большинство людей разговаривают так:
— Ты что поставил на телефон?
— Naver поставил.
То есть поставил Naver — и все, тебе больше ничего не надо. В нем все есть — все сервисы с тобой. Google это делает со своим поисковым приложением, мы это делаем со своим поисковым приложением. Мы, я бы сказал, даже прошли чуть дальше, чем Google. У нас больше всего интегрировано на главную страницу, мы будем очень сильно ее развивать, наша, наверное, основная инвестиция — делать так, чтобы все сервисы между собой органично взаимодействовали.
Здесь есть два способа. Один способ — сделать монстр-комбайн из несвязных вещей, и тогда можно вспомнить знаменитую фразу: «Не ругайтесь, что медведь плохо танцует. Удивительно, что он вообще может танцевать!» Это не наш путь, не наш, я имею в виду, не поисковых систем. Здесь действительно сервисы друг на друга завязаны. Если я еду в машине, обычно я слушаю музыку. Непонятно, почему нет встроенной «Яндекс.Музыки» и «Яндекс.Радио» сразу же в «Навигатор»? Который знал бы мои привязанности и играл бы ту музыку, которую я обычно слушаю. Я пришел домой, а в колонках продолжает играть трек, который я начал слушать в машине. Такого рода интеграция, по-моему, очень полезная. Сейчас мы интегрировали в поисковое приложение «Транспорт», и это очень популярно. Многие люди уже просто заходят, смотрят там погоду и заодно проверяют, когда на остановку придет нужный автобус. Очень жизненный случай. Будем встраивать все больше сервисов и делать их более интегрированными, стирать между ними грани, чтобы было удобно пользоваться.
— Раз уж вы столько лет работаете в машинном обучении — как успехи «Яндекса» в этой сфере?
— Из достижений последних 12 месяцев я бы выделил три. Во-первых, «Палех», это наша технология глубоких нейронных сетей, которая создана для понимания сути и смысла текста. Ты берешь текстовый запрос и переводишь его в некое векторное пространство, как бы оцифровываешь. То же самое делаешь со всеми известными тебе страницами в интернете. И вот чем ближе вектор запроса к вектору страницы в этом пространстве — тем лучше страница отвечает на запрос. То есть можем найти релевантную статью, даже если в ней и в поисковом запросе ни одного слова не совпадает, но по смыслу они друг с другом отлично соотносятся. Мы «Палехом» очень гордимся, считаем, что эта технология с определенным запасом лучшая в своем роде.
Вторая вещь — это радикальный скачок в качестве распознавания голоса. Раньше мы были примерно в паритете с Google, сейчас мы по всем нашим измерениям на голову стали выше. И сильно уменьшились задержки в распознавании — это тоже большая технологическая составляющая, которая связана с машинным обучением, потому что в распознавании голоса очень важно как можно быстрее дать пользователю ответ. То есть ты не можешь запускать на телефоне очень большие, тяжелые алгоритмы, а для того чтобы быстро отвечать с сервера, нужно оптимизировать данные так, чтобы все работало даже на слабых каналах связи. Мы считаем очень большим успехом сильное улучшение распознавания голоса.
И в рекламе я бы выделил так называемую технологию Broadmatch, которая по смыслу похожа на «Палех», хотя там очень специальная, своя собственная модель, свой собственный алгоритм. Раньше тебе надо было всегда, когда ты размещаешь в поиске контекстную рекламу своего бизнеса, например продаешь пластиковые окна, указать: если идет запрос «пластиковые окна», то показать мою рекламу. При этом я как человек не знаю, какие еще запросы задают пользователи, ищущие в «Яндексе» пластиковые окна, и какая частота у этих запросов. Но я точно знаю, что «пластиковые окна» они ищут, и его указываю, и все мои конкуренты указывают. В итоге этот запрос получается суперконкурентным, «перегретым»: по нему хотят показывать свою рекламу все продавцы окон, и если учесть, что цена на такую рекламу аукционная, то получаются заоблачные цены за каждый клик.
Но, скорее всего, покупатели окон могут искать их, например, во время ремонта. И может быть, на запрос «как правильно делать кирпичную кладку вокруг окна на даче» тоже нужно показывать мою рекламу? При этом такой запрос окажется куда менее конкурентным, то есть клик на рекламу будет значительно дешевле, а эффективность — такая же. Ну и Broadmatch — это технология, которая говорит рекламодателю: «Не надо забивать все слова, по которым, как тебе кажется, нужно показывать твою рекламу. Я все это сделаю за тебя». Она сама оценит вероятность того, насколько хорошо подходит объявление под разные неочевидные запросы, и сама понизит ставку так, чтобы тебе суммарно было экономически выгоднее рекламироваться.
— Не могу не спросить про «Яндекс.Новости» — вы наверняка понимаете, что с ними происходит? Со стороны кажется, что «Яндекс» на них подзабил, разве что время от времени вы подключаете к нему несчастного человека, который подправляет алгоритм. А в целом сервис крутится где-то на старенькой машине, которая недавно упала от нагрузки, и никому нет дела. Так и есть?
— Я бы не сказал, что это так, но в ваших словах есть определенная доля правды — в том смысле что «Новости» всегда были исторически отделены от остальной части поиска. Они использовали те же технологии, но варились немного в собственном соку. А трафик на «Новости» непрерывно растет, и требования растут. Меняется внешний мир. Мы точно на них не забивали. Это один из важнейших для нас сервисов по многим параметрам. В том числе и по трафику, по росту и так далее. Но команда была независимой, не связанной со всеми. Я даже не знаю почему. Это странность историческая.
Возможности команды и скорость роста количества людей в команде не успевали за скоростью роста трафика и технологий и изменяющимся ландшафтом. Мне кажется, ситуация становится сложнее, мы все знаем, что продолжаются попытки накрутки новостей, хотя мы пытаемся с этим бороться. Как вы, наверное, знаете, новости у нас автоматические, у нас нет редакции — что ставить на сайт, решают только алгоритмы. Этим мы отличаемся от всех новостных сайтов.
События последних двух месяцев показали, что и инфраструктура отстала от требований, и скорость реакции на изменения уже недостаточная. Мир меняется быстрее, чем команда может поддерживать систему. Поэтому мы именно с технологической точки зрения сейчас делаем довольно крупную переделку сервиса, мы привлекаем людей из инфраструктуры поиска. Новости — это такая вещь, у них почти всегда относительно небольшой трафик, но раз или два в год он может увеличиться внезапно в десять раз, а потом откатиться назад. И в «Новостях» есть система, которая эластично должна увеличивать выдаваемые сервису мощности. Когда случился теракт в Санкт-Петербурге, нагрузка на сервис выросла больше чем в десять раз, а оказалось, что система была рассчитана, скажем, только на четыре раза. Почему на четыре? Совершенно непонятно. Ничего не мешало заранее рассчитать на десять, просто на ребят, которые этим занимались, сыпалось много проблем, связанных с соблюдением нового законодательства, плюс они боролись с накрутками. И они меньше внимания уделяли инфраструктуре.
Поэтому мы сейчас привлекаем людей из инфраструктуры поиска, будем объединять сервис именно с точки зрения общности самого базового кода так, чтобы он работал так же надежно, как и остальная часть «Яндекса». И здесь, я думаю, в ближайшее время мы увидим большие изменения в надежности и в точности антиспама и других направлений. Команду из обособленности мы сейчас выводим.
Султан Сулейманов, Москва