
Зачем дата-сайентисту экономика? Часть 2: Иван Горбань
Продолжаем серию материалов (первую часть можно прочитать по ссылке) с рассказами выпускников, работающих в Data Science и применяющих для решения задач знания из экономики. Иван Горбань (MAE’2016), ведущий специалист по Data Science в Мегафоне, рассказывает, какими навыками он пользуется при планировании строительства базовых станций связи, зачем нужна экономическая интуиция и как ему в работе помогает теория игр.
Causal методы не только в эконометрике
Я оканчивал МАЕ по специальности «Анализ данных». Решив пойти именно в эту сферу, я понял, что экономика очень сильно связана с data science. Например, в науке анализа данных существует очень много пробелов, связанных именно с causal (причинно-следственными) методами, а это то, что эконометрика уже довольно хорошо изучила. В то же время causal методы в машинном обучении очень сильно развиваются, они постепенно переходят туда из эконометрики. В работе мне помогает все, что связано с ними, то есть понимание эндогенности, причинно-следственной связи. Благодаря этому я в компании ввел в более частое использование uplift modeling (моделирование подъема), модели Conditional Average Treatment Effects, которые мы изучали в микроэконометрике.
Эмпирика и экономическая интуиция
Экономику можно разделить на теоретические и эмпирические исследования. И все, что касается эмпирики, везде применимо в data science, особенно сейчас, когда есть большой акцент на Reliable Machine Learning – интерпретируемое машинное обучение и машинное обучение, связанное с выявлением причинно-следственных связей.
В сфере анализа данных очень полезно знание экономики и обладание экономической интуицией. Часто в бизнесе люди, которые пришли из чистого компьютер-сайенса, могут просто обучать модели, не особо вдаваясь в интуицию происходящего. Они делают модель, но не задумываются о взаимодействии определенных параметров. Экономическое образование помогает видеть и понимать, как все связано и какие существуют риски.
Data Science – это и про кругозор, и про специализацию
Выигрывает тот, у кого есть и то, и другое. Чем дальше человек идет по карьерной лестнице, тем больше ему нужны знания из множества других областей. Когда в начале у дата-сайентиста есть один проект, ему вполне хватает узкого кругозора и просто хорошего знания своей области. Если же дальше он становится тимлидом или директором отдела по аналитике данных, ему начинает не хватать знаний только своей специальности. Например, он знает и отлично обрабатывает Natural Language Processing (естественный язык), но он не знаком с классическим машинным обучением или не имеет экономической интуиции, ему сложно мыслить в терминах рынков и понимать, как происходит ценообразование. Такому работнику будет очень сложно направить своих сотрудников, придется искать хорошего стороннего специалиста. А это не всегда возможно, особенно при дефиците кадров.
A/B тесты и строительство базовых станций
На моей работе мы часто устраиваем А/B тесты. Они могут быть естественными экспериментами. Например, есть какой-то процесс, который продолжался во времени, затем произошло изменение, и нам надо выявить его эффект. Здесь очень помогали методы, связанные с regression discontinuity design. Опять же, в анализе A/B тестов часто нужен был анализ ковариации (ANCOVA), эмпирическая экономика и эконометрика.
Не так давно я решал задачу о строительстве базовых станций (группа антенн, которые обеспечивают связь в конкретной локации). Бюджет был меньше, чем количество потенциальных местоположений, у нас была возможность поставить станции только в 10% из всех возможных локаций. Возник вопрос, как правильно приоритезировать их, как понять, где стоит ставить в первую очередь?
Понятно, что компания заинтересована в росте выручки и количества клиентов, это было целевой метрикой. Следовательно, нам нужно было построить базовую станцию так, чтобы выросло количество клиентов или чтобы они больше пользовались связью. У нас был естественный эксперимент по факту установки станции в прошлом, по которому очень сложно увидеть эффект конкретного строительства. Мы рассматривали временные ряды подключения абонентов и их затрат на базовых станциях, смотрели, что происходит при установке новой станции, есть ли скачок. Здесь мы как раз применяли regression discontinuity design in time, составили целевое событие именно по этим рядам, а затем смогли на основе скачков построить модель, которая бы объясняла нам, где ставить станцию. Кроме того, здесь пригодились знания географии.
Ценообразование и Data Science
Также часто в работе применяю микроэкономику и теорию игр. Когда мы хотим решить, как нам устанавливать цены в том или ином регионе, учитывая, что у нас олигополический рынок, нам нужно понимать, что происходит непрерывная игра, когда мы конкурируем по цене с другими операторами.
Была задача связанная с ценообразованием партии товаров. Применялся целый набор методов, которые я изучал в РЭШ. Нам нужно было понять, по какой цене и в какой момент нам продавать партию аксессуаров. Здесь есть конкуренция между ритейлерами по этим аксессуарам и эндогенность, потому что существуют события, которые влияют на цены и на спрос одновременно. Во-первых, нам нужно было построить модель спроса и понять, как он будет зависеть от цены. Во-вторых, построить систему оптимизации, которая могла бы оптимизировать именно партию, потому что закупка, которую нужно распродать, происходит раз в полгода или раз в год. Более того, товар теряет актуальность со временем. Если мы его продаем в конце года, вероятно мы сделаем его уже дешевле, чем в начале. Также существует определенная взаимосвязь между аксессуаром и самим базовым товаром, который тоже устаревает. Помимо этого важно, что у различных аксессуаров есть корреляции в их продажах — при удешевлении одного аксессуара, падают продажи на соседнем. Во время работы над этим проектом, мы применяли методы динамической оптимизации и программирования, которые были у нас в макроэкономике, где они как раз часто используются. Здесь мы их применяли для оптимизации продаж партии товара.
Оптимизация клиентского пути
Сейчас мои проекты связаны с оптимизацией клиентского пути, который больше относится к обучению с подкреплением и к эффектам воздействия. Там огромная часть связана с A/B тестами, потому что все изменения, которые мы внедряем, анализируются. Более того, у нас сейчас развиваются направления R&D (Research and Development), которые связаны с введением различным новых методов в нашу работу. Я сейчас занимаюсь этой частью, и мы как раз рассматриваем, что можем улучшить, где можем применить методы, которые до сих пор не применялись.
Сфер для изучения data science и экономики действительно очень много. Нужно идти за тем, что интересно, пробовать и то, и другое, ведь мы никогда не знаем, что именно и когда нам пригодится.