| | Проблемы современной экономики, N 4 (52), 2014 | | ЭКОНОМИКА И УПРАВЛЕНИЕ В СФЕРЕ УСЛУГ | | Камоцкий А. С. соискатель кафедры социально-экономического планирования
Сибирского федерального университета (г. Красноярск) Зандер Е. В. заведующий кафедрой социально-экономического планирования
Сибирского федерального университета (г. Красноярск),
доктор экономических наук, профессор
| |
| | В статье выполнен анализ основных подходов к моделированию экономического поведения пользователей социальных сетей. Вводится определение оттока пользователей из сети. Даются основные критерии, в соответствии с которыми того или иного пользователя можно было бы признать покинувшим сеть. Рассматриваются методы исследования факторов, которые влияют на принятие пользователем решения покинуть сеть. Среди рассмотренных методов как классические (регрессионный анализ, анализ деревьев решений, построение нейросетей), так и специальные методы решения поставленной задачи. Доказывается, что комбинации классических методов предсказания оттока пользователей могут быть более предпочтительными к использованию с точки зрения соотношения затрат на предотвращение оттока к точности предсказания | Ключевые слова: социальные сети, отток пользователей, экономико-математический анализ, регрессионный анализ, анализ деревьев решений | УДК 338.4; ББК 65.04 Стр: 354 - 356 | Современная экономика всё больше «виртуализируется», то есть постепенно уходит от производства исключительно материальных благ (см., например, [Зуев, Мясникова, 2004]). С каждым годом растет объем услуг, которые оказываются с помощью интернет-технологий. Одним из основных элементов новой интернет-экономики являются социальные сети, эволюционировавшие за последние десять лет из экспериментальных студенческих проектов в мощный бизнес, который играет всё большую роль в мировой экономике. Так, в 2013 г. крупнейшая мировая социальная сеть Facebook насчитывала 1,3 млрд пользователей, то есть почти четверть населения планеты, а ее годовой оборот приблизился к 7,8 млрд дол. США. Столь бурное развитие данной сферы экономической жизни предопределяет появление новой отрасли экономической науки, изучающей феномен социальных сетей как предпринимательских структур специфического типа.
Особое развитие данное направление получило в иностранной литературе (см., например, работы [Awang, Rahman, Ismail, 2012; Karnstedt et al., 2010; Kawale, Pal, Srivastava, 2009; Krombholz, Merkl, Weippl, 2012; Masand et al., 1999; Mohammadi G., Tavakkoli-Moghaddam, Mohammadi M., 2013; Wai-Ho, Chan, Yao, 2003]). Кроме того, в последние годы исследования в области экономики социальных сетей появились и в России [Бахтин, 2012; Викторова, 2014; Голова, 2013, 2014; Губанов, Новиков, Чхартишвили, 2009a, 2009b; Мирошникова, 2014; Митрофанова, 2014; Новиков, Оганесян, 2012; Bershadskaya et al., 2012]. Несмотря на глобальный характер социальных сетей, при детальном рассмотрении выясняется, что фактически их рынки довольно четко сегментированы как по географическим регионам, так и по социальным признакам аудитории. Например, Facebook относительно непопулярен в России, где основную долю рынка делят «ВКонтакте», ориентированный на молодежную аудиторию и «Одноклассники», объединяющие представителей более старших поколений. Помимо классических социальных сетей, на рынке представлено множество мобильных игр с развитыми механизмами социализации. Таким образом, можно сделать вывод о том, что рынок социальных сетей в высокой степени гетерогенен.
Экономика социальных сетей устроена следующим образом. Подавляющее большинство социальных сетей устроено по модели «фримиум» (англ. freemium), предполагающей бесплатное пользование основными услугами социальной сети, либо с использованием смешанной модели «фримиум + реклама». Вместе с тем, некоторые специфические услуги предоставляются на платной основе (например, виртуальные подарки другим пользователям, предоставление премиальных учетных записей и др.). Оплата таких услуг формирует существенную часть доходов социальной сети наряду с контекстной рекламой. Расходная же часть бюджета социальной сети, помимо оплаты труда и обеспечения технического функционирования, формируется затратами на привлечение новых пользователей.
По мере развития рынка услуг социальных сетей стоимость привлечения новых клиентов неуклонно возрастает, что приводит к необходимости повышения эффективности расходов на привлечение. Одним из очевидных способов решения данной задачи является снижение первоначального оттока пользователей, под которым мы подразумеваем «затухание» активности пользователей, откликнувшихся на мероприятия по привлечению в течение некоторого короткого периода.
Целью нашего исследования является исследование основных подходов к предсказанию и предотвращению первоначального оттока пользователей из социальных сетей. В англоязычной литературе утвердился термин churn analysis, как обозначение анализа оттока пользователей из определенной системы.
Вначале обсудим основные подходы к определению факта ухода пользователей из сети в соответствии с классификацией, предложенной М. Карнштедтом и др. [Karnstedt et al., 2010].
Индивидуальный отток. Определим окно предыдущей активности (PA) как временной период между днями t1 и (t1 + n – 1) включительно, предполагая, что n – некоторое натуральное неотрицательное число. Пусть μpA(иi) обозначает среднюю активность пользователя иi в окне предыдущей активности. Тогда окно ухода — это временной период между днями t2 = (t1 + n) и (t↓2+m-1) включительно, где m — также натуральное неотрицательное число. Пусть μc(ui) — это средняя активность пользователя иi в рамках окна ухода. Будем считать пользователя ушедшим в течение окна ухода, если
где T(S) — пороговый множитель, зависящий от системы параметров S. По сути, T(S) регулирует чувствительность системы определения уходов пользователей. Предполагается, что cистема параметров S определяется, исходя из особенностей поведения пользователей в сети.
Проще говоря, в соответствии с вышеприведенным определением, пользователь считается ушедшим, если его средняя активность за последние m дней упала ниже, чем доля T от его средней активности за предыдущие n дней. Очевидно, что основной вопрос здесь заключается в том, как определить T(S)? Чем меньше T, тем позднее определяется потенциальный уход пользователя. В предельном случае, при T = 0, ушедшими будут считаться только те пользователи, которые вообще не были активны в течение окна ухода. Чем ближе T к единице, тем большее количество пользователей будут причислены к ушедшим. В предельном случае, при T = 1, ушедшими будут признаны все пользователи, чей уровень активности в течение окна ухода был не выше, чем в период окна предыдущей активности.
Средняя активность. Пусть a(ui, t) обозначает активность пользователя иi в день t; N – общее число наблюдений (дней); U — совокупность всех пользователей сети. Положим, что норма │U│ — это количество всех пользователей сети. Тогда средняя активность всех пользователей сети определится следующим образом:
Данное определение дает представление об общей сетевой активности пользователей в определенный период, не давая представления об индивидуальной активности конкретного пользователя.
Градиент ухода. Пользователь ui считается ушедшим в день m(t1 < m ≤ N) , если
Проще говоря, пользователь считается покинувшим сеть, если абсолютный наклон его убывающей активности в окне из m дней выше порогового значения T(S). Данный подход применяется в случаях, когда есть предположение о том, что перед уходом активность пользователя снижается постепенно.
Выбор критерия признания пользователя ушедшим зависит от особенностей социальной сети и конкретной задачи, стоящей перед исследователем. На наш взгляд, в большинстве случаев оптимальным является критерий индивидуального оттока, поскольку он является естественным и довольно простым с точки зрения интерпретации получаемых результатов.
В зарубежной литературе накоплен богатый опыт исследования оттока клиентов (пользователей) в применении к различным сферами экономики: телекоммуникациям, банковскому сектору и пр. (ср. [Awang et al., 2012; Kawale et al., 2012; Shaaban et al., 2012]).
Для моделирования оттока пользователей применяется целый ряд различных математических инструментов. Рассмотрим основные из них в контексте возможности их применения для решения поставленной нами задачи. Все рассмотренные ниже подходы предполагают наличие достаточно больших выборок данных как с точки зрения количества наблюдений, так и широты номенклатуры наблюдаемых параметров. Как правило, данное условие легко выполняется, поскольку любые информационные системы, лежащие в основе деятельности изучаемых систем, накапливают разнообразную информацию, как о своих пользователях, так и их действиях (транзакциях). Если разработать критерий признания пользователя ушедшим из системы, то легко получить еще один параметр, который выступит ключевой зависимой переменной. В зависимости от конкретной задачи его можно представить как в виде бинарной переменной, так и в виде числа, описывающего ожидаемую вероятность ухода.
1. Регрессионный анализ. Предполагает построение логистической регрессии на вероятность ухода пользователя из сети. Данный метод нашел широкое применение в силу простоты реализации и достаточно высокой точности предсказания. Применим как для статического, так и для динамического анализа. Считается, что данный метод относительно менее точен по сравнению с нижеперечисленными методами.
2. Построение деревьев решений. Методом прямого перебора находятся значения переменных, которые разбивают выборку на классы. Применим лишь для статического анализа, поскольку алгоритм построения дерева (графа) решений обладает экспоненциальной сложностью (то есть, применение для постоянного мониторинга оттока пользователей возможно, но лишь при условии привлечения больших вычислительных мощностей, что требует существенного увеличения бюджета проекта предотвращения оттока пользователей).
3. Методы, основанные на нейросетях. Эмпирически (но не теоретически) доказано, что данная методология превосходит прочие по точности предсказания. Сложнее в реализации, чем простые регрессии.
4. Эволюционные алгоритмы. Используют идею эволюции живых клеток в организме для моделирования процесса развития, мутации и гибели элементов изучаемых систем. Эффективность эволюционных алгоритмов сопоставима с эффективностью нейросетей.
Представленные подходы расположены в порядке повышения точности предсказания и возрастания стоимости реализации. Наименее точным, но наиболее простым в реализации является метод логистической регрессии, в эконометрике часто называемого логит-анализом. Распространено мнение о том, что точность применения регрессионного анализа в целях предсказания оттока пользователей из некоторой системы достаточно высока и достигает 75–80% [Awang et al., 2012]. Судя по всему, данный результат является приемлемым для большинства ситуаций, тем не менее, данный метод применяется в качестве базового, а его точность принимается эталонной для сравнения с другими методами. Построение деревьев решений, нейросетевые и эволюционные алгоритмы, как правило, дают увеличение точности прогноза до 85—90%, однако требуют гораздо больших ресурсов для реализации.
Известны две специализированные разработки, предназначенные для решения исключительно поставленной нами задачи: Data Mining by Evolutionary Learning (DMEL) [Wai-Ho et al., 2003] и CHAMP (CHurn Analysis, Modeling and Prediction) [Datta et al., 2000; Masand et al., 1999].
Методика DMEL использует в своей основе эволюционные алгоритмы, имеет высокую точность предсказания. Разумеется, вычислительная сложность ее процедур значительно выше, чем у регрессионных моделей, но примерно в два раза ниже стандартных нейросетевых алгоритмов. Алгоритм DMEL исчерпывающе описан в работе [Wai-Ho et al., 2003]. В результате анализа DMEL генерирует системы правил, по которым можно идентифициировать группы пользователей с наибольшим риском возможности скорого покидания сети. Результаты применения DMEL показывают, что его эффективность превышает эффективность нейросетевых алгоритмов только на маленьких обучающих выборках (<10% от общей совокупности). Если же для обучения доступны большие объемы наблюдений, то процедура DMEL теряет свои преимущества перед более простыми разработками, оставаясь при этом более дорогой с точки зрения реализации.
Алгоритм CHAMP также позволяет выделить группы пользователей, находящихся в группе риска. Данный подход основан на комбинированном применении нескольких методов предсказания «текучести» пользователей: дерево решений, нейросети и др. К сожалению, подробное описание рабочего алгоритма CHAMP недоступно, поэтому практическая реализация данной процедуры невозможна.
Вышесказанное свидетельствует о том, что специализированные процедуры выявления оттока пользователей из социальных сетей обладают сравнительно небольшими преимуществами в точности по сравнению с базовыми статистическими инструментами, которые не всегда способны окупить большие затраты на их практическую реализацию, связанные как с более высокой стоимостью разработки, так и более широкими потребностями в вычислительной мощности и объеме накопительных систем. Таким образом, для практической реализации систем, анализирующих параметры оттока пользователей в социальных сетях следует применять некоторые комбинации следующих инструментов: методы регрессионного анализа, анализа деревьев решений, а также нейросетевые алгоритмы. Комбинация методов зависит от масштаба социальной сети и, разумеется, объема бюджета, который компания готова выделить на реализацию данного проекта. |
| |
|
|