|
| | | | Проблемы современной экономики, N 1 (97), 2026 | | | | ЭКОНОМИЧЕСКИЕ ПРОБЛЕМЫ РЕГИОНОВ И ОТРАСЛЕВЫХ КОМПЛЕКСОВ | | | |
| | Воронова А. Г. доцент кафедры экономической кибернетики и прикладной статистики
Луганского государственного университета имени Владимира Даля,
кандидат экономических наук Шведова У. В. магистр кафедры экономической кибернетики и прикладной статистики
Луганского государственного университета имени Владимира Даля
| | | | В статье реализована задача классификации регионов страны по уровням инновационного развития на основе методов машинного обучения. В качестве исходных данных взяты индексные показатели инновационного развития субъектов РФ, целевую переменную формирует уровень развития региона из заданной градации уровней. Данные исследования могут быть использованы в процессе систематического мониторинга уровня инновационной зрелости субъектов Российской Федерации для принятия управленческих решений государственного и регионального уровней в условиях стремительной цифровой трансформации экономики. | | Ключевые слова: инновационное развитие, цифровизация, региональное развитие, классификация регионов, машинное обучение, уровень развития, принятие решений | | УДК 004.8 : 332.14; ББК 65.05 Стр: 99 - 102 | Введение. Инновационное развитие неразрывно связано с процессами цифровизации и информатизации страны и ее регионов. Именно применение информационно-коммуникационных технологий позволяет повысить эффективность управления, модернизировать инфраструктуру, оптимизировать производственные процессы и создать условия для развития предпринимательства и инвестиций, способствуют научно-технологическим достижениям.
Национальные Стратегии в области инновационного развития Российской Федерации [1][2][3][4] содержат положения о применении передовых информационно-коммуникационных технологий, в том числе технологий больших данных, искусственного интеллекта. В работе А.В. Велигуры [5], приведен анализ цифровых и информационных технологий, создающих новые продукты и услуги, изменяющих бизнес-процессы, показана эффективность их применения во многих секторах экономики и государственном управлении. В работе Н.А. Рязанцевой, А.А. Лофиченко [6] подчеркивается необходимость пересмотра организационной структуры госуправления на фоне цифровой трансформации страны.
Для регулярного отслеживания и оценки текущего состояния и перспектив дальнейшей реализации Стратегий разрабатываются методы и средства мониторинга, которые, в том числе, способствуют градации регионов по уровню инновационной активности, цифровизации и информатизации. Полученная информация используется для разработки и корректировки долгосрочных стратегий регионального развития, включая целевые программы поддержки инноваций и цифровых инициатив. Обзор существующих методик оценки цифрового и инновационного развития регионов представлен в работах [7] [8]. Однако, представленные авторские и официально применяемые в деятельности правительственных органов методики предполагают выполнение классического рангового статистического анализа и не используют технологии машинного обучения и искусственного интеллекта. В российских исследованиях и публикациях имеется опыт применения методов машинного обучения для задач классификации и кластеризации регионов по уровню цифрового [9], инвестиционного развития [10].
Несмотря на значительное внимание, уделяемое вопросам цифровизации и инновационного развития регионов России, остаются нерешенными вопросы, касающиеся унификации методов мониторинга уровня развития регионов.
Таким образом, основной целью исследования является разработка классификационной модели на основе методов машинного обучения, способной прогнозировать уровень инновационного развития регионов, что позволит внедрить интеллектуальные инструменты для управления и классификации регионов для повышения эффективности управления региональным развитием в контексте экономических проблем регионов.
Исследование указанной проблематики приобретает особую актуальность в условиях ускорения темпов цифровизации, при этом критически важно проводить систематический мониторинг инновационной зрелости субъектов Российской Федерации, применяя интеллектуальные инструменты.
Методология настоящего исследования базируется на синтезе методики рейтинговых оценок инновационного развития субъектов Российской Федерации [11] и методов классификации на основе машинного обучения. В исследовании, в качестве исходных данных и системы показателей, взяты результаты исследования, опубликованные Институтом статистических исследований и экономики знаний Национального исследовательского университета «Высшая школа экономики» в 2025 году [11]. Целью является разработка классификационной модели, способной отнести регион к одному из определенных уровней инновационного развития (например, низкому уровню инновационного развития, среднему, выше среднего, высокому) на основании установленных признаков.
В данном исследовании признаки — это интегральные индексы направлений оценки инновационного уровня развития страны по [11]. Все значения признаков уже приведены к единому масштабу через min-max нормализацию и представляют пять следующих обобщённых групп [11, c.6].
1. Социально-экономические условия инновационной деятельности (Socio-economic_conditions_of_innovation_activity)
1.1. Основные макроэкономические показатели
1.2. Образовательный потенциал населения
1.3. Потенциал цифровизации
2. Научно-технический потенциал (Scientifi_ and_technical_potential)
2.1. Финансирование научных исследований и разработок
2.2. Кадры науки
2.3. Материально-техническая база науки
2.4. Результативность научных исследований и разработок
3. Инновационная деятельность (Innovation_activities)
3.1. Активность в сфере технологических и нетехнологических инноваций
3.2. Затраты на инновации
3.3. Результативность инновационной деятельности
4. Экспортная активность (Export_activity)
4.1. Экспорт товаров и услуг
4.2. Экспорт знаний
5. Качество инновационной политики (Quality_of_ innovation_policy)
5.1. Нормативная правовая база научно-технической и инновационной политики
5.2. Организационное обеспечение научно-технической и инновационной политики
5.3. Участие в федеральной научно‐технической и инновационной политике
Также, в качестве одного из признаков, отдельно в виде дополнительной колонки, хранится временная метка (год), чтобы сохранять и отследить временную структуру данных.
Алгоритмы классификации и кластеризации могут анализировать индексные показатели и сегментировать объекты (регионы, компании, периоды времени и т.д.) на основе агрегированных индексов.
Модели машинного обучения позволяют эффективно обрабатывать высокоразмерные данные, выявлять скрытые закономерности, поэтому при наличии данных можно использовать не укрупнённые агрегированные индексы, а систему из исходных предложенных показателей.
При работе с методами машинного обучения необходимо уделять внимание качественной подготовке данных и их предобработке: обработка пропущенных значений, если такие имеются; преобразование категориальных признаков в числовые; анализ распределения признаков; анализ корреляционных связей признаков с выходной переменной.
Выборка охватывает 85 субъектов РФ. Для каждого субъекта РФ по вектору признаков собраны статистические данные. Собранные данные не имеют пропущенных значений. После сбора данных и их предварительного анализа следуют этапы:
– разделение выборки на тестовую и обучающую;
– обучение классификационной модели. Используются следующие алгоритмы: случайный лес (Random Forest) и многоклассовая логистическая регрессия (Logistic Regression);
– оценка качества модели. Эффективность классификаторов измеряется с помощью: доля правильных ответов алгоритма (Accuracy), точности (Precision), полнота (Recall), F1-меры (взвешенной).
Результаты исследования. В данной работе предложено использовать методы машинного обучения для автоматической классификации регионов по уровню инновационного развития.
Задача классификации называется несбалансированной, когда для одного класса в выборке существенно меньше примеров (в 5 раз и более), чем для другого. Все регионы разделены на 4 класса по уровню инновационного развития: 1 соответствует низкому уровню инновационного развития, 2 — среднему, 3 — выше среднего, 4 — высокому. Строится распределение регионов по заданным уровням инновационного развития (рис. 1). В данном случае разрыв между самой большой многочисленной группой и наименьшей составляет 6,16 раза, т.е. выборка несбалансированная. | | |  | | Рис. 1. Распределение данных по принадлежности к группам уровня инновационного развития региона | Такая ситуация затруднит обучение модели, так как она склонна отдавать предпочтение большему классу, игнорируя меньшие классы. Задача балансировки класса решается увеличением минорного класса, уменьшением доминирующего класса, комбинированием данных подходов, а иногда возможно оставить данные, как есть. В данном случае данных не так много и уменьшение доминирующего класса приведет к потере части информации. Первоначально было осуществлено обучение моделей на имеющихся данных без их балансировки.
Проводится также анализ корреляционных связей выбранных признаков с целевой переменной. Результаты анализа приведены ниже:
Корреляции с целевой переменной (Group):
Socio-economic_conditions_of_innovation_activity -0.728886
Scientifi_and_technical_potential -0.735745
Innovation_activities -0.789577
Export_activity -0.765489
Quality_of_innovation_policy -0.796953
Year NaN
Очевидно наличие связи всех выбранных признаков на целевую переменную. Никакой признак не исключается из исследования.
Далее произведено случайное разделение данных на тестовую и обучающую выборки. Тестовая выборка составит 20% от общей массы данных. Для поставленной задачи классификации регионов по уровню инновационного развития предложено использовать следующие алгоритмы: случайный лес (Random Forest) и многоклассовая логистическая регрессия (Logistic Regression). Данные алгоритмы машинного обучения являются базовыми для решения задач классификации для случаев, когда целевая переменная имеет более двух категорий, и хорошо себя проявляет на большинстве практических задач [12],[13],[14]. В рамках машинного обучения задача классификации представляет собой присвоение объекту одного из заранее определённых классов на основании его признаков. Для работы выбранных алгоритмов классификации был выставлен режим «предсказание метки класса (predict)», когда модель возвращает наиболее вероятную категорию объекта.
Осуществлено обучение моделей на тестовой выборке.
Рассмотрим метрики оценки качества моделей Random Forest и многоклассовая Logistic Regression на несбалансированных данных.
Модель Random Forest правильно предсказывает 82% объектов. Средние значения F1-меры (взвешенной) по всем классам 0,80 — это хороший показатель, так как он выше 0,5, но есть пространство для улучшения. Модель показала хорошие результаты по большинству классов, но классу 1 необходим особый подход, так как полнота крайне низка — 0,33, т.е. много ложноотрицательных ответов. Рекомендуется проанализировать ошибки и поработать над улучшением классификации именно этого класса.
Модель многоклассовая Logistic Regression также правильно предсказывает 82% объектов, но значение F1-меры (взвешенной) по всем классам ниже и составляет 0,75. По отчету модель показывает низкую производительность по некоторым классам, что негативно сказывается на общей эффективности классификации. Полностью провалились попытки классификации 1 класса. Скорее всего, данных недостаточно или модель неспособна уловить характерные черты этого класса. Необходимо обратить особое внимание на малочисленные классы, провести дополнительную диагностику и улучшение модели.
Для оценки возможности применения модели для прогнозирования, наиболее важной является метрика F1-score (мера), т.к. классы несбалансированы. В первой модели F1-score равна 0,80, во-второй — 0,75. Такие значения метрики качества модели указывают на то, что модель имеет сбалансированную точность и полноту и, в целом, справляется с задачей классификации на уровне выше среднего, но всегда есть возможность улучшить модель. Это: балансировка классов, подбор гиперпараметров модели, использование более сложных архитектур, тем более, что в обоих случаях есть проблема классификации объектов первого класса.
Таким образом, рекомендуется все же работать не с исходными данными, а провести балансировку данных и посмотреть на новое качество моделей.
Большинство алгоритмов машинного обучения поддерживают настройку весов классов. Присваивается больший вес миноритарному классу пропорционально доле в данных в библиотеке scikit-learn параметром class_weight=’balanced’, чтобы компенсировать его недостаток в данных.
После балансировки модель Random Forest правильно предсказывает 88% объектов, F1-score равен 0,88, показывает хорошие результаты по большинству классов, особенно по классам 2 и 3. Для классов 1 и 4 полнота равна 0,67, что означает, что модель все-таки еще пропускает некоторые объекты этих классов.
После балансировки модель Logistic Regression показывает идеальные результаты по всем классам. Точность, полнота и F1-score равны 1,00 для каждого класса, что указывает на отсутствие ошибок в предсказаниях. Это означает, что модель идеально справляется с задачей классификации или может указывать на переобучение.
В качестве рабочей — из двух моделей для классификации регионов рекомендуется все же модель Random Forest на сбалансированных данных.
Такая методология позволяет построить воспроизводимую, масштабируемую и обоснованную систему классификации регионов, интегрируемую в процесс цифрового мониторинга уровня инновационного развития субъектов РФ.
Запуск модели машинного обучения в государственных структурах зависит от множества факторов. Однако можно выделить несколько ключевых компонентов.
1. Серверная инфраструктура и хранилища данных. Аренда облачных сервисов или покупка собственных серверов.
2. Программное обеспечение: операционные системы (например, Linux) и инструменты (например, Python, PyTorch).
3. Сбор и подготовка данных. Если данные уже доступны, это может снизить затраты. В противном случае может потребоваться их сбор и подготовка.
4. Специалисты для работы с моделями машинного обучения, такие как аналитики данных, инженеры данных и специалисты по машинному обучению.
5. Обучение сотрудников работе с моделями машинного обучения.
6. Соблюдение нормативных требований и стандартов безопасности.
Несмотря на наличие методики расчёта интегрального индекса инновационного развития субъектов РФ, использование моделей машинного обучения в задачах классификации регионов по уровням инновационной зрелости остаётся актуальным направлением исследования. Применение машинного обучения позволяет учитывать нелинейные зависимости и сложные взаимодействия между показателями, которые не всегда могут быть выявлены традиционными средствами. Такие модели легко адаптируются к изменению данных — переобучение на обновлённых выборках обеспечивает актуальность классификации, потенциально повышая точность результатов.
Данный инструмент мониторинга может использоваться органами власти для оценки эффективности реализуемых мер и выработки рекомендаций по совершенствованию подходов к управлению региональным развитием.
Однако, как и в существующих индексных и ранговых методиках оценки регионов остается необходимость уточнения и расширения системы показателей для полноты и точности классифицирующей модели.
Заключение. Научная новизна работы заключается в адаптации современных методов машинного обучения к задаче категоризации регионов в рамках методологии рейтинговой оценки инновационного развития субъектов РФ, а также в проведении эмпирической валидации полученной модели на реальных данных. Полученные результаты могут использоваться для выработки управленческих решений в области региональной цифровой и инновационной политики регионов страны. Руководителям достаточно знать в какой интервал развития попадает регион, а абсолютная ранговая позиция не всегда необходима для формирования стратегических решений и раскрытия перспектив региона.
Применение машинного обучения сопряжено с рядом ограничений. Использование алгоритмов машинного обучения может снижать прозрачность решений, а сама модель требует наблюдения в продакшене, обновления и сопровождения. Предложенные в работе модели — деревья решений и логистическая регрессия позволяют легче проследить цепочки рассуждений и обладают наибольшей интерпретируемостью.
Частный сектор охотнее идет на риск внедрения новых технологий, например, опыт Сбер [15]. В правительстве также идет активная практика перехода на методы искусственного интеллекта, в частности Министерство финансов РФ внедрило ИИ-агента на базе GigaChat для автоматизации процесса классификации бюджетных расходов [16].
Полученные результаты позволяют рекомендовать использование машинного обучения при градации регионов по уровню инновационного развития. Внедрение таких решений целесообразно рассматривать как дополнение к существующим методикам мониторинга, встраиваемое в систему стратегического управления цифровым и инновационным развитием страны. |
| |
|
|
|