УДК 004.8
ЭКСПЕРТНАЯ СИСТЕМА
ДЛЯ АВТОМАТИЧЕСКОГО ВЫЯВЛЕНИЯ РОЛЕЙ
ПОЛЬЗОВАТЕЛЕЙ В СОЦИАЛЬНЫХ СЕТЯХ
НА ОСНОВЕ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ
15Рабчевский Андрей Николаевич, Рабчевский Евгений Андреевич,
Заякин Виктор Сергеевич
ООО «СЕУСЛАБ» 614066, Россия, г. Пермь, Шоссе Космонавтов 111 корп.3,
e.rabchevskiy@seuslab.ru
Ясницкий Леонид Нахимович
Пермский государственный национальный исследовательский университет,
614990, Россия, г. Пермь, ул. Букирева, 15, yasn@psu.ru
В статье представлено описание разработки экспертной системы для автоматического выявления ролей пользователей в социальных сетях на базе нейронной сети. Нейронная сеть обучена на основе синтезированных множеств, содержащих ключевые характеристики ролей пользователей. Описан метод подготовки обучающих и тестовых множеств. Представлены результаты проектирования и обучения нейронной сети, проверки на адекватность и исследования предметной области.
Ключевые слова: искусственный интеллект, роль пользователя, социальная сеть, нейросеть, социально опасные явления и процессы.
Введение. Проблема определения ролей пользователей в социальных сетях имеет важное значение для целей предотвращения распространения в социальных сетях деструктивной информации и вовлечения пользователей социальных сетей в социально опасные явления и процессы.
Для определения уровня вовлеченности пользователей социальных сетей в социально опасные явления и процессы учитываются некоторые целевые индикаторы: количество постов, количество репостов, количество комментариев, количество лайков, участие в деструктивных группах и т.д.
Помимо указанных выше целевых индикаторов, необходимо также учитывать и социальную роль, которую играет каждый пользователь в том или ином социально опасном явлении или процессе.
Задача состоит в том, чтобы с помощью нейронной сети автоматически определять роль пользователя социальной сети в исследуемом социально опасном явлении или процессе на основе данных о пользователе, его социальных связях и паттернах активности.
Решение проблемы, как правило, имеет два аспекта: определение параметров классификации пользователей и выбор метода классификации пользователей социальных сетей. Большинство таких методов так или иначе используют технологию искусственного интеллекта.
В одной из иностранных работ в качестве значимого параметра для определения потенциально эффективных распространителей информации в социальных сетях используется частота постов в социальной сети [1]. Другие исследователи используют K-means кластеризацию, основанную на рассмотрении похожих троек пользователей по их взаимодействию [2]. Встречаются также смешанные подходы, включающие кластеризацию с помощью трех алгоритмов (k-means, нейронная сеть SOM, DBSCAN) [3].
Все эти методы рассчитаны на глубокий анализ данных о пользователе, его окружении и паттернах его поведения, но требуют высоких затрат машинного времени и рассчитаны на обработку ограниченных объемов классифицируемых пользователей.
В то же время, в других предметных областях встречаются исследования возможности обучения нейронной сети с помощью данных, полученных в результате имитационного моделирования информационной системы [6].
В данном исследовании предлагается использование нейросетевой экспертной системы в качестве метода классификации пользователей социальных сетей и определения их социальных ролей.
В случае построения экспертной системы на базе нейронной сети необходимы обучающие и тестовые множества, полученные из предметной области. Разметка множеств выполняется экспертами на основе собственных знаний в данной предметной области. Часто получение таких множеств затруднено или связано с очень высокими затратами. В этом случае эксперты могли бы описать свои знания в виде совокупности параметров, описывающих объекты предметной области, и на основе этих параметров синтезировать множества для обучения и тестирования нейронной сети.
Именно такой подход предлагается использовать для классификации ролей пользователей социальных сетей.
В качестве входных данных используются сведения о пользователях, доступные в социальных сетях, которые могут существенно влиять на различие ролей пользователей. Перечень входных данных представлен в таблице 1.
Таблица 1 – Перечень входных данных
№ |
Показатель |
Тип |
Кодировка |
Как влияет на результат |
Метод получения |
1 |
Возраст аккаунта |
Непрерывный |
Число |
Чем старше аккаунт, тем может быть больше его влияние на других участников СС. |
Вычисляется, как разница между текущей датой и датой регистрации аккаунта. Дата регистрации |
№ |
Показатель |
Тип |
Кодировка |
Как влияет на результат |
Метод получения |
|
|
|
|
|
указана в персональных данных пользователя. |
2 |
Возраст пользователя |
Непрерывный |
Число |
Чем старше пользователь, тем более авторитетным может быть его мнение, и наоборот. |
В персональных данных пользователя. |
3 |
Кол-во друзей |
Непрерывный |
Число |
Чем больше друзей, тем больше связей в СС. |
В персональных данных пользователя. |
4 |
Кол-во подписчиков |
Непрерывный |
Число |
Чем больше подписчиков, тем большее влияние имеет на пользователей СС. |
Вычисляется из списка подписчиков в персональных данных пользователя. |
5 |
Кол-во подписок |
Непрерывный |
Число |
Соотношение подписок и подписчиков может определять социальную роль пользователя. |
Вычисляется из списка подписчиков в персональных данных пользователя. |
6 |
Кол-во постов в месяц
|
Непрерывный |
Число |
Большое кол-во постов может свидетельствовать о том, что пользователь является источником идей или мнений. |
Выборка в базе принадлеж. пользователю постов в регионе за месяц. |
7 |
Кол-во репостов в месяц
|
Непрерывный |
Число |
Большое кол-во репостов говорит о том, что пользователь предпочитает транслировать и распространять чужое мнение. Соотношение постов и репостов показывает его социальную роль. |
Выборка в базе принадлежащих пользователю репостов в регионе за месяц.
|
8 |
Кол-во комментариев в месяц |
Непрерывный |
Число |
Показывает активность пользователя и |
Выборка в базе принадлежащих пользователю |
№ |
Показатель |
Тип |
Кодировка |
Как влияет на результат |
Метод получения |
|
|
|
|
характер его деятельности. |
комментариев в регионе за месяц. |
9 |
Кол-во лайков в месяц |
Непрерывный |
Число |
Показывает активность пользователя и характер его деятельности. |
Выборка в базе оставленных пользователем лайков в регионе за месяц. |
10 |
Пол |
Непрерывный |
1=М, 2=Ж |
Может иметь значение. |
В персональных данных пользователя. |
11 |
Время последнего нахождения в сети |
Непрерывный |
Число |
Показывает актуальность пользователя. |
В персональных данных пользователя. |
Таким образом мы получаем 11 входных нейронов.
В качестве выходных нейронов используем социальные роли, указанные в таблице2.
Таблица 2 – Социальные роли
№ |
Социальная роль |
1 |
Лидер, генератор контента |
2 |
Апостол, репостер, распространитель идей |
3 |
Связной |
4 |
Комментатор, тролль |
5 |
Жертва |
6 |
Бот |
В результате получаем структуру персептрона, у которого 11 входных нейронов (X1–X11) и 6 выходных нейронов (Y1–Y6).
Структура векторов персептрона представлена ниже
Таблица 3. – Структура векторов персепрона
X1 |
Возраст аккаунта |
X10 |
Пол |
X2 |
Возраст пользователя |
X11 |
Время последнего нахождения в сети |
X3 |
Количество друзей |
D1 |
Лидер |
X4 |
Количество подписчиков |
D2 |
Репостер |
X5 |
Количество подписок |
D3 |
Связной |
X6 |
Количество постов в месяц |
D4 |
Тролль |
X7 |
Количество репостов в месяц |
D5 |
Жертва |
X8 |
Количество комментариев в месяц |
D6 |
Бот |
X9 |
Количество лайков в месяц |
|
|
Параметры классификации, которые могли бы быть использованы экспертами при разметке множеств данных о реальных пользователях, представлены ниже (Таблица 3).
Таблица 3 – Возможные параметры классификации
№ Вх. |
Наименован ие параметра |
Лидер |
Репостер |
Связной |
Тролль |
Жертва |
Бот |
X1 |
Возраст аккаунта, дней |
300–3650 |
200–3650 |
200–3650 |
100–3650 |
1–350 |
1– 100 |
X2 |
Возраст пользователя, лет |
17–60 |
17–60 |
15–60 |
15–60 |
15–60 |
16– 60 |
X3 |
Количество друзей |
500– 10000 |
150–10000 |
500–10000 |
100–10000 |
10–300 |
10– 150 |
X4 |
Количество подписчиков |
не менее 70 % от количеств а друзей |
X3–X5 |
X3–X5 |
X3–X5 |
X3–X5 |
0– 10 |
X5 |
Количество подписок |
X3–X4 |
50–95 % от количеств а друзей |
40–60 % для максимальн ого кол-ва |
6–100 % от количества друзей |
40–95 % от количес тва друзей |
10– 100 |
X6 |
Количество постов |
30–500 |
0–30 |
0–5 |
0–5 |
0–50 |
50– 100 |
X7 |
Количество репостов |
0–40 % от количеств а постов |
150–600 |
30–150 |
30–100 |
0–50 |
50– 300 |
X8 |
Количество комментариев |
Не более 30 % от количеств а постов |
0–30 |
0–15 |
100–1200 |
0–50 |
50– 300 |
X9 |
Количество лайков |
Не более 20 % от количеств а постов |
0–30 |
0–15 |
0–15 |
0–50 |
100 – 100 0 |
X10 |
Пол |
случайно |
случайно |
случайно |
случайно |
случайн о |
слу чай но |
X11 |
Время нахождения в сети, час |
1–6 |
1–4 |
1–4 |
1–4 |
1–4 |
3– 12 |
Проектирование нейронной сети выполнялось на основе устоявшейся методики [4]. Результат проектирования, обучения и оптимизации сети представлен на рис. 2.
Рисунок. 2. Структура нейросети.
1.Из представленной схемы видим, что достаточно одного промежуточного слоя. При этом, активационная функция на входном и промежуточном слое –тангенс гиперболический, а на выходном слое – линейная. Результаты обучения нейронной сети представлены на рисунке 3.
Рисунок. 3. График обучения нейросети.
Как видно из графика, нейронная сеть довольно хорошо обучилась. При этом, чем больше эпох обучения, тем меньше уровень погрешности обучения.
2.Сравнение ожидаемых показателей и результатов прогнозирования нейросети для роли «Лидер» (Y1), «Репостер» (Y2) и «Тролль» (Y4) представлено на рис. 4, 5 и 6.
График значимости параметров представлен на рис.7, из которого видно, что наиболее значимыми параметрами являются: количество комментариев, постов, репостов и количество друзей. Именно такие закономерности и были заложены в обучающее множество.
Рис. 7. График значимости параметров.
Для практического применения данного классификатора необходимо ввести данные реальных пользователей и сравнить результаты его работы с результатами экспертной оценки и результатов графового анализа, после чего скорректировать комбинации параметров в обучающих множествах на основании результатов такого сравнения.
Заключение. На основе анализа результатов проектирования и обучения нейронной сети можно сделать вывод, что нам удалось построить нейронную сеть, в которую заложены знания в виде обучающих множеств.
Фактически это экспертная система, в которую заложены знания эксперта о данной конкретной предметной области.
Изменяя параметры синтезированного обучающего множества, можно вносить в нейронную сеть знания о том, по каким признакам выявлять те или иные признаки пользователей социальной сети. Применение подобного метода не ограничивается только социальными сетями, это универсальный метод.
Предложенный метод классификации социальных ролей пользователей социальных сетей имеет важное практическое применение для решения задач общественной безопасности:
- Автоматическое выявление лидеров мнений и генераторов контента. Такие пользователи могут быть особенно интересны при анализе информационных атак или для влияния на аудиторию социальной сети.
- Автоматическое выявление распространителей информации в социальных сетях. Такие пользователи могут использоваться в качестве каналов информационного воздействия на социальные явления или противодействия информационным атакам.
- Автоматическое выявление ботов в сети. Это важно для выявления источника распространения «фейков», инструментов организованных воздействий на сеть, точек противодействия в сети и т.д.
- Автоматическое выявление структуры социальных сообществ с раскладкой по ролям в сообществе.
- Совместное использование предложенного классификатора и графового анализа дает новые возможности для быстрого поиска пользователей, относящихся к определенной социальной роли, анализа их социального окружения, выявления их социальных связей, установки их личностей для целей предотвращения противоправных действий, воздействия на социальную сеть или конкретное сообщество в сети.
Библиографический список
1.A. N. Arularasan, A. Suresh, K. Seerangan. IDENTIFICATION AND CLASSIFICATION OF BEST SPREADER IN THE DOMAIN OF INTEREST OVER THE SOCIAL NETWORK. (2018)
2.D. Doran. ON THE DISCOVERY OF SOCIAL ROLES IN LARGE SCALE SOCIAL SYSTEMS. (2015)
3.P. H. B. Ruas, A. D. Machado, M. C. Silva, M. R. G. Meireles, A. M. P.
4. Cardoso, L. E. Zárate, C. N. Nobre. IDENTIFICATION AND CHARACTERIZATION OF FACEBOOK USER PROFILES
5.CONSIDERING INTERACTION ASPECT. (2019)
6.Интеллектуальные системы [Электронный ресурс]: учебник / Л.Н. Ясницкий. – Эл. изд. – Электрон. текстовые дан. (1 файл PDF: 224 с.) – М.: Лаборатория знаний, 2016.
7.Сайт компании ООО «СЕУСЛАБ» [Электронный ресурс]. URL: https://seuslab.ru/ (дата обращения: 29.10.2019)
8.Пятакович В. А., Василенко А. М., Мироненко М. В. Обучение нейронной сети как этап разработки экспертной системы для классификации источников физических полей при мониторинге акваторий // Вестник Инженерной школы Дальневосточного федерального университета. – 2017. – №. 3 (32). – С. 138-149.
ROLE IN SOCIAL NETWORKS ON THE BASIS OF NEURAL NETWORK TECHNOLOGIES
Rabchevskiy Andey N., Rabchevskiy Euvgen A., Zayakin V.
SEUSLAB Ltd., Cosmonaut Highway 111, b.3, Perm, Russia, 614066,
e.rabchevskiy@seuslab.ru
Yasnitsky Leonid N.
Perm state University, 15, Bukireva str., Perm, Russia, 614990, yasn@psu.ru
The article describes the development of an expert system for automatic identification of user roles in social networks based on a neural network. The neural network is trained on the basis of synthesized sets containing key characteristics of user roles. A method for preparing training and test sets is described. The results of neural network design and training, adequacy testing, and domain research are presented.
Key words: artificial intelligence, user role, social network, neural network, socially dangerous phenomena and processes.
UDC 004.89