111Equation Chapter 1 Section 0УДК 32.019.51

 

А.Н. РАБЧЕВСКИЙ, Е.А. РАБЧЕВСКИЙ

 

ОЦЕНКА ПОТЕНЦИАЛЬНОГО УРОВНЯ ИНФОРМАЦИОННОГО ВЛИЯНИЯ ПОЛЬЗОВАТЕЛЕЙ В СОЦИАЛЬНЫХ СЕТЯХ

 

 

Задача выявления наиболее влиятельных пользователей социальных сетей очень важна для предотвращения распространения вирусного контента, фейков и другой деструктивной информации. В статье рассмотрены существующие методы выявления наиболее влиятельных пользователей, основанные на акциональном и теоретико-графовом подходах. Показана целесообразность использования комплексного подхода, учитывающего как уровень активности пользователей, так и параметры графов их социальных связей. Предложен метод выявления наиболее влиятельных пользователей социальных сетей на основе расчета потенциального уровня влияния пользователей. Приведены результаты применения метода для исследования пользователей, вовлеченных в протестные акции во время выборов президента республики Беларусь в 2020 году и информационного вброса о «дворце Путина». Сделан вывод о простоте и практической значимости предложенного метода. Намечены пути дальнейших исследований

 

Ключевые слова: социальные сети; информационное влияние; наиболее влиятельные пользователи; потенциальный уровень влияния; публикационная активность; граф социальных связей.

ВВЕДЕНИЕ

Современный уровень развития цифровых технологий привел к тому, что социальные сети прочно вошли в повседневную жизнь и стали оказывать влияние на поведение людей. Множество молодых людей под воздействием социальных сетей вовлекаются в преступную среду, известны многочисленные случаи суицида в результате вовлечения подростков в различные суицидальные сообщества, распространены сообщества, вовлекающие молодежь в экстремистские и террористические движения. Все это наносит ущерб как самим гражданам, так и обществу. Разрушительное воздействие осуществляется различными протестными движениями, направленными на расшатывание устоев общества и прямое свержение действующей власти. Самыми яркими примерами такого влияния в последнее время являются политические события в период выборов Президента Республики Беларусь в 2020 году и информационного вброса о «дворце Путина» в 2021 году.

Воздействия на социальную сеть могут восприниматься как информационные волны, вызванные различными информационными поводами. В качестве информационных поводов могут быть реальные события в общественной жизни или информационные события внутри социальной сети. Они могут носить характер эха реальных событий или создавать информационную основу для реализации информационных событий в реальной жизни. Очевидно, что в целях обеспечения безопасности общества в современном мире необходимо противостоять информационным волнам, уметь создавать их и управлять ими. Результатом такого управления может быть снижение или увеличение общественной значимости самого информационного повода или изменение общественного мнения о нем. Не важно откуда взялся информационный повод, реальное это событие или фейк, созданный для достижения определенных целей, информация о нем должна быть вброшена в социальную сеть, распространена среди максимального количества пользователей в сети, усилена многочисленными обсуждениями и поддержана одобрением большого количества пользователей. Все эти действия выполняют конкретные пользователи в сети, а эффективность воздействия на сеть определяется уровнем их информационного влияния. Чем выше уровень их влияния, тем большее количество пользователей получит целевой контент и тем большая реакция может быть получена в социальной сети и в реальной жизни.

Таким образом, актуальной задачей в контексте противодействия целенаправленным информационно-психологическим воздействиям на социальные сети является разработка методов оценки уровня информационного влияния пользователей на социальную сеть, а также разработка программного обеспечения для их автоматизации. Настоящая статья посвящена исследованию методов выявлению наиболее влиятельных пользователей.

СУЩЕСТВУЮЩИЕ МЕТОДЫ

ВЫЯВЛЕНИЯ НАИБОЛЕЕ ВЛИЯТЕЛЬНЫХ ПОЛЬЗОВАТЕЛЕЙ

Решению задачи выявления наиболее влиятельных пользователей в социальных сетях посвящено множество работ, среди которых наиболее ярко представлены теоретико-графовый и акциональный подходы.

В теоретико-графовом подходе предполагается, что социальная сеть подобна графу, где пользователи соответствуют вершинам графа, а их связи с другими пользователями сети соответствуют ребрам графа. Для определения наиболее влиятельных узлов используются методы графового анализа и различные метрики центральности. Большое количество авторов ссылается на L.C.Freeman [1], который предложил семейство метрик центральности, основанных на трех разных концепциях:

 

 

Эти метрики легли в основу современных методов определения выявления наиболее влиятельных узлов и, поскольку центральность по промежуточности и центральность по близости требуют заранее знать всю информацию о топологии сети и не могут применяться к крупномасштабным сетям, они стали предметом дальнейших многочисленных исследований. В развитие метрик центральности по близости и промежуточности, в работе [2] предлагается учитывать сумму информации, которая содержится во всех возможных путях между парами точек. Комбинация метрик центральности по степени и промежуточности, предложенная в [3], позволяет существенно повысить релевантность определения ключевых узлов в сети. Однако, эта мера очень трудоемкая. В работе [4] делается основной упор на топологию сети и утверждается, что возможны случаи, когда узлы с высокими метриками центральности могут находится на периферии сети и их влияние на сеть существенно ниже узлов, расположенных в ядре сети.

С бурным развитием социальных сетей возникла необходимость решать задачи определения влиятельных узлов в реальных сетях за приемлемое время, в связи с чем наряду с повышением релевантности методов возникла проблема повышения эффективности алгоритмов и снижения их вычислительной сложности. В работе [5] авторы предлагают полу-локальную меру центральности как компромисс между низко релевантной центральностью по степени и другими трудоемкими методами.  Большое количество различных вариантов выявления наиболее влиятельных пользователей на основе анализа графов описано в обзоре [6]. Для повышения скорости решения задач применяются методы случайного блуждания, которые очень легко могут выполняться параллельно несколькими компьютерами. Методы выявления влиятельных узлов на основе случайного блуждания в основном используются при сортировке веб-страниц. Типичными методами являются алгоритм Клейнберга HITS [7], алгоритм Google PageRank [8] и алгоритм LeaderRank [9].

В акциональном подходе узлы сети рассматриваются как субъекты, участвующие в распространении информации, влиятельность которых зависит от их действий, уровня их активности и реакции на их действия. В работах [10–12] предложена акциональная модель, как новый подход к конструктивному определению влиятельности пользователей онлайновых социальных сетей, в соответствии с которым влиятельность вычисляется на основе действий пользователей.

Таким образом, акциональный подход показывает уровень активности, а теоретико-графовый - коммуникативные возможности пользователей в сети. В тоже время, необходимо отметить, что высокий уровень активности данного пользователя без большого количества связей в сети не всегда приводит к высокому влиянию на других пользователей. Эффективность распространения информации таким пользователем может быть очень низкой. С другой стороны, большое количество связей при низкой активности также не приводит к высокому уровню влияния пользователя, на что указывают авторы работ [13, 14], поэтому в работе [15] предлагается использовать комплексный учет структурных характеристик и параметров активности пользователей, а авторы работы [16] представляли активность пользователей в виде направленных графов и затем рассчитывали метрики центральности для каждого пользователя, что по сути является не комплексным подходом, а только лишь использованием методов графового анализа при расчете параметров активности пользователей. То есть, количество авторов, предлагающих такой комплексный подход, крайне мало, так же, как и количество эффективных методик для реализации такого комплексного подхода.

На наш взгляд, использование комбинации акционального и теоретико-графового подходов, очевидно, является оптимальным и мы предлагаем простой и понятный метод, прямо учитывающий уровень активности и количество социальных связей пользователей в социальной сети.

 

КОМПЛЕКСНЫЙ МЕТОД ВЫЯВЛЕНИЯ НАИБОЛЕЕ ВЛИЯТЕЛЬНЫХ ПОЛЬЗОВАТЕЛЕЙ

 

На основе контент-анализа, выполненного с помощью программного обеспечения «Поисковая система «SEUS» [17], широко используемой правоохранительными органами [18], нами были собраны данные о пользователях, опубликовавших материалы в социальной сети ВКонтакте по информационным поводам «Жыве Беларусь» (выборы президента республики Беларусь в 2020 году) и «Дворец Путина» в начале 2021 года, а также данные о количестве постов, репостов и комментариев, опубликованных этими пользователями по указанной тематике. Таким образом, были выявлены пользователи, которые вовлечены в целевую тематику.

Для определения социальных связей выявленных пользователей были собраны данные об их друзьях и друзьях их друзей. Такой выбор объясняется тем, что количество связей очень сильно зависит от того, с кем именно связан пользователь. При одинаковом количестве друзей на первом колене, количество друзей на втором колене может различаться на порядки. В тоже время, дальнейшее увеличение колен в графе не целесообразно, так как приводит к нивелированию разницы в количестве связей. Необходимо также учитывать объем вычислительных ресурсов, необходимых для сбора графовой информации, построения графов и вычисления метрик центральности. С каждым новым коленом вычислительная сложность возрастает на несколько порядков, поэтому 2-х коленный граф является оптимальным с точки зрения выявления различий между пользователями и вычислительной сложностью. Статистические данные по обоим инфоповодам представлены в таблице 1.

 

Таблица 1 Общие статистические данные выборки по пользователям, вовлеченным в тематику «Жыве Беларусь» и «Дворец Путина»

Параметр

«Жыве Беларусь»

«Дворец Путина»

Количество вовлеченных пользователей

28 447

35 502

Количество опубликованных материалов

42 148

61 967

Количество друзей и друзей их друзей

18 508 073 467

4 161 468 616

 

Сопоставление данных об уровне публикационной активности и количестве социальных связей показало, что наиболее активные пользователи не всегда имеют большое количество связей, в то время как пользователи с большим количеством связей как правило имеют невысокий уровень активности, что подтверждается графиком, представленным на рисунке 1.

 

 

Рисунок 1 –  Соотношение уровня публикационной активности и количества социальных связей по инфоповоду «Дворец Путина»

 

Следует отметить, что на представленном графике показаны данные только той части рейтинга публикационной активности, где пользователи имеют достаточно высокое значение количества связей и высокий уровень активности. У остальных пользователей, при низком уровне активности, количество связей также не велико, поэтому они не представляют интереса для данного исследования. Для вычисления уровня влияния пользователей в социальной сети мы применили сочетание параметров публикационной активности и параметров центральности пользователей в графе их социальных связей. В отличие от [19], использующего сложный алгоритм учета взаимного влияния пользователей, мы вычислили произведение уровня публикационной активности пользователя на количество его связей. Таким образом, мы получили потенциальное количество актов донесения информации от каждого пользователя. Это значение можно интерпретировать как потенциальный уровень влияния (ПУВ). Пусть в сети из n узлов имеется узел Pk , тогда количество связей с другими узлами графа для этого узла можно выразить как

 
 

(1)

где

   
 

                                                                                                                                                         

 

тогда и только тогда, когда узлы pi и pk связаны между собой и 0 в противном случае. Если:

 

xk – количество постов, опубликованных пользователем k,

yk – количество репостов, опубликованных пользователем k,

zk – количество комментариев, опубликованных пользователем k,

тогда уровень публикационной активности или количество материалов m, опубликованных пользователем k будет равен

 

 

 

(2)

а потенциальный уровень влияния l пользователя k можно выразить как

 

                                                                                                                                     (3)

Очевидно, что не каждый пост, репост или комментарий дойдет до потенциального получателя, однако ПУВ это простая, но довольно информативная метрика. Чем выше у пользователя значение ПУВ, тем выше потенциальный уровень его влияния на сеть. На рисунке 2 представлен график соотношения ПУВ и количества связей, из которого следует высокая степень корреляции значения ПУВ и количества связей.

 

Рисунок 2 – Соотношение ПУВ и количества связей по инфоповоду «Дворец Путина»

 

Такая сильная зависимость объясняется разницей масштабов величин. Количество связей может исчисляться десятками миллионов (107), в то время как активность исчисляется в сотнях публикаций (102), то есть разница может составить 5 порядков. Очевидно, что какова бы ни была активность пользователя, количество связей перевешивает эту активность. Для того чтобы устранить этот перекос масштабов мы выполнили нормализацию количество связей и количество материалов по их максимальным значениям, после чего вычислили нормализованный ПУВ, который математически можно выразить как

 
 

                                                                                    

                                                                                                                                (4)

 

Таким образом, мы вычислили уровень влиятельности каждого пользователя, вовлеченного в целевую тематику.

Результат, полученный по формуле (4), можно выразить и в другой форме. Количество связей C(pk) соответствует классической центральности по степени для узла ki в сети из n узлов                                    

,                        
 

                                                                                                                                           

                                                                                                                                       

                                                                                                                                    (5)

а уровень публикационной активности, то есть количество публикаций по целевой тематике, нормализованный по максимальному значению mk/mmax, можно определить как центральность по активности AC(i). И тогда «Потенциальный Уровень Влияния» можно определить как произведение центральности по степени на центральность по активности                                                              

 

                                                                                                                                                 (6)

 

Теперь, когда у нас есть метрика определения потенциального уровня влияния каждого пользователя, необходимо выявить группу наиболее влиятельных пользователей, которые вносят самый существенный вклад в распространение информации и блокирование которых может существенно снизить активность сети. Для этого мы использовали метод половинной массы, то есть мы считали самыми влиятельными тех пользователей, чей суммарный уровень влияния равняется половине суммы уровней влияния всех пользователей. На практике это может означать, что при блокировании этих пользователей уровень влияния, а значит и объем передаваемой в сети информации, уменьшится в 2 раза. Для этого был рассчитан рейтинг потенциального уровня влияния путем ранжирования по убыванию значения ПУВ для каждого пользователя, который представлен на рисунке 2. Далее последовательно, двигаясь по рейтингу вниз, подсчитывалась сумма ПУВ для каждого пользователя, начиная с лидера рейтинга, и сравнивалась с общей суммой значений ПУВ для всех пользователей. Когда сумма ПУВ достигла значения 50% от общей суммы ПУВ, подсчет был остановлен. Математически это можно выразить так: пусть общий потенциал влияния L всех пользователей равняется

 

                                                                                                                                                 (7)

где N – общее количество пользователей. Тогда половина общего уровня влияния Lh  будет выражена как

 

 

                                                                                                                                                (8)

 

где n – номер пользователя в рейтинге ПУВ, для которого выполняется равенство (8). Таким образом, наиболее влиятельными являются пользователи рейтинга ПУВ с номерами {1,2, … n}. Результаты вычисления наиболее влиятельных пользователей по обоим информационным поводам представлены в таблице 2.

 

Таблица 2 Количество наиболее влиятельных пользователей, вовлеченных в тематику «Жыве Беларусь» и «Дворец Путина»

 

Параметр

«Жыве Беларусь»

«Дворец Путина»

Кол-во вовлеченных пользователей

28 447

35 502

Кол-во наиболее влиятельных пользователей

103

32

 

В результате применения предложенного комплексного метода из 64 тысяч пользователей нам удалось выявить всего только 135 наиболее влиятельных пользователей. Экспертный анализ профилей выявленных пользователей подтвердил релевантность предложенного метода. Кроме того, полученные результаты были подтверждены методом построения диаграммы Венна для пересечения множеств самых активных пользователей и пользователей с самым большим количеством связей.

ЗАКЛЮЧЕНИЕ

Нами был предложен метод выявления наиболее влиятельных пользователей на основе вычисления величины Потенциального Уровня Влияния (ПУВ). Метод сочетает данные об уровне публикационной активности и количестве социальных связей пользователей в социальной сети. На основании предложенного метода самыми влиятельными пользователями социальной сети считаются пользователи, имеющие максимальное количество социальных связей и одновременно наиболее высокий уровень публикационной активности или, другими словами, наибольшие значение центральности по степени и центральности по активности. Данный метод нацелен на выявление потенциально наиболее влиятельных пользователей, отличается простой и низкими затратами вычислительной мощности, а его использование в реальных аналитических исследованиях показало его практическую значимость.

Данный метод оценки уровня информационного влияния пользователей был использован в рамках аналитического исследования структур пропаганды политического протеста в России и Беларуси, проводимого аналитическим центром ООО «СЕУСЛАБ». Исследование включало оценку оперативной значимости полученных результатов, и было представлено на площадке Антитеррористического Центра СНГ и НИИ проблем безопасности СНГ в марте 2021 года. По результатам апробации научно-консультативный совет Антитеррористического Центра СНГ составил экспертное заключение о целесообразности использования данного метода в информационно-аналитических системах, используемых в оперативно-служебной деятельности МВД России.

СПИСОК ЛИТЕРАТУРЫ

 

1.  Freeman LC (1978) Centrality in social networks conceptual clarification. Social Networks 1:215–239 . https://doi.org/10.1016/0378-8733(78)90021-7

2.  Stephenson K, Zelen M (1989) Rethinking centrality: Methods and examples. Social Networks 11:1–37 . https://doi.org/10.1016/0378-8733(89)90016-6

3.  Comin CH, da Fontoura Costa L (2011) Identifying the starting point of a spreading process in complex networks. Physical Review E 84:056105-1-056105–6 . https://doi.org/10.1103/PhysRevE.84.056105

4.  Kitsak M, Gallos LK, Havlin S, Liljeros F, Muchnik L, Stanley HE, Makse HA (2010) Identification of influential spreaders in complex networks. Nature Physics 6:888–893 . https://doi.org/10.1038/nphys1746

5.  Chen D, Lü L, Shang M-S, Zhang Y-C, Zhou T (2012) Identifying influential nodes in complex networks. Physica A: Statistical Mechanics and its Applications 391:1777–1787 . https://doi.org/10.1016/j.physa.2011.09.017

6.  Lü L, Chen D, Ren X-L, Zhang Q-M, Zhang Y-C, Zhou T (2016) Vital nodes identification in complex networks. Physics Reports 650:1–63 . https://doi.org/10.1016/j.physrep.2016.06.007

7.  Kleinberg JM (1999) Authoritative sources in a hyperlinked environment. Journal of the ACM 46:604–632 . https://doi.org/10.1145/324133.324140

8.  Brin S, Page L (1998) The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Science Department, Stanford University, Stanford, CA 94305

9.  Lü L, Zhang Y-C, Yeung CH, Zhou T (2011) Leaders in Social Networks, the Delicious Case. PLoS ONE 6: . https://doi.org/10.1371/journal.pone.0021202

10.         Губанов ДА, Чхартишвили АГ (2016) Об определении влиятельности пользователей и мета-пользователей онлайновой социальной сети на основе акциональной идеи. In: XIII ВСЕРОССИЙСКАЯ ШКОЛА- КОНФЕРЕНЦИЯ МОЛОДЫХ УЧЕНЫХ «УПРАВЛЕНИЕ БОЛЬШИМИ СИСТЕМАМИ». Учреждение Российской академии наук Институт проблем управления РАН, Москва, pp 342–351

11.         Чхартишвили АГ (2014) Об измерении влиятельности в социальных сетях. In: В.Н. Бурков (ed) ТЕОРИЯ АКТИВНЫХ СИСТЕМ. Материалы международной научно-практической конференции. Институт проблем управления им. В.А. Трапезникова РАН, Москва, pp 219–220

12.         Губанов ДА, Чхартишвили АГ (2014) Акционная модель влиятельности пользователей социальной сети. Проблемы управления 4:20–25

13.  Cummings JN, Butler B, Kraut R (2002) The quality of online social relationships. Communications of the ACM 45:103–108 . https://doi.org/10.1145/514236.514242

14.  Butler BS (2001) Membership Size, Communication Activity, and Sustainability: A Resource-Based Model of Online Social Structures. Information Systems Research 12:346–362 . https://doi.org/10.1287/isre.12.4.346.9703

15.  Ganley D, Lampe C (2009) The ties that bind: Social network principles in online communities. Decision Support Systems 47:266–274 . https://doi.org/10.1016/j.dss.2009.02.013

16.  Heidemann J, Klier M, Probst F (2010) Identifying Key Users in Online Social Networks: A PageRank Based Approach. In: Proceedings of the International Conference on Information Systems, ICIS 2010, Saint Louis, Missouri, USA, December 12-15. p 79

17.  https://www.seuslab.ru/seus

18.  https://meduza.io/feature/2018/10/16/politsiya-po-vsey-rossii-pokupaet-sistemy-monitoringa-sotssetey-oni-pomogayut-iskat-ekstremizm-ne-vyhodya-iz-rabochego-kabineta

19.  Trusov M, Bodapati A, Bucklin R (2009) Determining Influential Users in Internet Social Networks. Journal of Marketing Research. https://doi.org/10.2139/ssrn.1479689

 

Сведения об авторах

Рабчевский Андрей Николаевич  – ООО «СЕУСЛАБ», директор по науке, 614066, г. Пермь, ул. Шоссе Космонавтов 111, корпус 3, помещение 4 (оф. 302). тел +79127808729, эл. почта: andrey@ranat.ru,

Рабчевский Евгений Андреевич (Пермь, Россия) – ООО «СЕУСЛАБ», генеральный директор, 614066, г. Пермь, ул. Шоссе Космонавтов 111, корпус 3, помещение 4 (оф. 302), тел +79082658825, эл. почта: e.rabchevskiy@seuslab.ru.

 

EVALUATING THE POTENTIAL LEVEL OF INFORMATIONAL INFLUENCE OF USERS ON SOCIAL MEDIA

 

The task of identifying the most influential users of social media is very important to prevent the spread of viral content, fakes and other destructive information. The article considers existing methods of identifying the most influential users, based on the action and graph-theoretic approaches. It shows the feasibility of using an integrated approach that would consider both the activity level of users and the parameters of their social relations graphs. The method of identifying the most influential users of social networks based on the calculation of the potential level of influence of users is proposed. The results of method's application to research the users involved in the protest actions during the presidential elections in 2020 and the information dump about "Putin's palace" are presented. It is concluded that the proposed method is simple and practical. Ways for further research are outlined

 

Keywords: Social media; information influence; most influential users; potential level of influence; publication activity; social networking graph.