Графом по спаму

Разделы

Статистика

Графом по спаму

Развитие интернета в последние годы привело к существенным изменениям в способах общения между людьми. Еще 10–15 лет назад пообщаться с человеком можно было или при личной встрече, или по стационарному телефону, или же воспользоваться почтой, отправив письмо или телеграмму. Сейчас же к этим вариантам общения добавились мобильные телефоны и интернет, включающий в себя массу способов поговорить с человеком – это и электронная почта, и icq, и многочисленные чаты, и собственные блоги.

Характерным явлением в свете развития всемирной паутины стали так называемые социальные сети – сайты с большим числом пользователей, которые сами наполняют содержимое ресурса. Примеры подобных сетей хорошо известны – в России это «ВКонтакте» и «Одноклассники», а в США – Facebook.

Вышеперечисленные сети ассоциируются в первую очередь со знакомствами и «общением ради общения». Но есть в интернете и тематические социальные сети, направленные на обмен зачастую конкретной информацией, например, LiveJournal (где каждый пользователь может вести свой блог, размещая там фотографии, аудио- и видеозаписи, ставить теги (ключевые слова), давать свои комментарии) или, к примеру, last.fm (где пользователи объединяются по музыкальным интересам).

Классификация информации, которая производится самими пользователями путем применения тегов, уже даже получила вполне научный термин – фолксономия. Это слово образовано из двух: английского folk (народ) и греческого понятия taxonomia (иерархически выстроенная система целей и результатов от простой к сложной).

Авторы работы, опубликованной во вторник в Proceedings of the National Academy of Sciences, с математической точки зрения изучили две социальные сети и смоделировали свою сеть.

В компьютерной лингвистике существует эмпирический закон Хипса, который связывает объем документа с объемом словаря уникальных слов, которые входят в этот документ. В общей форме этот закон выглядит так: v(n)=Kn^b, где v – это объем словаря уникальных слов, составленный из текста, который состоит из n уникальных слов, а K и b – обусловленные эмпирически параметры. Для европейских языков K принимает значение от 10 до 100, а b – от 0,4 до 0,6.

Помимо закона Хипса большие тексты подчиняются закону Зипфа, который звучит следующим образом: если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, а затем отранжировать эти слова в порядке убывания частоты их встречаемости в тексте, то для любого слова произведение его ранга r и частоты встречаемости f будет константой.

Авторы работы, проводимой под руководством итальянца Чиро Каттуто, определили пост пользователя в сети как функцию трех аргументов: U – идентификатора пользователя, R – идентификатора ресурса (проще говоря, URL) и набора тегов T (T1, T2, T3, …), используемых пользователем.

Для исследования реальных сетей авторы выбрали два сайта. Одним из них стал обширный ресурс del.icio.us, который бесплатно дает зарегистрированным пользователям услугу хранения и публикации закладок на страницах интернета, и посетители могут просматривать имеющиеся закладки, упорядочивая их по популярности и тегам. С этого сайта для работы было использовано около 5 млн постов, написанных более 0,5 млн пользователей. В общей сложности отобранные для исследования посты содержали около 2 млн разных ссылок и 2,5 млн тегов.

Другой сайт, который использовался в работе, – BibSonomy – содержит в себе гораздо меньше информации, чем del.icio.us, поскольку в нем пользователи сохраняют библиографические ссылки. В исследованиях использовались посты 1400 пользователей, которые содержали в себе чуть более 125 тыс. ссылок, чуть менее 38 тыс. уникальных тегов и около 0,5 млн тегов в общем.

Используя данные, авторы применили к указанным ресурсам законы Хипса и Зипфа, а также построили ряд соотношений между различными величинами, определенными в ходе исследований для конкретных ресурсов.

После этого авторы работы предположили, что социальную сеть можно представить как семантическую сеть – в виде графа, вершины которого представляют собой теги, а ребра являются ссылками. Методом случайных блужданий (когда каждая точка пробного опыта берется совершенно случайным образом) Каттуто и коллеги построили абстрактную модель социальной сети. Для получившегося объекта они построили такие же соотношения, что и для двух реальных сетей, и получили хорошо согласующиеся результаты.

Авторы оговаривают, что данная работа является лишь оценкой и для более точных результатов нужно учитывать другие параметры.

Но главный вывод они озвучивают вполне твердо: социальные сети подчинены определенным законам и хорошо описываются математически.

Результаты этих исследований можно использовать на практике – например, в работе поисковых систем, составления рейтингов сайтов и, что является весьма актуальной проблемой современных пользователей, в борьбе со спамом.