Анализ социальных сетей

Сетевой анализ

 Географические сети

Важным объектом исследований в географии являются различные Географические сети, представляющие собой совокупности линейных фрагментов природного (например, речные, орографические, тектонические) и антропогенного (например, дорожные, электрические, коммуникационные) характера. В общем случае в понятие «географическая сеть» включаются все пространственные (территориальные) связи и отношения, существенные для изучения пространственной организации природных и социально-экономических систем. В этом случае географическая реальность может быть представлена в виде суперпозиции (объединения, наложение) большого количества разнообразных пространственных отношений и связей (транспортных, технологических, экологических, миграционных, информационных и др.) между различными геообъектами (населенными пунктами, предприятиями, административными и экономическими районами, экосистемами и др.). При этом географичность данных отношений состоит в том, что в указанную суперпозицию всегда включается отношение взаимного размещения, которое и придает всему комплексу территориальный, географический характер.

Целью изучения географических сетей является выявление закономерностей их строения, формирования и развития, а также мониторинг, оптимизация и управление (например, в случае транспортных и коммуникационных сетей). ГИС-технология обеспечивает возможность компьютерного представления, моделирования и анализа, сколь угодно больших по числу вершин и ребер сетевых объектов, в сочетании с автоматизированным тематическим картографированием, интерактивным редактированием и визуализацией (включая мультимедиа) соответствующих сетевых моделей.

Модели и алгоритмы сетевого анализа

В моделировании и анализе географических сетей широко применяются методы теории графов. Как известно, любое картографическое изображение территориальных отношений содержит метрические и топологические атрибуты. Графовые модели акцентируют внимание именно на топологические свойства сетей: порядок соединения вершин, наличие циклов, степень связности и др.

Реальные территориальные отношения и связи можно формализовать и изобразить в виде многомерных графов-картосхем. Однако методика анализа таких графов еще недостаточно разработана. Поэтому при изучении географических сетей чаще всего используются относительно простые графовые модели, методика анализа которых разработана до уровня алгоритмов и программ.

Если в качестве свойств графов рассматривать Помеченность вершин, а также помеченность и Направленность ребер, то можно выделить 8 типов графовых моделей сетей (Рис. 3.4). (Помеченным называется граф, ребрам и/или вершинам которого приписано значение некоторого признака — числового, порядкового, классификационного). Рассмотрим кратко основные типы выделенных графовых моделей:

1. Непомеченные неориентированные графы. С помощью этого типа

Графовых моделей изучаются территориальные связи и отношения, для которых не известны (или не важны) интенсивность и направление: коммуникационные сети и сообщения (в оба конца), производственные связи, маятниковые миграционные потоки и т. п. Анализ таких графов используется при решении следующих задач:

— исследование связности графа: выявление несвязных подграфов (Рис. 3.5а), критических вершин и ребер (т. е. таких, при удалении которых граф перестает быть связным);

— общая характеристика структуры и формы графа с помощью различных показателей;

— оценка вершин графа по их положению в структуре графа;

— нахождение максимальных полных подграфов (клик) и анализ структуры их соединения в исходном графе (Рис. 3.5б);

— поиск кратчайших путей между вершинами графа, решение оптимизационных задач (задача «коммивояжера» и т. п.);

— преобразование (генерализация) исходного графа в более простой, удобный для анализа и картографирования вид.

Моделирование и анализ рассмотренных графов представляет собой быстро развивающийся раздел комбинаторики, имеющий приложения в различных областях науки и техники. Разработаны и разрабатываются специальные алгоритмические языки и пакеты прикладных

Рис. 3.5. Способы кластеризации графов;

А) изолированные подграфы; б) клики (максимально связные подграфы); В) сильно связные компоненты орграфа; г) слои поточного иерархического графа программ для представления в ЭВМ и анализа графов, в том числе в ГИС.

II. Помеченные неориентированные графы. Этот тип графовых моделей целесообразно использовать в случае, когда известна интенсивность территориальных связей между геообъектами, измеренная в числовой или порядковой шкале. Ключевыми понятиями для анализа помеченных (по ребрам) неориентированных графов являются понятия порога и Устойчивого разбиения. Устойчивое разбиение, например, можно рассматривать как оптимальное расчленение (районирование) географической сети по данному виду связей.

Основные алгоритмы анализа помеченных неориентированных графов следующие: 1) алгоритм получения пороговых матриц смежности вершин графа при различных значениях порога; 2) алгоритм подсчета несвязных компонент графа, задаваемого соответствующей пороговой матрицей.

III.

Непомеченные ориентированныеграфы. Изучая сети, географ иногда располагает информацией лишь о Направлении связей между геообъектами, а их интенсивность ему не известна (или не важна в контексте исследования). В этом случае в качестве моделей географических сетей используются непомеченные ориентированные графы — Орграфы. Для географических приложений важны такие понятия теории орграфов, как Сильно связная компонента и Поточная иерархическая структура.

В географическом аспекте сильно связные компоненты можно рассматривать как функциональные районы, а процесс их выделения — как функциональное районирование географической сети (Рис. 3.5в).

Поточная иерархическая структура — это такое представление орграфа, при котором: 1) вершины разбиты на упорядоченные группы (иерархические слои); 2) вершины, находящиеся в одном иерархическом слое, могут иметь связи только между собой и с вершинами более высоких иерархических слоев (Рис. 3.5г).

В географическом плане представление и анализ ориентированных графов в виде поточных иерархических структур дает возможность решить следующие задачи: 1) определить общую иерархическую структуру подчинения геообъектов по данному виду связей (например, населенных пунктов по миграционным связям); 2) оценить значение каждого геообъекта в иерархической структуре территориальных связей (например, ландшафта определенного таксономического ранга); 3) осуществить иерархическое районирование географической сети (например, сети поселений различного ранга по степени миграционной привлекательности).

Алгоритм сокращения поточной иерархической структуры орграфа, являющийся основой иерархического районирования, представляет собой циклическую процедуру поиска максимального элемента в строках матрицы интенсивности связей и не предполагает использования специального программного обеспечения.

IV. Помеченные ориентированные графы. Графовые модели этого типа используются в случае, когда известны интенсивность связей между геообъектами и их направление. Методика анализа помеченных ориентированных графов содержит в качестве этапов нахождение пороговых матриц для различных значений порога и подсчет для каждой из них числа сильно связных компонент, интерпретируемых в качестве функциональных районов.

Сетевой анализ — 4.7 out of 5 based on 3 votes

Анализ данных социальных сетей

Автор: Ольга Горчинская,  издание: Открытые системы. СУБД2015.09.02 16814

Теги: HadoopMapReduceApache SparkИнструменты Больших ДанныхСоциальные сети

Понятие социальной сети использовалось социологами еще в 20-х годах прошлого века для изучения взаимосвязей между участниками различных сообществ. Психолог и психотерапевт Якоб Морено предложил социограммы, на которых отдельные индивиды представлялись в виде точек, а взаимосвязи между ними — в виде линий. Идею использования аппарата теории графов для изучения взаимоотношений и взаимосвязей между людьми подхватили специалисты в области социологии, психологии, антропологии, политологии, экономики — так сформировалось направление Social Network Analysis, изучающее структурные свойства социальных взаимосвязей, моделируемых в виде графов и сетей. Важным, но весьма трудоемким этапом такого исследования было построение модели на основе различных данных из печатных источников, дополнительных опросов и анкетирования.

Современные социальные сети существенно изменили постановку вопроса — сегодня у исследователей имеется «бесплатный» ресурс для изысканий [1], а стремительное распространение социальных онлайн-сервисов и развитие технологий Больших Данных инициировали интерес к использованию сведений из социальных сетей в различных отраслях. Совместное использование структурных и контентных данных потенциально позволяет применять социальные сети для решения широкого круга бизнес-задач: борьбы с мошенничеством, управления брендом, рекламы товаров и услуг, формирования новых каналов сбыта и др.

В социальных сетях, на форумах, новостных и развлекательных порталах и в блогах содержится много ценного материала, из которого можно добыть информацию о предпочтениях и особенностях людей и компаний. Для этого прежде всего необходимо идентифицировать клиента в каждом источнике, что позволяют сделать далеко не все ресурсы — на многих из них люди не регистрируются либо указывают недостаточно идентифицирующих данных. Даже там, где данных для идентификации клиента достаточно, может не оказаться полезных дополнительных сведений о нем. Социальные сети в этом отношении являются наиболее подходящим источником, содержащим и информацию для идентификации клиента, и дополнительные данные о предпочтениях, семейном положении, образовании, круге общения и др.

Обогащение профилей клиентов

В общем случае задача обогащения профилей клиентов состоит в следующем. Компания предоставляет базовые данные (имя, фамилия, дата рождения, город) о своих клиентах, и на их основе необходимо найти дополнительные сведения: круг интересов, социальный статус, область профессиональной деятельности, музыкальные предпочтения и т. д. Для решения этой задачи необходимо собрать данные о клиенте из социальных сетей, идентифицировать его, обогатить данные и сформировать единый профиль для каждого клиента (см.

рисунок).

Самый простой способ сбора данных — воспользоваться услугами специализированных компаний, собирающих и постоянно обновляющих данные из множества источников. Главное преимущество здесь — быстрота получения информации, что существенно при больших объемах клиентской базы и использовании различных социальных сетей. Недостаток — платная подписка на обновления данных.

Следующий способ — использовать программные интерфейсы, предоставляемые почти всеми популярными социальными сетями. Для различных сетей API отличаются набором доступных данных, ограничениями на количество запросов и стоимостью доступа к интерфейсам. Например, если c помощью программного интерфейса сети «В контакте» можно получить полную информацию о пользователе, то Facebook предоставляет API, возвращающий практически «нулевые» сведения о пользователе. К недостаткам этого метода относится ограничение на количество одновременных запросов и на количество обращений, которые приложение может делать в единицу времени. Кроме того, необходимо постоянно отслеживать изменения в API и обновлять приложение по сбору данных, причем некоторые социальные сети предоставляют важные данные только на платной основе. Преимуществами метода являются возможность получения данных об одном клиенте в структурированной форме (JSON или XML), а также простота интеграции вызовов API в собственное приложение.

Еще один способ — ручной разбор веб-страниц социальных сетей, а также использование готовых краулеров для сбора данных с последующим разбором. В этом случае имеется доступ ко всем открытым данным и отсутствуют ограничения на скорость их сбора. К недостаткам следует отнести сложность реализации — веб-страница каждой социальной сети уникальна, поэтому каждый раз придется разрабатывать свои правила разбора. Недостатками являются также сложность поддержки и необходимость больших вычислительных ресурсов, правда, этот процесс хорошо распараллеливается.

Идентификация клиента — обнаружение всех профилей, представляющих конкретного клиента в социальных сетях. Исходными данными для поиска могут служить паспортные данные, однако будет полезна и дополнительная информация. Сузить круг и помочь при поиске человека могут такие сведения, как название компании, в которой он работает, номер телефона, адрес почты, место учебы и список друзей.

Самым простым способом идентификации является поиск по точному совпадению всех известных характеристик клиента, однако необходимо учитывать, что соответствующие характеристики в социальных сетях достоверны лишь до определенной степени — они могут отсутствовать, быть заведомо ложными либо допускать различные варианты написания. Поэтому перед проведением идентификации необходимо произвести очистку и нормализацию данных, а также проверить правильность указанных в профиле параметров — например, город пользователя можно уточнить на основе анализа его подписок, постов и статусов.

Некоторые параметры можно восстановить, анализируя профиль пользователя или его друзей. Например, женщины очень часто не указывают год рождения, тогда как имеется год окончания университета или школы.

Каждая характеристика, используемая при идентификации, имеет некий вес — сумма всех весов при совпадении всех параметров должна быть равна единице. Так, фамилия, имя и пол — одни из самых важных параметров во время идентификации, и если эти данные указаны неверно, то с высокой степенью вероятности идентифицировать этого пользователя не удастся. На втором месте стоят день и месяц рождения. Эти данные поддаются восстановлению, но без них шанс на удачную идентификацию также весьма низкий. Город и год рождения имеют самый низкий вес. Однако именно эти параметры лучше всего поддаются восстановлению на основе других данных.

Кроме данных, которые пользователи сети явно указывают в своих профилях, многое можно узнать, анализируя посты, группы подписки и фотографии. При этом интерес представляют дополнительные факты, которые можно извлечь из этой неструктурированной информации. Например, если в большинстве записей на стене речь идет о впечатлениях о фильмах, то ясно, что пользователь интересуется кино.

Автоматический анализ текстов невозможен без лингвистических технологий. Кроме того, для решения многих задач полезны также статистические методы, технологии машинного обучения и углубленный анализ данных (data mining). Статистические исследования и работа с естественным языком обычно связаны с некоторой неточностью — в статистике речь всегда идет об определенных допущениях, эвристических предположениях, которые не всегда полностью выполняются, а в естественном языке всегда есть вероятность неоднозначного толкования утверждений и выводов. Правильное сочетание лингвистических и статистических подходов повышает качество результата и уровень его достоверности. Для иллюстрации возможного соотношения различных методов при текстовом обогащении данных рассмотрим несколько примеров.

Допустим, нам необходимо узнать, интересуется ли пользователь футболом. Определим, насколько часто в текстах на его стене встречаются соответствующие термины, и при достижении некоторого уровня их появления можно сделать определенные выводы. Для такого метода обогащения необходимо знать терминологию, получить которую можно из словарей или тезаурусов по конкретной предметной области. Кроме того, нужно еще и уметь правильно подсчитать количество употреблений — понимать различные формы одного и того же слова. Таким образом, для данного примера достаточно только лингвистических средств.

Второй пример относится к случаю, когда кроме лингвистической обработки необходимы методы машинного обучения. Предположим, что у пользователя не указана полная дата рождения и требуется определять возрастную группу на основе текстов, которые он пишет. Прежде всего формируется набор текстов пользователей, возраст которых известен. Затем для этого набора с помощью алгоритмов машинного обучения выявляются особенности текстов для каждой возрастной группы и формируется некоторая формальная модель, позволяющая для произвольного текста оценить возраст его автора. Алгоритмы машинного обучения обычно рассчитаны на структурированные данные, поэтому перед их применением тексты заменяются на наборы встречающихся в них слов или на набор тематик, характеризующих эти тексты. Для этого используются лингвистические алгоритмы выделения значимых слов, их нормализации, составления лексического профиля текста, определения тематик и др.

У одного клиента, заданного идентификационными данными, в социальных сетях может существовать много различных пользователей, имеющих достаточно высокий уровень достоверности идентификации.

В этом случае возникает задача «объединения» данных нескольких пользователей в единый профиль клиента. Как именно соединять данные, зависит от конкретной задачи — например, для формирования общего списка интересов можно отбирать только интересы, присутствующие у каждого пользователя. Либо можно объединять интересы всех пользователей заданного клиента и использовать расширенный набор интересов.

Платформа ForSMedia, разработанная компанией «Форс» на базе Hadoop [2], средств лингвистической обработки компании RCO и языка R, реализует все перечисленные методы и подходы. Важной особенностью решения является возможность массового обогащения данных для большого числа профилей клиентов в автоматическом режиме. Платформа может быть развернута на серверах пользователя или поставляться в виде облачного сервиса.

***

Социальные сети служат новым полезным источником дополнительных данных о клиентах любой компании. Использовать этот источник не так просто, и возникающие на этом пути проблемы требуют специализированных технологий и инструментов. Система ForSMedia, основанная на Hadoop и других технологиях Больших Данных позволяет автоматически в режиме массовой обработки обогащать профили клиентов не только данными, в явном виде указанными в социальных сетях, но и сведениями, неявно присутствующими в многочисленных текстах сообщений, постах, группах подписки.

Литература

  1. Вэй Тан, Брайан Блейк, Иман Салех.

    Аналитика Больших Данных и социальные сети // Открытые системы.СУБД. — 2013. — № 8. — С. 37–41. URL: http://www.osp.ru/os/2013/08/13037856 (дата обращения: 18.09.2015).

  2. Наталья Дубова. Как устроены Большие Данные // Computerworld Россия. — 2015. — № 16. — С. 13. URL: http://www.osp.ru/cw/2015/16/13046526 (дата обращения: 18.09.2015).

Ольга Горчинская (olga.gorchinskaya@fors.ru) — директор по исследовательским проектам, Андрей Ривкин (andrey.rivkin@fors.ru) — ведущий эксперт по технологиям Больших Данных, компания «ФОРС» (Москва).

Материал из ПИЭ.Wiki

Перейти к: навигация, поиск

Systems Network Architecture (системная сетевая архитектура) — разработанная компанией IBM PC в 1974 г. общее описание структуры, форматов, протоколов, используемых для передачи информации между программами IBM и оборудованием, создавалось для объединения в глобальные сети мейнфреймов IBM. Одна из первых сетевых технологий. Системная сетевая архитектура — разработанный корпорацией IBM PC полный функциональный профиль протоколов:

— опирающийся на телекоммуникационные методы доступа;

— определяющий физическую и логическую структуры сети в соответствии с архитектурой терминал-главный компьютер.

SNA является семиуровневым стеком сетевых протоколов, близким, но не совпадающим с сетевой моделью OSI: Уровневые компоненты сетевых архитектур, отображенные на модели ISO/OSI

  • Physical Control — обеспечивает генерирование и кодирование электрических сигналов, работу физических интерфейсов, топологию сети и коммуникационную среду (например, кабель)
  • Data link control (DLC) — включает несколько протоколов канального уровня, в т.ч.

    Synchronous Data Link Control (SDLC, протокол управления синхронным каналом передачи данных) для иерархических сетей и Token Ring для одноранговых локальных сетей, соответствует канальному уровню (Data Link layer) OSI (однако не охватывает польностью функциональность Data Link layer OSI);

  • Path control — обеспечивает адресацию, маршрутизацию и фрагментацию/дефрагментацию пакетов данных, охватывая часть функций канального и сетевого уровней OSI;
  • Transmission control — обеспечивает управление соединениями, включая шифрование/дешифрование данных, обеспечивая функциональность, входящую в сетевой и транспортный уровень OSI;
  • Data flow control — уровень управления потоками данных, включая установление соединений, очерёдность передачи данных, приостановку передачи по требованию и групповой обмен.

    Включает функции транспортного и сессионного уровней OSI;

  • Presentation services — управление преобразованием данных различных форматов, разделением ресурсов и синхронизацией транзакций. Включает в себя часть функций сеансового уровня, уровня представления и прикладного уровня OSI;
  • Transaction services — уровень приложений управления распределённой обработки данных и управления.

Верхний уровень службы транзакций (Transaction Services) обеспечивает средства приложений для распределенной обработки и управления сетью. К прикладным протоколам относятся:

  • DIA (Document Interchange Architecture) — определяет стандарты обмена документами между разнородными вычислительными системами; координирует передачу файлов, поиск документов и их хранение;
  • SNADS (SNA Distributed Service) — управляет распространением документов и сообщений (инфраструктура для распространения электронной почты);
  • DDM (Distributed Data Management) — обеспечивает прозрачный удаленный доступ к файлам за счет механизма перенаправления запросов.

На этих уровнях располагаются протоколы:

Три стека протоколов, отображенные на модели ISO/OSI

  • APPC (Advanced Program-to-Program Communication) — выполняет функции сеансового и транспортного уровней ISO/OSI; на сеансовом уровне обеспечивает администрирование сеанса и трансляцию синтаксиса файлов, а на транспортном — организацию последовательностей сегментов и сквозное управление потоком данных.
  • CICS (Customer Information Control System) — инструментальное средство для построения приложений обработки транзакций, организует доступ к распределенной файловой системе, защиту информации, многозадачность и пр.
  • IMS (Information Management System) — еще одна среда обработки транзакций, подобная CICS, позволяющая нескольким приложениям совместно использовать базы данных и планировать приоритеты транзакций.
  • TSO (Time Sharing Operation) — обеспечивает интерактивный пользовательский терминальный интерфейс, реализуя одновременную поддержку множества независимых параллельных пользовательских сеансов; каждый пользователь TSO при помощи специальных команд получает возможность выполнять операции над наборами данных, запускать задания и контролировать ход их выполнения, использовать устройства, связываться с другими пользователями и т.п.

Среди них коммуникационные:

  • APPN (Advanced Peer-to-Peer Networking) — работает на сетевом и транспортном уровнях и обеспечивает одноранговое сетевое взаимодействие между несколькими физическими устройствами (миникомпьютерами, кластерными контроллерами, шлюзами, рабочими станциями и пр.); предусматривает управление окном передач и службу каталогов.
  • VTAM (Virtual Telecommunication Access Method) — обеспечивает управление, обмен данными и управление потоками данных в сетях SNA; на сеансовом уровне VTAM управляет диалогом и реализует управление сеансом, а на транспортном уровне обеспечивает сквозное управление потоками данных.
  • NCP (Network Control Program) — протокол управления ресурсами, подключенными к коммуникационным контроллерам; частично выполняет функции сетевого уровня (маршрутизация, шлюзование) и частично — канального уровня (управление доступом к каналу, физическая и логическая адресация, управление потоком данных).

Первый уровень — физический (Physical) подобно модели ISO/OSI определяет характеристики сопряжения со средой передачи данных. Решения этого уровня основаны преимущественно на тех же стандартах и рекомендациях, что и модель ISO/OSI.

—Darya Chernenko 09:09, 16 января 2011 (UTC)

Литература:

http://ru.wikipedia.org

http://www.intuit.ru

http://www.glossary.ru

Категория: Вычислительные системы, сети и телекоммуникации

Добавить комментарий

Закрыть меню