Title: 多层网络聚落检测综述
Date: 2016-3-14
Author: sndnyang
Slug: multi_layer_cd_suver
Category: 研究
tags: 论文, 多目标进化算法, 群落检测
[TOC]
Community Detection in Multi-Layer Graphs: A Survey
本文介绍多层网络下聚落检测问题, 并对相应算法做综述
比如:
关系的不同方面就可以表达成多个独立图组成的多层图, 里面的每个、每层图就代表了一个方面
比如:
对于一个facebook上的账号(个人):
例:
Heterogeneous Information Networks
点的类别 或 关系的类别个数大于1的信息网络。
异构信息网络与多层网络模型 等价
但强调不太相同
heterogeneous information networks emphasize heterogeneous types of entities connected by different relationships
论文: Scalable community discovery on textual data with relations
基于关系(文章引用)与文本属性
大型文档语料 -- large cocument corpus
非监督方法
cores dictate the formation and topics of communities
核 用来表示 社区的构造和主题
4 steps:
co-occurrence analysis: multiple objects are linked simultaneously by others, they are more likely to be able to define a coherent topic scope
保证了合并后核的高度一致性, 不受过滤阈值的影响
证明过程略
输入参数: core probing 返回的核
迭代:
完成cores probe后,剩余的点作为 affiliated members
初始化社区C = 找到的核K , 迭代处理:
好像没什么用
只根据relation找到的社区 很可能误判(false hits)
要根据属性分析, 将当前的C 划分成两个集合, C' 和 C-
structural and attribute similarities using a unified distance measure
SA-Cluster
基于属性增广图(attribute-argmented graph), 使用Random Walk with Restart (RWR)
利用unified distance measure, 进行 k-medoids clustering(类似 k-means)
思想: 从vi走 l 步能到的点越多, vi越可能是中心
目标是最大化
有以上的目标函数后, 可转化成三个子问题
在每次迭代时, 进行权重调整
属性 ai 权重在第t+1次迭代的计算公式为:
counts the number of vertices within clusters that share the same attribute values with the centroids on ai
model-based community detection approach based on both structural and attribute aspects of a graph
聚类属性图定义:
求最优化:
其中
联合概率分布
使用variational distribution q(α, θ, φ, Z) 来逼近原分布
并且对 variational distribution 作限制
全局最优就转成求局部最优
measure the distance between a variational distribution q(α, θ, φ, Z) and the true posterior p(α, θ, φ, Z|X, Y)
等价于 最大化
关系式:
combine structural and attribute information using the graph merging process
CODICIL
将新创建的content edges 和 初始的拓扑边集进行简单的联合(unified)
对每个点 vi, 从邻点选择要保留的边, 通过 cosine 相似度或Jaccard 相似度
因为图合并部分独立于community detection, 所以任意 community detection 都可以,
这块不是本文的重点
通过 用内容信息消除连接结构里的噪音, 来强化社区信号
论文: Community Detection with Edge Content in Social Media Networks
Edge-Induced Matrix Factorization
对于多个目标矩阵O^i, i = 1,-,l
要算出一个common factor matrix
迭代处理:
Coherent Closed Quasi-Clique Discovery from Large Dense Graph Databases
Cocain
子图挖掘算法, 搜索多层图中频率高于某给定阈值的 quasi-cliques
a set of vertices
coherent subgraph: a subgraph that satisfies a minimum cut bound
若两个图G1, G2是 gamma同构, 当且仅当:
Given a k-graph g, any sequence of all elements in M(g)
给定 k-graph g, M(g)的任意一种序列
the minimum string among all its strings and denoted by CF(G)
图的最小 string, 记作 CF(G)
有引理:
两个γ-quasi-cliques Q1 Q2 是γ同构, 当且仅当 CF(Q1) = CF(Q2)
关键:
对每个 quasi-clique Q, 处理完它的子代后, 进行闭包检查
find cross-graph quasi-cliques in a multi-layer graph that are frequent, coherent, and closed
论文: Mining Coherent Subgraphs in Multi-Layer Graphs with Edge Labels
clusters of vertices that are densely connected by edges with similar labels in a subset of the graph layers
找聚类, 满足条件:在某层的图中,不仅边的密度高,且具有相似的标签。
the edge labels represent characteristics of the relations
One-dimensional MLCS cluster
某一图(层)的点集满足以下条件:
Mining Multi-layered, Attributed Graphs
计算出最大化、 无冗余、 高质量(不是最优质量)的聚类
基于寻找quasi-cliques的快速算法。
community 没有严格定义
General multi-layer graph applicability
当前算法一般仅研究了 pillar(柱形)多层图
现实世界不保证不同层之间正好一一对应
所以现有算法的泛化, 对通用多层图的适应性非常有意义
Uncertainty in multi-layer graphs
现有的研究都假定 图数据已经清理完毕, 缺少噪音、歧义的研究
constructing multi-layer graphs with entity resolution and/or trustworthy analysis certainly enhances the quality of the community detection process
所以可能要考虑并行及分布式之类的方法
或是对多层图的特征向量矩阵(feature-vector matrices)进行采样
图是随时间变化的。
目前存在一些对单层图的时间变化的研究, 但基本不可用于多层图