论文传送门算法
做者
北京大学机器感知与智能教育部重点实验室服务器
- Siming Chen
- Xiaoru Yuan
奇虎360架构
- Zuchao Wang
悉尼科技大学ide
- Jie Liang
摘要
在分析人类行为时,咱们须要从多个数据源构建人类行为,例如轨迹数据、交易数据、身份数据等。咱们面临的问题是数据冲突、分辨率不一样、数据缺失和冲突,这些问题共同致使了时空数据的不肯定性。数据中的这种不肯定性致使用于分析人的行为、模式和异常值的可视化分析任务的困难甚至失败。然而,传统的自动化方法不能解决这种复杂场景中的问题,在这种场景中,不肯定和冲突的模式没有很好地定义。为了解决这些问题,咱们提出了一种半自动的方法,供用户解决冲突和识别不肯定性。总的来讲,咱们总结了五种类型的不肯定性和解决方案来执行行为分析任务。结合不肯定性感知方法,咱们提出了一个可视化分析系统来分析人类行为,检测模式和发现异常值。来自 IEEE VAST 挑战赛 2014 数据集的案例研究证明了咱们方法的有效性。测试
Introduction
面对异构数据,咱们能够采用可视化分析来了解人们的行为,发现模式并检测异常事件。优化
结合不肯定性感知方法,咱们提出了一个可视化分析系统,用于从异构数据中支持人类时空行为分析。编码
在本文中,咱们报告了咱们在可视化空间数据分析中识别的不一样类型的不肯定性,并演示了咱们如何使用半自动方法对其进行优化。通常来讲,咱们的方法是数据驱动的可靠性改进方法。lua
在整个工做中,咱们使用了来自 IEEE VAST 挑战赛 2014 迷你挑战赛 2 的虚拟数据集。结合不肯定性感知方法,咱们提出的可视化分析系统可以总结一组人的通常运动模式,并帮助分析师检测异常事件,具备各类可视化视图和多个过滤器。url
Contributionspa
- 半自动不肯定性细化方法: 咱们总结概括了五种常见的不肯定性,并针对每种不肯定性提出了新的解决方案。为了解决定义不明确的不肯定性问题,咱们结合了用户的能力和算法方法,并容许人参与分析循环。
- 感知不肯定性的视觉分析系统: 咱们开发了一个全面的视觉分析系统,结合了非肯定性感知方法和多个协调的可视化视图,从而为理解人类行为和检测有趣的模式和异常值提供了完整的解决方案。
Related Work
行为分析一般侧重于模式提取,关系识别和人群聚类
之前在时空视觉分析方面的工做主要是针对规则密集采样的全球定位系统数据。咱们提供了时空聚合和过滤技术,更重要的是,咱们处理异构的时空数据,这些数据自己就具备冲突和不肯定性。
在行为分析中,数据一般是不完美的,包含许多不肯定性。数据中存在各类错误、数据丢失和冲突,在进行任何分析以前,都应该正确处理。
Uncertainty taxonomy
这五种不肯定性来源于对异构时空数据的分析。第一,信息缺失直接致使识别对象的信息缺失。第二,冲突表示异构数据集中存储了冲突的描述,以表示相同的已识别对象。例如,咱们可能会发现同一我的同时出如今两个不一样的地点的状况。这种不肯定性是由数据冲突形成的。第三,不肯定性中的粒度问题是数据集对象描述的分辨率不一样。对于一个事件,咱们可能同时拥有日级和秒级描述。第四,多重价值致使不肯定性,由于缺少区分价值的信息。例如,在一个位置,有多个商店。从具体位置来看,仅根据空间信息很难肯定确切的商店。最后,错误下降了数据的可信度,并致使不肯定性。例如,全球定位系统轨迹记录可能会由于记录的传输、编码和解码过程而出错。经过四个对象的五种类型的不肯定性,咱们用应用数听说明了表明性的不肯定性,并在下面的部分给出了相应的解决方案。
Uncertainty illustration
在本节中,咱们首先描述咱们使用的数据。而后介绍了数据融合方法和可视化分析系统,这是不肯定性处理和分类的基础。
- POI Uncertainty
- Temporal Uncertainty
- Transaction Attribute Uncertainty
- Location Uncertainty
- Identity Uncertainty
Visual analytics system
咱们的视觉分析系统将不肯定性感知方法与彻底交互式的探索功能相结合。咱们的系统可使用户从异构的时空数据源中找到可靠的信息、检测模式和发现问题
用户能够应用时空过滤来探索数据。地图视图显示了 poi 和 GPS 轨迹的位置(图 9a)。每一个兴趣点由一个多边形表示,颜色编码兴趣点类别。每一个 GPS 轨迹都表示为一条折线。用户能够在地图上应用空间过滤器来选择经过单个或多个区域的 GPS 轨迹。时间线视图显示了全球定位系统记录的时间分布(图 9b)。用户能够在时间轴上应用时间过滤器来选择单个或多个时间范围内的 GPS 轨迹。在探索中,用户能够在一个时间范围或时间段内过滤兴趣点,以进行进一步的模式分析。
实体视图显示了雇员的名单(图 9c)。用户能够直接选择列表中的人。详细事件视图显示了一名员工的整个事件序列(图 9d)。数据描述部分已经提到了该功能。用户能够首先分析事件序列中的基本平常模式。基于导出的规则模式,为每一个单独的运动提供自动异常检测(图 7)。然而,因为人们会有诸如去超市或公园等特殊事件,自动方法会产生许多错误警报。这不必定是可疑事件。所以,咱们使用户可以在空间、时间和事件视图中探索人的行为。基于异常提示,用户能够发现可疑事件,包括深夜外出、工做时间缺勤、卡被盗事件等。此外,咱们支持多我的的行为比较,以得到更复杂的模式发现。事件时间线显示多个员工在选定时间范围内的事件子序列(图 9e)。主要用来比较/关联不一样人的行为。结合其余观点,咱们发现一些有趣的行为,如聚会、汽车-人与人之间的分享和其余不正常的关系等。
基于感知不肯定性的视觉分析系统,用户能够经过交互式探索找到可靠的模式和事件。
System implementation
咱们的系统是在客户-服务器架构下开发的。客户端用 HTML5/Javascript 构建,服务器端服务用 Python 和 MongoDB 实现。
Evaluation
咱们从两个方面评估了咱们提出的感知不肯定性的可视化分析方法。首先,咱们将咱们的方法与纯计算方法进行比较,并说明咱们的优点。其次,咱们用一个案例来讲明用户如何在处理不肯定性后成功地找到事件。
咱们讨论了咱们的方法与假定的不肯定性挖掘方法的比较部分。一开始,咱们使用纯自动算法,发现有几个问题。特别是,对于某些状况,纯算法没法工做,由于它须要高水平的人类判断。
- POI detection.
- Temporal error and mismatching
- Transaction attributes missing and conflicts
- Location conflict, shift and errors
- People information identity
case study - people behavior analysis
Discussion
咱们提出了一种感知不肯定性的可视化分析方法来处理多个时空数据源。经过交互和算法方法,用户能够识别和细化数据的不肯定性,因为定义不明确的不肯定模式,这是一项具备挑战性的工做。这样的过程须要语义理解。例如,异常访问模式能够用大量的假警报来检测。一我的可能去超市不是那么规律,这能够被检测为异常行为。可是,在语义层面,去超市是很正常的行为。此外,对于具备多个数据源和属性的场景,这些算法不容易找到精确的解,这须要人的参与。在复杂的数据分析场景中,数据驱动的方法工做得更好,由于没有用于分析任务的现有模型。
尽管新颖而强大,但当前的不肯定性感知方法仍然存在局限性。咱们能够经过更直观的操做和自动匹配的方法来改进手动操做部分。它能够进一步提升咱们方法的效率。在将来,咱们还设想为不一样的数据源测试咱们的技术。应使用更大规模的数据集进一步评估系统的可扩展性。在现阶段,咱们尚未作正式的用户研究。咱们设想在将来进行一项用户研究。
咱们学到的最大教训是,咱们须要在不肯定性下推理。咱们不该假设数据中没有歧义、错误或冲突。咱们认为,咱们应该在乎识到不肯定性的状况下分析数据。另外一方面,在识别不肯定性时,咱们须要了解不一样的类型,并注意不肯定性会在整个可视化分析管道中传播。
Conclusion
在这篇文章中,咱们提出了一个不肯定性感知的视觉分析系统,从异构时空数据中研究人类行为。咱们总结了五种有表明性的不肯定性类型及其细化方法。提出了一种数据驱动的方法,咱们经过可视化界面充分利用人类的判断。经过多种来源的交叉验证,咱们能够进一步提升细化结果的可靠性。基于细化结果,咱们可以识别行为分析的模式和事件。