公安情报信息数据发掘技术的基础理论研究略

2020-10-18 12:34:40 来源: 荆州信息港

公安情报信息数据发掘技术的基础理论研究

文/叶隽毅、陈龙云、颜嘉鹏

云南大学数学与统计学院

信息化时期已然到来,为适应全国治安新形势的要求,全国各地公安机关在全面实行“信息主导警务”战略,信息已成为公安工作的重要平台,成为公安机关从事各种工作的信息基础。其中浙江宇视科技有限公司在公安大数据方面具有深厚的沉淀,大量大数据项目在多个省份已落地并得到运用,如何研究、科学、有效进行数据发掘利用是重要课题,本文通过分析大数据平台知识库提出将数据库信息充分运用的基础理论模型—“三元理论”

数据发掘知识库的建立

公安信息大数据应用发掘的知识库来自于一线侦察员的实战经验。当案件/警情产生后,通过现场勘验等基础信息搜集后如果现场直接能判断出嫌疑人时自然是好,但是由于案情的复杂性、作案嫌疑人的反侦察行动等为案件侦察带来了极大的难度。侦察工作最关心的就是从现场留下的信息推测嫌疑人是什么样的人、真实身份是谁、现在哪儿。

图1 公安案件侦查流程图

从公安侦察的进程对大数据的应用经验经分析,大数据的运用可以归类为以下几种:

信息查询检索类

基于现场勘查、走访排查等收集的部分信息如嫌疑人的脸部图像、进出现场的车辆在游戏产业链更为成熟的日本市场、现场留下的声音、指纹、身体DNA、乃至现场范围的电磁信息痕迹等,通过大数据查询符合条件的目标列表。

布控告警

发现了嫌疑人或获得关键信息后就可进行布控抓捕,出动大批警力进行所有路口的盘查就是典型的拦截布控情势。在大数据时期,利用基于科学布点下的信息搜集基站进行嫌疑人特点信息的布控,如人脸、人体姿态、人体动作、车辆、移动终端的电磁信号、网络虚拟身份等等,一经发现便可通过提示进行人工甄别和预案抓捕。

研判分析

随着科技的发展,违法犯罪分子的作案手段、手法等的反侦察能力日渐提升,碎片化的信息根本没法推断出确切嫌疑人及其行迹。利用大数据的数学分析模型就可以推断嫌疑人可能的范围乃至直接定位出嫌疑人身份,如利用积分模型、轨迹碰撞、关系图谱分析等,也可以通过大数据的数学分析模型预测高案发时段、区域、易案发人群等,乃至可做反恐预警分析,预测恐袭事件等。

基础理论模型研究

通过对大量的大数据运用模型的研究发现,数据发掘总是围绕着目标对象的三元属性信息展开:关系、动作、轨迹。这也是本文研究的核心内容:公安信息大数据的基础理论模型--“三元理论”

所谓“三元理论”是指:关系元、动作元、轨迹元。每个人都有三维属性信息,通过对三元信息抽象和提升就可构建大数据的弹性检索、关系分析、时空轨迹等业务模型。

图2 三元理论模型示意图

关系元与三元闭包

每个人总与其他人、车、物、场景、案件等产生 关系,比如物品归属、人车物接触;又比如家庭、亲情、同学、朋友关系,手机、资金来往等。

美国斯坦福大学教授Granovetter的Thestrength of weak ties论文提出了一个原则:在一个社交圈内,若两个人有一个共同的朋友,则这两个人在未来成为朋友的可能性就会提高,这个原则被称为三元闭包。

图3 弱连接模型下的三元闭包理论模型示意图

现代人之间的关系可分为两种:由于时空轨道重合而产生的关系(同轨迹关系)和通过通话、资金、虚拟身份等而产生的关系(关系)根据三元闭包理论分析这些关系,可以找到与案件相干的人的匹配并肯定客观存在的关系网络。

轨迹元与三元轨迹碰撞

每个人必然会留下活动轨迹,比如住酒店、上网、购物、就业等;再比如坐车、走路会构成线路的轨迹;如果随身携带手机的话,手机移动切换蜂窝基站就会留下手机的轨迹。

由此,可总结出一个“三元/多元轨迹碰撞”理论(见图4 多元轨迹碰撞模型示意图)一个人通过暂住、住宿、上网、就业、出行等行动构成的轨迹即“人轨迹”持有车辆的轨迹(道路监控、拍照,车管所记录,维修记录等)即“车轨迹”持有手机的轨迹(网络痕迹、WIFI-MAC痕迹、蜂窝或GPS定位等)即“手机轨迹”对应虚拟身份的轨迹(社交、游戏等)即虚拟轨迹。各种行动轨迹经过搜集、清洗、处理可以以可视化的情势表现在地图上,并可以判断这人的职业、日常生活轨迹等信息。

图4 多元轨迹碰撞模型示意图

如果具有罪犯的多种轨迹,就可以进行轨迹碰撞模拟分析。案件勘验中的涉案轨迹,结合数据发掘得到的与案件轨迹的时空匹配的高同轨轨迹并以此得到的推荐嫌疑人排名,就可以进行多点轨迹碰撞分析并从中挑选、嫌疑排查,终究肯定嫌疑犯。

动作元与三元交互

每个人都不是固定不动的,只要主动去搜集就会留下有效记录。比如有违法犯罪行为记录的前科劣迹;作案现场的指纹、DNA、足迹等动作痕迹;再比如案前踩点、案前关手机、案后开手机等打破常规的反侦察动作。这些行动都会被其所处的环境与经历、本身的认知所影响(见图2 三元理论模型)即班杜拉的社会学习理论。

三元理论在大数据模型中的运用

基于关系元的关系分析和关系推测

基于关系元的关系分析可应用于现有已知的嫌疑人手机号/银行账户等(一个或多个)进一步发掘出与嫌疑人有关联的可疑人员,协助警员破案。比如上海蓝灯数据科技股份有限公司研发的数据的关系分析(见图5)

图5 关系分析模型示意图

围绕手机号码或银行账户等的关联分析,不断发现有的关系人或关系,循环往复,形成的包括人和物的复杂关系群体,也可以称为某人或某物的关系圈。通过关系分析技术,发掘 1 或 N 个目标对象(人或物) 的无穷层关联对象。通过分析关联关系的密切程度(可以做为权重)可以分析出密切关系人(案件核心人员)乃至是同伙。

基于轨迹元的时空分析和身份画像

通过海量固定基站搜集的移动终端活动的时空轨迹数据,利用数学模型就可分析出该移动终端的身份属性(身份画像)例如,分析移动终端某个时间段可能的常驻地信息等。

举例以下:我们对搜集的时空数据做以下处理,首先对每条采集装备搜集的信息和GPS(100米误差)每5分钟内同一数据的记录保存一条,且为最早出现的那条记录。下面,再通过一个算法对搜集到的数据做处理,得到某一终端的GPS占比情况(只保存大于20%)我们可以根据时间段的不同(一天可分为白天与晚上)统计同一个终端出现的次数,以此来实现推测某个移动终端的常驻地。

图6 时空大数据身份画像功能示意图

移动终端的时空信息是三元理论运用的最好实证,时空信息基本包括了一个人的关系元、轨迹元、动作元三个方面。可以通过它来分析出一个人的生活轨迹,也可以通过多条信息来判断一个人的身份属性,或是通过某条信息在某天的突然改变来分析其是不是存在异常动作。

基于动作元的积分分析和行动预测

基于动作元的信息可以做积分模型分析,在面向无中生有的侦察模式和案件、恐怖袭击预警等方面具有重要价值。比如针对某些数据做以下表的积分规则:

我们通过分析特定对象下的异常动作去分析可能发动重大安全攻击事件的条件,并给与不同的行动以不同的分值进行权重评估,统计一定时段内的积累积分值并进行排名,从排名中就可以看出排名前top N的安全风险极大,应启动预警和提早处置,以排除可能发生的安全事件。这个就是通过动作元积分模型进行安全恐怖袭击的行动预测与预警。

结语

做出优秀的大数据发掘业务模型很难,对一线民警刚放下手枪拿起鼠标,如何快速有效掌握业务建模技能更加艰苦。三元理论可给部份基层侦察员、程序员做培训课件,调研认为:这个基础理论模型极大方便其对大数据的理解,也极大方便了做业务模型的讨论,提高了侦察实战知识库的建立效力。

小孩健脾的药都是什么
怎么知道宝宝胀气
复方鳖甲软肝片为什么要全疗程用药
什么降压药效果好
本文标签: