在这个大数据的社会里,大数据比你妈更懂你,然而却不如你妈爱你。平台当然不会去窃取你的个人隐私,更不会监听电话,只是你的行为让大数据引擎意识到了你想要婴幼儿奶粉。像这样的数据痕迹你每天都会贡献,只要你上网,只要你浏览,你就在贡献数据,大数据就能发现你的所思&所想。
到底是不是这么恐怖呢?我们一起来看看平台是如何“扒窃”你的心思的。不管是什么APP,在使用之前都要进行注册。填完姓名、手机号码或者所在地、性别等一大堆基础数据之后,再同意一个《隐私条款》,点击注册,然后这些信息就被乖乖交给别人了。当然,这些数据只能是基础到不能再基础了。如果把你的所有信息比作文件夹,这些注册所填信息只能算是文件名,可以叫做<某某人的偏好数据库>。而同意《隐私条款》则相当于访问权。接下来,平台就可以“为所欲为”了!
互联网之所以强大有用,就在于它的互联互通性,在互联的网络里你的行为会组成一个行为标签矩阵,这些是要处理的数据源头。包括你的消费记录,消费习惯,浏览时长,打车习惯,关注的网站和媒体号,购买或者下载的游戏,是否购买过保险,甚至是发过的红包……这些行为都会被记录成为几千个事实标签,假设暂且储存在你的隐私文件夹之中:可以称作是<事实标签数据源>。
搜集事实标签并不是难事,关键是在这堆杂乱的数据中建立数学模型,也就是实现大数据分析。这一个步骤很像是数学建模比赛中的建模阶段,需要通过一个合理的建模过程以及合适的算法来对数据进行处理。对于需要估计出个人偏好的事实标签来说,这个过程就叫做偏好估计。从这些杂乱无章的标签中找到你感兴趣的,最后构建用户画像。
而算法模型的建立更像是一个Excel数据处理文件,我们就把它叫做<偏好估计算法模型>。而这些算法有很多种,而且很多都是机密性质的,我们暂且用开源的基础算法稍作说明。
举个例子,你在网上冲浪时,点开了一篇和美女标签有关的文章或者图集,但点开不意味着喜欢,也有可能是误点,所以接下来就要通过多个行为角度来判断你是否喜欢美女。
比如下面这个非常初级的内容喜好权重算法:
兴趣标签( 美女 )权重 = 行为权重 x 访问时长 x 衰减因子行为权重:什么都不干 1 分,评论 + 0.5,点赞 + 0.5,转发 + 2,收藏 + 1时长权重:10S 以内权重为 0.5,10S-60S 为 1,60S 以上为 2衰减因子:0 - 3 天内权重为 1,3 - 7 天权重为 0.85,7 - 15 天权重为 0.7,15 - 30 天权重为 0.5,30 天以上权重为 0.1
行为权重是指你在浏览这篇文章的时候有没有点赞、转发、收藏和评论等行为,这些行为会对于一个分值,累加形成行为权重;时长权重用来量化你的浏览时间,在一定的时间区间内会对应相应的分值,点进来就退出那意味着时间权重趋于零,因此标签权重也会为零,算法判断出误点;最后,短期的阅读无法代表长期阅读,如果只是浏览一次,也会有衰减因子来进行模拟。对于上边这个算法,还要进行进一步的处理——将多种兴趣权重标准化。
具体的,在你每次浏览美女标签的内容都会经过上述算法生成一个兴趣权重,把一段时间的兴趣权重累加得到标签变量,然后再用BP神经网络中的log-Sigmoid函数进行标准化,可以得到一个有意义的兴趣标签值,这里取[0~10]区间。数值越高,意味着你对美女越感兴趣。
至于S型函数是什么,大家有兴趣可以自己学习一下,这个函数的目的就是用来求出多组相同数据(BP神经网络中叫神经元)的总和、目标值以及误差,相当于提取价值数据。再回到兴趣标签,除了内容兴趣,这种处理算法思路还可以处理消费兴趣,社交兴趣等等,计算出各自权重之后,在多维度建立起模型,进而表示出你的偏好。
再进一步,这些代表你偏好的偏好标签权重行还能够进行用户分类。假设你的美女兴趣标签的权重值是8,社交权重是2,消费能力是5,我们就可以建立起空间向量坐标,表示为R(8,5,2)。向量可以理解成一个空间固定指向的线段,非原点端对应一个坐标,就相当于是你的用户定位。一般的处理办法是,以此算出余弦值和空间两点点距离公式,把用户向量坐标带入球面坐标,就能够找出和你相似的人,然后进行用户分类。
而对于性别和学历等个人数据的估计则要通过对比法处理。把已知学历和性别的用户作为样本,一部分来测试准确度,另一部分用来训练模型,得到一个预测准确率高达90%的算法模型,但具体的操作算法就比较复杂了。总之,完成这些数据处理之后,平台就能得到一个用户画像,我们假设存在文件夹之中,可以叫做<算法预测结果>。这样,一个可以查到消费兴趣的消费者便被提供给各大广告主了。
在腾讯广告开放平台的后台,我们就可以看到这一“盛况”。用户的行为数据被处理到了出神入化的地步,而广告主甚至可以自己选择标签进行精准投放,价格低到1.5元每千次投放。还人性化提供消费者数据筛选,可以精确到用户去了几次机场,打了几次车。
最后,当你有过奶粉的消费记录之后,在某APP上即将浏览到广告位的时候,平台后台就会发起一次广告位“竞标招租”,那些出价高的会在广告位显示出来。于是,也就有了文章开头的那一幕。
值得一提的是,现在还有一种偏向于同类用户推荐的机制。通过行为推荐商品的效果往往会出现偏差,不如同类型用户推荐来的准确。具体做法是,先把你归类,找到和你兴趣偏好一样或者接近的人,把人家的浏览记录或者商品清单复制给你,这样的效果可能会好一点,但也不排除审美差异导致的“凌乱”。
需要再补充的是,平台追踪你的浏览痕迹并不是只对应你的手机号码,不信你试一试,即便你不登录某宝浏览奶粉商品,在你刷到抖音的时候也会出现奶粉广告。这是因为平台不止是对你的手机号码进行对应,还与你的手机唯一识别码绑定。这个唯一识别码,安卓机叫做IMEI而苹果机叫做IDFA。平台就是通过这个识别码来完成精准投放的,毕竟精准投放需要一个唯一能够代表你的东西。换句话说,你在广告平台那里就是一堆乱码!
不过,你也不用太过紧张,这些数据搜集并不会影响到你的隐私安全,更不会进行监听监视。根据我国的《个人信息安全规范》规定,商业广告商搜集个人兴趣标签应该严格依照相关条例,避免标签精确到个人,以保护隐私安全。而苹果用户还可以自己设置IDFA识别码权限,哪个APP能够访问你的数据痕迹,你说了算!