excel学习库-为什么APP知道你想买什么？数字生活让人疑神疑鬼

下面的情景我们都经历过：你刚刚在某宝浏览了某品牌的奶粉，转眼就能在另一个资讯APP和它来一次惊喜的偶遇；你刚在微信里和人谈起你要去泰国旅游，马上就能在朋友圈里看到机票广告；你刚给家里打个电话说要给老爸买一个代步车，马上四处的广告位都会蹦出来某某代步车的靓照。这些广告都是怎么出现的？为什么这些APP知道你心里在想什么？面对这疑神疑鬼的数字生活，有必要做出揭秘。

在这个大数据的社会里，大数据比你妈更懂你，然而却不如你妈爱你。平台当然不会去窃取你的个人隐私，更不会监听电话，只是你的行为让大数据引擎意识到了你想要婴幼儿奶粉。像这样的数据痕迹你每天都会贡献，只要你上网，只要你浏览，你就在贡献数据，大数据就能发现你的所思＆所想。

到底是不是这么恐怖呢？我们一起来看看平台是如何“扒窃”你的心思的。不管是什么APP，在使用之前都要进行注册。填完姓名、手机号码或者所在地、性别等一大堆基础数据之后，再同意一个《隐私条款》，点击注册，然后这些信息就被乖乖交给别人了。当然，这些数据只能是基础到不能再基础了。如果把你的所有信息比作文件夹，这些注册所填信息只能算是文件名，可以叫做<某某人的偏好数据库>。而同意《隐私条款》则相当于访问权。接下来，平台就可以“为所欲为”了！

互联网之所以强大有用，就在于它的互联互通性，在互联的网络里你的行为会组成一个行为标签矩阵，这些是要处理的数据源头。包括你的消费记录，消费习惯，浏览时长，打车习惯，关注的网站和媒体号，购买或者下载的游戏，是否购买过保险，甚至是发过的红包……这些行为都会被记录成为几千个事实标签，假设暂且储存在你的隐私文件夹之中：可以称作是<事实标签数据源>。

搜集事实标签并不是难事，关键是在这堆杂乱的数据中建立数学模型，也就是实现大数据分析。这一个步骤很像是数学建模比赛中的建模阶段，需要通过一个合理的建模过程以及合适的算法来对数据进行处理。对于需要估计出个人偏好的事实标签来说，这个过程就叫做偏好估计。从这些杂乱无章的标签中找到你感兴趣的，最后构建用户画像。

而算法模型的建立更像是一个Excel数据处理文件，我们就把它叫做<偏好估计算法模型>。而这些算法有很多种，而且很多都是机密性质的，我们暂且用开源的基础算法稍作说明。举个例子，你在网上冲浪时，点开了一篇和美女标签有关的文章或者图集，但点开不意味着喜欢，也有可能是误点，所以接下来就要通过多个行为角度来判断你是否喜欢美女。

比如下面这个非常初级的内容喜好权重算法：兴趣标签（美女）权重 = 行为权重 x 访问时长 x 衰减因子行为权重：什么都不干 1 分，评论 + 0.5，点赞 + 0.5，转发 + 2，收藏 + 1时长权重：10S 以内权重为 0.5，10S－60S 为 1，60S 以上为 2衰减因子：0 - 3 天内权重为 1，3 - 7 天权重为 0.85，7 - 15 天权重为 0.7，15 - 30 天权重为 0.5，30 天以上权重为 0.1

行为权重是指你在浏览这篇文章的时候有没有点赞、转发、收藏和评论等行为，这些行为会对于一个分值，累加形成行为权重；时长权重用来量化你的浏览时间，在一定的时间区间内会对应相应的分值，点进来就退出那意味着时间权重趋于零，因此标签权重也会为零，算法判断出误点；最后，短期的阅读无法代表长期阅读，如果只是浏览一次，也会有衰减因子来进行模拟。对于上边这个算法，还要进行进一步的处理——将多种兴趣权重标准化。

具体的，在你每次浏览美女标签的内容都会经过上述算法生成一个兴趣权重，把一段时间的兴趣权重累加得到标签变量，然后再用BP神经网络中的log-Sigmoid函数进行标准化，可以得到一个有意义的兴趣标签值，这里取[0~10]区间。数值越高，意味着你对美女越感兴趣。

至于S型函数是什么，大家有兴趣可以自己学习一下，这个函数的目的就是用来求出多组相同数据（BP神经网络中叫神经元）的总和、目标值以及误差，相当于提取价值数据。再回到兴趣标签，除了内容兴趣，这种处理算法思路还可以处理消费兴趣，社交兴趣等等，计算出各自权重之后，在多维度建立起模型，进而表示出你的偏好。

再进一步，这些代表你偏好的偏好标签权重行还能够进行用户分类。假设你的美女兴趣标签的权重值是8，社交权重是2，消费能力是5，我们就可以建立起空间向量坐标，表示为R（8,5,2）。向量可以理解成一个空间固定指向的线段，非原点端对应一个坐标，就相当于是你的用户定位。一般的处理办法是，以此算出余弦值和空间两点点距离公式，把用户向量坐标带入球面坐标，就能够找出和你相似的人，然后进行用户分类。

而对于性别和学历等个人数据的估计则要通过对比法处理。把已知学历和性别的用户作为样本，一部分来测试准确度，另一部分用来训练模型，得到一个预测准确率高达90%的算法模型，但具体的操作算法就比较复杂了。总之，完成这些数据处理之后，平台就能得到一个用户画像，我们假设存在文件夹之中，可以叫做<算法预测结果>。这样，一个可以查到消费兴趣的消费者便被提供给各大广告主了。

在腾讯广告开放平台的后台，我们就可以看到这一“盛况”。用户的行为数据被处理到了出神入化的地步，而广告主甚至可以自己选择标签进行精准投放，价格低到1.5元每千次投放。还人性化提供消费者数据筛选，可以精确到用户去了几次机场，打了几次车。

最后，当你有过奶粉的消费记录之后，在某APP上即将浏览到广告位的时候，平台后台就会发起一次广告位“竞标招租”，那些出价高的会在广告位显示出来。于是，也就有了文章开头的那一幕。

值得一提的是，现在还有一种偏向于同类用户推荐的机制。通过行为推荐商品的效果往往会出现偏差，不如同类型用户推荐来的准确。具体做法是，先把你归类，找到和你兴趣偏好一样或者接近的人，把人家的浏览记录或者商品清单复制给你，这样的效果可能会好一点，但也不排除审美差异导致的“凌乱”。

需要再补充的是，平台追踪你的浏览痕迹并不是只对应你的手机号码，不信你试一试，即便你不登录某宝浏览奶粉商品，在你刷到抖音的时候也会出现奶粉广告。这是因为平台不止是对你的手机号码进行对应，还与你的手机唯一识别码绑定。这个唯一识别码，安卓机叫做IMEI而苹果机叫做IDFA。平台就是通过这个识别码来完成精准投放的，毕竟精准投放需要一个唯一能够代表你的东西。换句话说，你在广告平台那里就是一堆乱码！

不过，你也不用太过紧张，这些数据搜集并不会影响到你的隐私安全，更不会进行监听监视。根据我国的《个人信息安全规范》规定，商业广告商搜集个人兴趣标签应该严格依照相关条例，避免标签精确到个人，以保护隐私安全。而苹果用户还可以自己设置IDFA识别码权限，哪个APP能够访问你的数据痕迹，你说了算！

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

excel学习库

excel表格_excel函数公式大全_execl从入门到精通

为什么APP知道你想买什么？数字生活让人疑神疑鬼2024-02-28 12:25:06