今年“双十一”购物节提前到来,网上掀起了一股“电饭煲测试”热潮。测试规定,在某网购平台上搜索“电饭煲”,检索结果基本在三百元以下的就是“屌丝”,如在三百块以上则可以脱离此列。检索推荐结果与过往的消费行为有关,以前看的和买的越贵,现在搜到的电饭煲就越“上档次”,这几乎是人人都知道的大数据工作原理,也是电饭煲测试的基础。
以检索物品得到的价格高低来定位一个购买者的身份,无非是借用大数据为用户绘制行为画像。这种身份判定方式不仅过于武断狭隘,算法所生成的画像也不能等同于一个人的实际购买力以及对电饭煲这一商品的支付意愿,比如一个平时在衣饰或运动上有高消费的人,也不一定就想买一件高档厨具。
当一些网友自嘲该购物平台完全是高估了自己时,另一些人也在调侃着自己的“屌丝”身份。尽管很少有人严肃地对待这个测试,它还是给每个人明码标价,按照消费潜力把人分为上下两等。消费者希望借算法的便利在“双十一”买点实惠,算法却是“看人下菜碟”,早早建起了一条鄙视链。
电饭煲测试无伤大雅,但此种划分人群并区别待之的做法已经对用户权益以及社会公平造成了很大的伤害,国内国外都有大量的案例可以证明这一点。在国内,新闻报道一些负债者在多款视频和游戏软件中收到贷款广告,最后遭遇诈骗;在美国,一些穷人被营利性大学锁定,对文凭的渴望将他们拽入债务的深渊。
如果说前两个案例的受害者麻烦缠身又手头没钱,那么“大数据杀熟”则将刀口对准了更大范围的消费者。数学在现实生活中的应用刺激了经济的增长,与此同时,混乱和风险也在倍增。美国数学家凯西·奥尼尔在《算法霸权》中警告,以效益为首要目标的应用数学是一种“杀伤性武器”,它建立的模型不受噪声干扰,不受威逼与利诱,自然也对不公和不幸充耳不闻。它事先假设了一套道理,以此来进行计算,再用产出结果去自证合理,不容置疑。
掠夺式广告:击中“痛点”,而非量身定造
按照各人的需求、喜好和能力来推荐商品,这不是很好吗?毕竟,量身定制在过去是富人的特权,今天的算法却可以为所有人提供这种服务。这种想法难免显得有些自作多情,因为算法看到的是一群有相似行为和背景的人,而不是单独的、有差别的个体。奥尼尔曾在一家广告公司担任数据科学家,她意识到,互联网时代的广告营销与传统广告在本质上没有太大区别——不需要每个受众都买单,回应率达到1%就算成功;算法只是提高了效率,它掌握海量数据,能更精准地找到潜在客户并投放广告,即便你不点开链接,广告商也获得了一条有价值的数据——你对这条广告不感兴趣——从而调整营销策略。
更糟糕的是,某些广告针对的不是“需求”,而是“痛点”。这一术语在广告和互联网行业中大肆流行,居家需要卫生纸这样简单的事情已经不能满足商业增殖的欲望,一定要击中痛点,深挖需求,才能获取更多利益。对身材和容貌的焦虑、对贫困的恐惧以及对好日子的渴望,通通可以被当作痛点加以利用。依赖算法所建立的强大平台,掠夺式广告诞生了。
“在人们既有迫切需求又对具体提信息很无知的任何地方,你都能看到掠夺式广告……它们大规模聚焦于社会中最绝望的那群人。”奥尼尔在《算法霸权》中写道。营利性大学的营销即是典型案例之一。以科林斯大学为首的众多营利性大学将自己的潜在学生锁定为“孤立”“缺乏耐心”“低自尊”的人,他们可能是领取救济金的单身妈妈、药物成瘾者、家暴受害者、精神疾病患者等等,美国职业培训机构翡特罗特学院就曾将这些明文写入发给招生人员的指导手册。换句话说,如果你曾经在搜索引擎里检索过上大学的相关信息,或者在社交媒体上留下了脆弱的足迹,你就可能成为那个要被击中痛点的对象。
破产前,科林斯大学的营销团队每年大概有1.2亿美元的活动经费,他们把大部分钱投入谷歌和脸书,并运用这两个互联网巨头的海量数据来设计多个相互竞争广告,最终选定效果最好的那一个。自然语言处理技术的进步也助推了这一过程。花1.2亿美元追踪的240万个客户,最终能转换出6万名新生,回应率比1%还低,却足以让学校把高达6亿美元的回报揣入囊中。
贩卖焦虑、击中痛点的做法并不新鲜,但正如奥尼尔所说,算法覆盖的人群之大,从根本上改变了这些做法的性质——从前是一小部分人受到欺骗,现在的规模却足以拉大贫富差异,加剧不平等。她尖锐地指出,掠夺式广告“以寻找不平等并大肆利用不平等为己任”,它们提供的大多不是享乐,而是关于改变的承诺,承诺一个阶层晋升或解决眼前困境的机会,到头来竹篮打水可能已属不错,债务加身更是寻常。商家教唆客户向未来借款,现在才能赚得更多。
《算法霸权》[美] 凯西·奥尼尔 著 马青玲 译中信出版集团 2018-9
在教育之外,掠夺式广告猖獗的另一个领域是信贷。互联网时代,个人银行账户信息就和其他隐私一样被四处贩卖,那些生活拮据、欠债或者急需用钱的人在困窘之时看见屏幕上弹出小广告,心中也许觉得蹊跷,但又亟需抓住仅有的救命稻草,最后的结局往往就是被高利贷捆绑或者遭到诈骗。今年3月,经营电器公司的程勇就抱着这样的心态点开了手机某新闻客户端飘出的贷款广告,此时他刚好有一笔欠账即将到期,在填写了各种问卷和个人信息后,他接到了一个电话,接下来发生的一切就和普通诈骗案类似。
与其责怪受害者轻信,不如问责登出该诈骗广告的门户网站。据调查报道,诈骗团伙从经营不善的贷款公司那里买来了营业执照、银行对公账户等信息,又从公民隐私贩子手上买来私人信息,找到潜在诈骗对象。为了获取利益,门户网站广告代理商们放宽了审核标准,诈骗广告就在几种复杂程度不尽相同的算法助推下飞了出去。
大数据杀熟:不受噪声干扰的算法,更公正还是更无情?
财务状况差的人遭到算法歧视,花钱更多也可能成为受鄙视的原因。“千人千价”的大数据杀熟即是如此。“杀熟”的对象一般是消费意愿更高的人,可能买了会员,也可能习惯于订价格相对高的机票或酒店,但系统会因为这些记录给他推荐更贵的东西,隐藏便宜经济的选项,或者就同款商品向其收取更高的费用、给定更低的优惠组合。据澎湃新闻统计,今年4-7月,黑猫投诉平台收到了500多条关于大数据杀熟的投诉,其中有70%的人是在用不同账号查看同一物品时才发现了价格差。
上海人工智能研究院数字化治理中心总监彭家昊与研究院执行院长宋海涛认为,大数据杀熟得以实施,主要是因为平台与用户信息不对称、政府缺乏有效的监控手段。差异化定价模式极为隐蔽,即使用户后来有所察觉,往往也会因举证难度大、维权成本高而放弃诉讼,与之相对应的则是平台侵权的低成本。我国目前针对此问题的举措大部分限于事后处罚,去年12月22日,国家市场监管总局联合商务部组织召开规范社区团购秩序行政指导会,明确要求各大网络平台严格遵守“九个不得”,禁止利用数据优势进行杀熟行为,但很快又有平台爆出杀熟案例。
若深究其中更根本性的原因,可能在于算法对目标的执行比人类更坚决、更不受干扰。继“偏差”之后,诺贝尔经济学奖得主丹尼尔·卡尼曼与另外两位决策领域的专家提出了“噪声”的概念。偏差是思维在判断时产生的系统性误差,噪声则是判断中“不必要存在的变异”,比如当医生们对同一位病人的病情各执一词时,噪声就产生了。借用这个概念来看大数据杀熟,我们可以发现,算法有偏差,但不受噪声影响,它既不真的对贫穷有情感和道德上的鄙视,也不会在富贵面前卑躬屈膝,于它而言,对待二者只不过需要采取不同的策略来谋取钱财,最终完成自己的目标。
《噪声》[以色列]丹尼尔·卡尼曼 [法]奥利维耶·西博尼 [美]卡斯·R.桑斯坦 著李纾 汪祚军 魏子晗 译湛庐文化·浙江教育出版社 2021-9
卡尼曼等人认为,和偏差一样,噪声也可能导致严重的不公平问题,但比起既有偏差又有噪声的人类判断而言,算法还是具有独特的优势——至少它可以排除噪声的影响,至于偏差的部分,人类可以重新设计算法规则、找到更好的训练数据,在理论上都可以让算法变得更好,尽管这一做法代价高昂。曾经深度参与金融工程的奥尼尔没这么乐观,2008年的金融危机彻底改变了她对数学应用的看法:算法促使“有着巨大缺陷的系统加速运转”,更致命的是,它“像上帝一样隐晦不明”,无辜的人不知自己错在了哪里,又投告无门,因为上帝的存在即自证了其裁判的合理性。在奥尼尔看来,算法建立之初就假设了一套内置的逻辑来定义所处理的状况,之后它再用这个定义去证明输出结果的合理,因而有的模型即便出于好意也可能表现得刚愎自用,结果相当糟糕。
2007年,纽约华盛顿特区开发试用了一个叫做IMPACT的教师评估工具,希望通过处罚机制来刺激教师们提高业务水平,从而保障学生得到更好的教育。但仔细考虑一下,学生成绩不够好是因为教师水平不足,这个假设真的成立吗?学生的家庭关系、生活状况不也影响着他们的学习状态吗?IMPACT的运算结果基于一项简化和扭曲了因果关系的假设,执行者却将之混淆为实际情况,结果是两个学年后,特区开除了评估排名垫底的206名教师,其中不乏学生和家长公认的好老师。IMPACT只需要开除教师就能证明自己工作的有效性,学生、老师和家长的真实反馈和诉求被当作噪声屏蔽,这一点颇为讽刺。
我们固然可以像卡曼尼一样,期待这类算法不计成本地取得突破,更好地服务于人类,但面对那些目标不那么善意,甚至不顾正义和群体福祉的算法,又该怎么办呢?毕竟在现实生活中,造成巨大伤害的是那些人力调度系统和消费平台,如果只考虑如何让算法臻于完善,而不正视目标性质及其背后的机制,人类所打造的也不过是一台效率更高且对准自身的“收割机”。