凌晨三点,在加州大学洛杉矶分校(UCLA)数学系大楼五楼的一个拥挤小隔间里,只要一只灯胆和一台计算机的屏幕发出亮光。克里斯·麦金利(Chris McKinlay)正在为他的博士论文《大规模数据处置和并行数值办法》跑法式。计算机发出嘎嚓声,他点击翻开第二个窗口,查抄了一下他在交友网站OkCupid的收件箱。
约有4000万美国人利用Match.com、J-Date和e-Harmony等交友网站寻找浪漫恋情,35岁的麦金利就是此中之一。他身段瘦高,头发混乱,自从九个月前跟前女友分手之后,他就不断都在寻找新恋情,但迄今为行都是徒劳无果。
OkCupid号称能够用算法找到跟你婚配的约会对象,麦金利已经向数十位婚配度不低的女性发送了私信,但大多石沉大海。只要6小我跟他见过面。
OkCupid的运做体例
2012年6月的阿谁清晨,当麦金利的编译器在一个窗口中显示机器代码,他的交友账号在另一个窗口中默默发愣时,他突然意识到本身做错了一件事:他之前就像其他通俗用户一样利用网上交友办事。那时他觉得,本身应该像一个实正的数学专家那样去寻找约会对象。
OkCupid是哈佛大学数学专业的学生在2004年创建的,它最后吸引用户的处所是能够利用算法来婚配会员。会员需要做大量的多项选择题,那些问题涵盖了包罗政治、宗教、家庭、爱、性、智妙手机在内的方方面面。好比:
“以下哪项最有可能吸引你去看一部片子?”
“宗教或神对你的生命有多重要?”
问题总共有数千个之多。均匀而言,一个用户会挑选此中350个问题来答复。此外用户还能够指定只承受潜在朋友的何种答复,并用打分的体例申明那个问题对本身有多么重要:0代表“不重要”,5代表“必不成少”。
然后OkCupid的婚配引擎就会利用那些数据来计算两小我的婚配度。百分比越接近100%就越婚配。100%暗示你们是灵魂朋友。
麦金利的问题
麦金利跟洛杉矶女性的婚配度几乎蹩脚透顶。因为OkCupid算法所利用的问卷问题,仅仅是两边都选择答复了的问题,而麦金利在选择答复哪些问题时比力随性。事实证明,他选择答复的那些问题良多人都不会选。
洛杉矶大约拥有200万女性,此中约有8万人利用OkCupid交友办事。但是查看一下麦金利的婚配列表,只要不到100名女性跟他的婚配度到达90 %以上。在交友网站上,婚配度就相当于可见度,麦金利的可见度如斯之低,跟鬼魂也差不几。
麦金利意识到,他必需增加跟他婚配度在90 %以上的女性人数。若是能够用统计抽样来确定哪些问题对他喜好的那类女性来说很重要,他就能够修改本身的小我账户材料,老诚恳实地答复那些问题,不再去费心其他问题了。如许一来,可能合适他的每个同城女性城市呈现在婚配列内外,而不合适他的女性一个都不会呈现。
从中文系到数学系
关于一名数学专家来说,麦金利的履历有些差别寻常。他在波士顿市郊长大,2001年从明德学院结业,获得了中文学位。昔时八月,他在纽约做兼职,帮忙世贸中心北楼第91层的一家公司把中文翻译成英文。五周后9.11事务发作了,第一架飞机在上午8:46碰上世贸中心北楼。幸而麦金利阿谁时候不妥班,正在家睡觉。
“自那之后,我问本身,我实正想做的工作是什么。”他说。一位伴侣将他招进了出名的“麻省理工21点小组”的一个分组,在接下来的几年中,他在纽约和拉斯维加斯之间飞来飞去,靠算牌赚到了6万美圆的年收入。
“麻省理工21点小组”由麻省理工学院和哈佛学生于1979年组建,曾屡次打败拉斯维加斯和大西洋城的浩瀚赌场。Blackjack又称21点,是各地赌场最热门的牌桌项目之一。那在很大水平是因为21点其实不完满是试试看,而要求玩家拥有对数字的灵敏反响、娴熟的算牌手艺和冷静沉着的心理。
那段履历激发了他对应用数学的兴趣,他起头攻读数学硕士学位,然后又继续读博。“数学系的学生在良多情况下都能够用到本身的专业,”麦金利说。“好比玩一些新游戏,‘三张牌牌九’之类的,然后回家写一些代码,找出一个战略来打败它。”如今,他要为了恋爱做同样的工作。
用假账户搜集数据
起首,麦金利需要数据。就在那天凌晨,他的论文使命继续在另一个窗口里跑的同时,他设置了12个OkCupid假账户,并编写了一个Python脚原来办理它们。那个脚本会搜刮麦金利的目的人群(25至45岁之间的异性恋和双性恋女性),拜候她们的网页,并在她们的小我材料里搜集所有可用信息:种族、身高、能否抽烟、星座,所有一切。
为了获取问卷数据,他必需做更多的侦查活动。在OkCupid上,只要当你本身答复过某个问题时,你才能够看到他人对那个问题的答复。于是麦金利编写了bot机器人来随机答复每一个问题(假账户的目标不是用来吸引约会对象,所以它们是怎么答复问题的其实不重要),然后把目的人群的答复搜集到本身数据库中。
麦金利满意地看着机器人忙繁忙碌。但是,在搜集了约1000份小我材料之后,他碰到了第一个障碍。 OkCupid接纳了一个系统来避免那种数据搜集活动:它能够垂手可得地发现那种持续、快速的活动。麦金利的机器人一个接一个地被禁了。
克制第一个障碍
他必需训练那些机器人,让它们的活动显得有人味。
麦金利找到了他的伴侣山姆·托里西(Sam Torrisi)。托里西是个神经学家,比来跟麦金利停止了“技能交换”:他教麦金利音乐理论,麦金利教他高档数学。
托里西也是OkCupid的用户,他同意让麦金利在本身的计算机上安拆间谍软件,跟踪本身利用那个网站的体例。有了那种数据,麦金利就能够模拟托里西的点击和打字速度给机器人编程了。
麦金利从家里搬来了第二台计算机,把它接到数学系的宽带上,让机器人每天24小时不连续地运行。三周后他就从全美各地2万名女性用户那里搜集了600万条问题和答复。
麦金利如今一头扎进了那些数据,完全把博士论文当成了副业。原来他就已经常常在小隔间里留宿,如今他几乎不回公寓了,完全搬进了那个小隔间。到了睡觉的时候,只要在办公桌上铺上薄薄的床垫,就能够躺上去了。
女性用户的七品种型
麦金利的方案要想奏效,就必需找出问卷数据中的规律——按照数据的类似性,把女性分为大致几个类型。
贝尔尝试室(Bell Labs)有个名叫K-Modes的算法,最早是在1998年投入利用,用来阐发病变的大豆做物,它能够把具有类似性的数据固结在一路。麦金利对它做了一些微调,以便调整成果的粘度。然后他用那个修改后的算法来处置搜集到的问卷数据。
他调整刻度盘,发现了一个点,能够按照2万名女性的问题和谜底,把她们分红七个在统计学上具有明显区此外类型。“其时我欣喜若狂。”他说。
他给机器人从头分拨了使命,以便搜集另一个样本: 5000名在过去一个月内登岸过OkCupid的洛杉矶和旧金山女性。然后他再用修改正的 K-Modes算法处置她们的问卷数据。成果那些女性用户也以同样的体例被划分红七个类型,证明他的统计抽样办法确实有效。
目的锁定两品种型
在那一步,麦金利的使命是选择最合适本身的类型。他从每个类型中抽取了一些小我材料来查看。有一个类型太年轻,有两个类型太年长,还有一个属于基督教徒类型。
有一个类型让他很感兴趣:她们大多二十多岁,看上去挺拔独行,参与音乐和艺术活动。麦金利希望在那个类型中大海捞针,找到他的实爱。
现实上,还有一个类型看起来也很酷——年龄稍大的女性,是缔造性工做专业人士,好比编纂、设想师。他决定两个类型都尝尝。于是他创建了两份小我材料,别离为两个类型做了优化。
他对那两个类型女用户的文字信息停止了发掘,以便领会她们对什么工具感兴趣。他发现教学是一个热门话题,于是他写了一篇毛遂自荐,强调本身是一名数学教师。
精准营销
但是,最重要的是问卷问题。他挑选出在那两品种型中更流行的500个问题,诚笃地填写了谜底——他不想把本身将来的关系成立在计算机生成的谎话上,但是他会让计算机算出应该若何给每个问题的重要性打分。他利用一种名为“自适应提拔”(adaptive boosting)的机器进修算法来计算更佳分数。
就如许,他创建了两份小我材料。一份上传了他攀岩的照片,另一份上传了他在一次表演中弹吉他的照片。
“不管将来的方案若何,眼下更吸引你的是什么?是性仍是恋爱?”那是500个流行问题中的一个。答复当然应该是“恋爱”。但他根据“自适应提拔”的成果,关于较为年轻的A组,给该问题打分为“十分重要”,而关于年龄稍大的B组,他则给该问题打了5分,即“必不成少”。
当答复完最初一个问题并给它打分之后,麦金利在OkCupid长进行了搜刮,根据跟本身的婚配度来摆列洛杉矶女性用户。第一页的女性跟他的婚配度高达99%。他继续向下滚动页面,曲到一万名洛杉矶女性之后,他仍然跟她们有90%以上的婚配度。
私信滚滚而来
要引起那些女性的留意,麦金利还需要做另一件事。 在OkCupid上,每当有人阅读你的小我材料时,你就会收到提醒。所以麦金利写了一个新法式,专门去查看跟他的婚配率更高的女性用户的页面。
那个法式根据年龄挨次停止阅读:周一阅读1000名41岁女性的页面,周二阅读1000名40岁女性的页面,以此类推,不断到两个礼拜后,阅读1000名27岁女性的页面。在那些用户中,有大约400名女性也反过来查看了麦金利的小我材料。成果私信滚滚而来。
“我到如今为行还没有碰到过算牌很凶猛的人,我觉得你的小我材料很有意思。”一位女性用户写道。“我想跟你打个号召。”
“嗨,你的小我材料确实感动了我,我想跟你打个号召。”另一位写道。“我认为我们之间有相当多的配合点,也许不是数学,但必定有良多其他方面!”
“你实的能翻译中文吗?”还有一位问道。“我参与过一个中文培训班,但效果其实不好。”
前三次约会
到了如今,需要用到数学的部门已经完成,只剩下一件事要做了:麦金利必需分开他的小隔间,去跟她们约会。
6月30日,麦金利在加州大学洛杉矶分校的健身房洗了澡,开着他的陈旧日产车,去赴第一个约会。希拉(Sheila)是一位网页设想师,来自A组,即较年轻的艺术类型。他们在回音公园的咖啡馆共进午餐。 “那实是可怕,”麦金利说。“曲到那一刻之前,那件事几乎都是一个学术活动。”
此次约会完毕时,情况已经很明显:两小我不来电。第二天,麦金利继续赶赴第二个约会,此次是一个富有魅力的博客编纂,来自B组。
麦金利本筹算跟她沿着回音公园的湖浪漫地散漫步,但却发现挖泥船正在湖里疏浚。她爱读普鲁斯特的做品,对本身的生活感应忧伤。“那个比力负能量。”他说。
第三个约会对象也来自B组,名叫艾莉森(Alison)。他们在韩国城的一间酒吧见了面。她是一个学编剧的学生,肩膀上有斐波那契螺旋的纹身。麦金利喝韩国啤酒喝醒了,第二天在小隔间醒来的时候,履历了痛苦的宿醒。他在OkCupid上给艾莉森发了一条私信,但她没有回。
成为约会游戏中的强者
被回绝的觉得欠好受,但麦金利仍然每天都能收到20条私信。有了计算机算法的撑持,他在约会游戏中占据了主动地位。
还记适当初,麦金利主动给他人发私信的时候,每发3到5条私信才会获得一个约会时机。但如今,他人发给他的私信,只要他看不顺眼,就一概无视。他只回应那些具有诙谐感,或小我简介很有意思的女性。并且,他只需要简单地回答“你看起来实的很酷。想碰头吗?”根本上就能搞定一个约会。
在去赴第20个约会时,他留意到了新的规律:比力年轻的A组女性老是有两个或两个以上的纹身,而且住在洛杉矶的东部。在B组,养有中型犬的女性人数非分特别多。
最后几次约会时,他还精心做了筹办。但是,跟着次数的增加,他把约会形式改成了休闲式的午餐小聚或是喝咖啡,并且常常一天赶赴两场约会。
进步约会效率
麦金利还为那场马拉松式的恋情搜索动作造定了一套小我规则,好比不要喝酒;时间到了就完毕约会,不要拖拖沓拉;不要去听音乐会或看片子。“把留意完全放在对方身上。”他说。“不然效率很低。”
在第一个月,他同时约会A组和B组女性。一个月后,他不想再约会有纹身、住在洛杉矶东部的女性了,因为不想花太多时间在路上。于是他删除了面向A组的小我材料。
那下子他的效率进步了,但成果仍是一样。夏日即将完毕,他赴约的次数超越了55次。每一次约会都被他尽职尽责地记录在了一个尝试室条记本上。只要三小我停止了第二次约会,只要一小我停止了第三次约会。
大大都不胜利的交友者城市觉得自尊心受损。关于麦金利来说,情况更是落井下石。他对本身的计算思绪产生了些许思疑。
实爱现身
那时,他收到了王婷(Christine Tien Wang,音译)的私信。她28岁,是一名艺术系学生,撑持拔除监狱的活动,希望寻找一位6英尺(1.82米)高,蓝眼睛,住在加州大学洛杉矶分校附近的男伴。她在那所学校攻读美术硕士学位。他们的婚配度是91%。
两人在学校里的雕塑园见了面,然后从那里步行到了校园里的一间寿司店。他一起头就觉得跟王婷很投缘,两人议论了册本、艺术和音乐。
王婷认可,在给麦金利发私信之前,她对本身的小我材料停止了调整,而那时,麦金利就把本身用法式和算法寻找女伴的过程原本来本告诉了王婷。
“我觉得那有点暗中,有点玩世不恭。”她说。“我喜好。”
那就是麦金利跟88号密斯的第一次约会。很快他们又停止了第二次约会,第三次约会。两个礼拜后,他们各自暂停了OkCupid上的帐号。
“我觉得,跟OkCupid上其他所有用户做的工作比拟,我只不外多用了一点算法,活动规模更大一点,还利用了一些机器进修手艺。”麦金利说。每小我都试图创建更佳版本的小我材料——他只不外是拥有一些数据来帮忙他做到了那一点。
后续开展和深思
麦金利和王婷的第一次约会已颠末去一年多了。如今麦金利已经拿到了数学博士学位,是一名数学教师,目前在读音乐研究生。王婷则获得了卡塔尔为期一年的艺术奖学金。她时不时回到加州探望麦金利。他们不断在Skype上连结联络。
在王婷看来,麦金操纵OkCupid找女友的故事很有趣。但是,关于他们的恋情来说,数学常识和编码技能起到的仅仅是序幕感化。在爱情关系中,关键的是两人碰头之后发作的事。
“实人比小我材料复杂得多。”她说。“所以我们碰头的体例可能比力浅薄,但之后发作的一切都不浅薄。那是辛苦培育得来的。”
“并非说我们婚配度高,就会有优良的关系。”麦金利同意那个观点。“那只是一种让我们走到统一个房间的体例。我能够操纵OkCupid来找到适宜的人。”
王婷说:“你没有找到我。是我找到你了。”麦金利思虑了一下,然后认可她说得对。
在一次Skype通话中,麦金利掏出一只钻石戒指,把它放在收集摄像头前。她容许了他的求婚。
他们不确定会在何时成婚。要找出更佳的成婚日还需要做一些研究。
做者:Kevin Poulsen
译者:Kathy


