首页 > 管理 > 问答 > 管理经验 > 数据挖掘专家,哪些数据分析和数据挖掘的牛人

数据挖掘专家,哪些数据分析和数据挖掘的牛人

来源:整理 时间:2022-04-28 17:27:58 编辑:管理经验 手机版

1,哪些数据分析和数据挖掘的牛人

云速挖掘的牛人很多的,效果还不错,可以了解。
可以在网上看看资料,一般大牛都会自己有独创的视频分享。
http://www.kdd.org/kdd2017/organizers

哪些数据分析和数据挖掘的牛人

2,国外在数据挖掘方向实力比较强的高校有哪些有哪些比较出名的专家

当然是麻省! 数据挖掘是八十年代,投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。选择数据挖掘这一术语,表明了与统计、精算、长期从事预言模型的经济学家之间没有技术的重叠。 麻省理工学院在数据挖掘的研究方面作了卓越的贡献,一个典型的例子是:对银行信用卡客户信用评级的模型运行得非常成功!
剑桥或者是墨尔本好像。 再看看别人怎么说的。

国外在数据挖掘方向实力比较强的高校有哪些有哪些比较出名的专家

3,专家系统与数据挖掘有何区别和联系

联系: 专家系统与数据挖掘都是从一堆数据中找出有用的信息,都需要收集大量的原始数据后才能进行处理。可以说专家系统是数据挖掘的一种。 区别: 专家系统一般面向特定的主题,即专家系统已经把相应专家的经验转化成一些算法保存起来,在分析时调用相应的算法对特定的数据进行分析,得出相应的结果。 数据挖掘往往用多种算法对特定的数据进行分析,其结果往往不能预先知道,例如超市中小孩尿布和啤酒放在一起会提高销量就是从数据挖掘中得出来的结果(事先没有任何营销专家能有这样的预测)。
这个问题比较专业。 专家系统包括推理机和知识库,当某一工业流程运行时,采用专家系统来管理,实际上就是用电脑来代替人脑或人工。当出现某一状况时,推理机开始工作,通过日常及学习(通常采用神经网络来实现),可以对状况作出判断,与知识库沟通,得出处理方法,可以提示用户,也可自动处理。 而数据库,相对来说就普通多了,可以是为知识库服务或为知识库的一部分。 不知可否对你有帮助。

专家系统与数据挖掘有何区别和联系

4,数据专家是什么软件

展开全部 数据专家(Datist)是长安大学数字油田研究所联合西安数源软件有限公司推出的专用服务于大数据时代的场景式(Context)数据分析与数据挖掘工具软件。该软件根据用户场景组织数据加工业务流程。最大的特点是通过可视化的节点组合来完成数据的获取、组织、信息提纯与有形化表达。整体设计上遵循零代码原则,对用户来讲不需要了解复杂的数据编程技术,仅需要排列和组合各种功能节点之间的连接即可以实现对海量多元数据的管理与信息挖掘。主要面向的用户群是那些需要从海量数据中寻找变化、从数据模型中发现答案的人。 该软件具有三方面特点: (1)多元数据的访问能力,软件具备对几户全部主流数据库、对结构化与非结构化数据文件、甚至对网络服务和网页内容中数据的访问能力,从常用的文本记录、Excel表格到大型的Oracle数据库都可以在数据节点中完成端到端的数据流对接过程。 (2)全场景式的流程设计,软件设计针对不同的用户应用场景,提供了百余种数据处理节点,用户完全在可视化环境中通过组合节点来控制数据处理流向。通过不同的业务场景设计,可以将数据分析流程持久化地以工程或是服务形式保存到本地或云端,实现各行业的数据分析的场景式应用。 (3)多种数据有形化输出,对于数据分析和挖掘成果,该软件提供报表、图件和模型文件三种形式的有形化输出。在报表输出模式下,通过可配置的报表工具,用户可以设计定义各种样式的最终报表形式,再也不需要为填写报表而必须面对的诸如拷贝、粘贴等繁杂重复性劳动。在图形输出模式下,支持常见的二维图、三维图、地理信息专题图以及自定义图件等多种形式的图形生成。在模型文件输出模式下,用户可以对数据成果进行打包,进一步实现数据分析成果与其它软件之间的交互与共享,支持如XML、KMZ等多种数据格式。 应用该软件可以有效地改善、解放更多的生产力、提高工作效率、并通过敏捷地变更分析流程或统计模型,来实现从当今浩瀚的大数据中,更快地发现数据想要告诉我们的故事。为预测未来的数据变化与业务模型变更提供场景式数据分析工具。

5,星球日报 业内首例区块链公司用token收购上市公司股份京东推出

编者按:本文来自36氪战略合作区块链媒体“Odaily星球日报”(公众号ID:o-daily,APP下载)

头条

区块链公司Penta用加密货币收购澳大利亚证交所上市公司,成业内首例

据Penta(PNT)官方宣布,Penta成功完成用其Token(PNT)对澳大利亚主板上市的物联网公司CCP Technologies(CTI)股份的战略投资,该收购已获得澳大利亚证监会批复。 据澳交所主板上市公司CCP Technologies(ASX:CTI)公告,Penta基金会用其Token(PNT)完成了对其约2800万股的战略投资。

数字货币

数字货币总市值超过2049亿美元,相比较昨日有所下降

据Coinmarket数据显示:数字货币总市值超过 2049 亿美元,24 小时成交量接近超过129亿,相比昨日,数字货币总市值以及24小时成交量均有所减少,资金处于小幅流出状态。

研报:本周以太坊活跃地址数下降12.8%

火币区块链今日发布大数据周度数据洞察报告,本周比特币活跃地址数从345万降至333万,其中新建地址数较上周134万下降至131万个;重新激活地址数为144万,比上周下降5万。本周以太坊活跃地址数下降12.8%,从151.2万减至131.9万。EOS本周链上交易笔数为5310万笔,较上周上升10.2%。

BCH开发新的支付平台,将推广至小零售商

BCH支付钱包Handcash的开发者宣布,他们将推出一款名为“Handcash Pop”的新配套应用。Pop平台为手持现金的用户提供了一个销售点(PoS)平台,这个平台与他们的钱包挂钩,这样商家就可以更容易的接受BCH支付。开发团队称:“Pop是一款针对小零售商的应用程序,它将允许客户在您的商店或酒吧内使用BCH付款。”

比特币对里拉的比值已经从7月30号盘中高点下跌22%,该趋势的扭转主要是因为周三卡塔尔承诺贷款150亿美元改善了市场情绪。土耳其财政部长Berat Albayrak的讲话进一步改善了里拉的基本面,今天里拉兑美元汇率上涨2.5%。之前美国提高土耳其钢铁和铝关税使的里拉价值周一跌至0.139美元的历史低位,比特币成为资金避风港,在里拉大幅下跌时,土耳其两家最重要的加密货币交易所交易量增加了100%。8月8日起,比特币对里拉飙升了32.8%,是同期比特币对美元的三倍。

区块链产业

星球日报讯,京东今日举办智臻链区块链服务平台发布会,会上宣布正在推出京东区块链开放平台,以帮助企业客户构建、托管和使用他们自己的区块链应用程序进行运营管理。

蚂蚁金服区块链携手航天信息试水区块链医疗电子票据服务,从8月2日开始以来,已经有近60万张医疗电子票据主动发送给患者或被患者扫出。蚂蚁金服区块链业务专家杨雪清表示,杜绝重复报销,是区块链医疗电子票据更大的价值。

预计年内不会出现区块链相关的重大销售额

美国芯片巨头英伟达公布财报显示,今年第二季度,总体营业收入和盈利都高于华尔街预期,但数字货币挖矿相关的芯片销售额较一季度剧减约94%。英伟达首席财务官Colette Kress表示,公司原本预计,挖矿相关的芯片销售额二季度约有1亿美元,但实际上只有1800万美元。现在公司预计挖矿未来不会带来任何收入。该公司报告称,数字货币矿业的销售额明显低于第二季度的预期,预计今年剩余时间内不会出现与区块链相关的重大销售额。

美国海关和边境保护局将在9月启动区块链试点

美国海关和边境保护局(CBP)业务转型和创新部门主管Vincent Annunziato近日表示,CBP将于9月开始使用区块链技术验证NAFTA和CAFTA原产地证书。Annunziato补充说,如果区块链得到所有参与者的支持,包括私营部门和CBP的47个政府合作机构 ,它可能引领无纸化的国界。

全球政策

河北印发三年行动计划,区块链列入雄安重点突破关键共性技术

河北省“大智移云”发展领导小组办公室印发《河北省大数据产业创新发展三年行动计划(2018-2020年)》,计划指出,升级完善新区网络基础设施,开展5G试商用,推动大数据、互联网、人工智能、物联网、车联网、区块链、量子通信等新一代信息技术在城市管理、便民服务、产业发展中融合应用。重点突破海量数据存储、数据清洗、可视化、边缘计算、高性能计算等关键核心技术,开展智能感知、人机交互、区块链、数据挖掘算法、虚拟现实(VR)、增强现实(AR)等关键共性技术。

上海市政府与蚂蚁金服签署战略合作协议,将发挥区块链等方面的优势

上海市政府与阿里巴巴、蚂蚁金服16日签署战略合作协议,蚂蚁金服将发挥区块链等方面的优势,积极参与上海金融业的发展,共同推进上海国际金融中心建设。

蒙特利尔银行和安大略省教师退休金计划使用区块链测试了加元债务协议。据称,在交易测试中,蒙特利尔银行向教师养老基金出售了2.5亿加元(约1.9亿美元)的一年期浮动利率存款票据,并利用区块来进行交易。这是区块链技术首次用于加元“固定收益交易”中。蒙特利尔银行BMO资本市场部门已经建立了一个基于区块链的样本结算系统,使发行人和买家能够借助区块链技术跟踪交易。据报道,蒙特利尔银行的目标是利用区块链技术确保节省大量合规成本、财务报告以及法定交易清算和结算的安全性。

交通银行已开立20笔区块链国内信用证

截至今年7月26日,交通银行累计开立区块链国内信用证20笔,金额达1.56亿元。2018年4月份,交行区块链国内信用证项目投产,实现了信息和单据的端到端传输,减少单证邮寄的中间环节,极大提高了国内信用证项下交易速度,大幅降低交易成本。

人物·声音

上交所原总工程师白硕表示:区块链行业的乱象很多,主要还是项目质量参差不齐,没有一个共同的标准。现在的市场是没有门槛的,没有门槛的投资市场肯定是不行的。而对于技术精英和传统优质资产能否在短期内进场,我并不持乐观态度。在我看来这么多乱象背后最根本的一条就是,项目方的信息不对称。信息不对称也一定会对行业产生深远的影响

赵长鹏与瑞波高级副总裁会面,市场推测币安在XRP方面将有大举动

今天TechCrunch 创始人Michael Arrington发布了一张其与币安CEO赵长鹏与瑞波高级副总裁Ethan Beard三人会面的照片,市场猜测币安在XRP方面有大举动。瑞波的粉丝推测这可能是币安将把XRP作为法币兑加密货币新选择添加到一个新的交易平台,或者采用xRapid,又或者将XRP作为基础对添加到交易平台的一个标志。

(我是 Odaily 星球日报作者莫昕楠,探索真实区块链,优质区块链项目寻求报道请加微信:16601131135,烦请备注姓名、公司、职务。)

6,想成为优秀的数据科学家前提是心中有数

2013年的夏天,一匹红褐色的赛马静静地站在纽约州北部的一个马厩里,它比一般的赛马体型略大一些,有着黑色的鬃毛。它是那一天被拍卖的152匹赛马中的一匹,也是那一年被拍卖的1万匹1岁大的赛马之一。

它还没有名字,人们就用它的马厩的编号来叫它,赛马第85号。它谱系(pedigree,也就是遗传因子,是传统评估赛马最重要的因素之一)不错但也没有十分突出。它的父亲是顶尖的赛马,但它父亲的其它孩子都不太成功。

另外,它的膝盖上还有一个划痕,有些买主担心是因为受伤留下的。它的主人——Ahmed Zayat, 准备把它卖了,再买另外几匹马。像其它的买主一样,Zayat也雇了一个专家团队来替他选马。一般的选马的专家都来自于肯塔基或者佛罗里达乡村来的养马世家。中年男人可能没有受过太多的教育。但这次Zayat的团队有些不同,这个团队的负责人——Jeff Seder是从哈佛大学毕业的。

经过几天的评估,Jeff告诉Zayat,他无法帮他找到合适的赛马,相反,Seder几乎是用乞求的口气对Zayat说,“不要卖你的马,就是卖了你的房子,也不要卖你的马!”第二天,赛马第85号以30万美元成交,买主叫Bloodstock,其实Bloodstock就是Zayat本人。在这次拍卖中,62匹赛马卖出了比85号高的价钱,其中有两匹马超过了100万美元。3个与之后,85号赛马终于有了自己的名字——American Pharoah。18月之后,在纽约郊区的一个周六的夜晚,American Pharoah成为了30年来第一匹得到三连冠的赛马。

图片:摘自网络

那么是什么原因让这个哈佛的毕业生这么有自信选择American Pharoah呢?

Seder从哈佛毕业之后,有继续拿来一个法律和一个商学院的学位。像大多数有相似背景的人一样,他毕业之后就去了华尔街。

一天,在公司里他被一张有着辽阔的旷野的油画所吸引,这张油画激起了他内心对乡村生活的向往以及对马的热爱。第二天,他就辞职搬到了宾夕法尼亚。选赛马是非常具有挑战性的。传统的方式认为遗传是最重要的因素。但是如果我们看看数据,所有年度赛马(每年赛马的最高奖项)的后代,有3/4没有赢得任何主要的赛事。

当然传统的方式也会看其它的信息,如马跑的姿态。但关键是没有任何大家都认为有效的标准。由于又有大量的热钱,使得整个系统变得非常低效。10年前,一匹两个有史以来最好的赛马的后代,被1千6百万卖出,但只赢了3场比赛,共得到1万美元的奖金。所以,Seder不想使用任何传统的方法,他只对数据有兴趣。他对马进行各种的测量,包括鼻孔的大小,心率,肌肉,甚至粪便的重量。但都没有什么结果。

直到12年前,他有了突破,他决定去测量内脏的大小,他发现左心室的大小和马的成功非常相关。他通过对马跑的姿势的数字化处理,发现一些和成功相关的姿态。他还发现跑一会儿就发出哮声的马,这些马有的会卖出上百万,实际上很少会成功。通常在1000匹赛马中,只有10匹可以通过Seder的数据标准。而第85号赛马,它的左心室的大小是99.61%,加上其它的数据,Seder预测它是一匹10万里挑一,甚至百万里挑一的赛马。

这一次,他是正确的。

上面这个故事是我在Stephens-Davidowitz, Seth写的《Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are》中看到的,有兴趣的同学可以看看。

而朋友圈前一阵还流传着一篇关于林彪的文章,题目有些标题党《林彪:玩大数据的鼻祖》。是说在辽沈战役开始后,林彪每天深夜都要值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。林彪的要求很细,俘虏要分清军官和士兵,缴获的枪支,要统计出机枪、长枪、短枪,击毁和缴获尚能使用的汽车,也要分出大小和类别。一天,他听参谋汇报的时候突然说“停”,问“刚才的念的在胡家窝棚那个战斗的缴获,你们听到了吗?”,在大家一脸茫然的时候他连问了三句:

“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”

“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”

“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”

他就次判断,那个战斗发生的地方,就是敌人的指挥所。他命令部队乘胜追击,并且传达下口号“矮胖子,白净脸,金丝眼镜,湖南腔,不要放走廖耀湘!”。刚刚庆幸脱身的廖耀湘,就这样成了俘虏。林彪之所以可以做出准确及时的判断,是和他的数据积累和对数据的敏感分不开的,可以迅速在数据中发现异常点。“数据的积累、数据的挖掘、分析、归纳、整理,是一支优秀团队所必须具备的基本素养,没有它,你永远是匹夫之勇。”文章在最后这样总结到。

今年5月去杭州参加王坚博士发起的2050大会,去听了一个非常另类的论坛“中国一亿少女正在改变世界”。都是大V,网红,微商,就是想去了解一下她们的想法是怎样的,她们的世界是怎样的,她们的故事又是怎样的。

我印象最深的一位演讲者,她讲她是怎样从一个家里都没有门的农村走出来,一步步的走向成功的。她刚刚从农村到上海的时候,靠押了自己的身份证拿尾货到街上卖。但她不是盲目的卖,她发现她卖货的那条街,有非常多的大学生情侣,她就把货组成情侣体恤衫,基本上别人卖一件,她就可以卖两件。另外她从来没有被城管抓到过,不是因为她找了个城管的男朋友,而是她发现城管都是从街的两头开始抓人的,她就尽量在街的中间摆摊儿。就这样,她成了那条街上最成功的小贩,后面进一步成为成功的淘宝店主,成功的微商。

一个是哈佛的高材生,一个是统帅千军万马的将军,一个是成功的电商。他们或许没有一个人听说过大数据这个词,也可能并不知道什么是AI。但他们具有了一个在我看来数据科学家最重要的特质,就是心中有“数”。

心中有数实际上是包含了两个能力,一是观察能力,二是分析的能力。Seder观察到对于赛马的评估,方法非常传统,而且效果很差,他分析出这里面有非常大的就机会,用现代统计的方式颠覆了整个行业。林彪持续的观察每一次战斗结束后俘虏和战利品的情况,通过分析掌握了其中的规律(从统计学上说就是均值和方差),所以当一旦这些值偏离出正常的范围,他就可以敏感的捕捉到信号。而这位靠自己打拼成功的正在改变世界的少女,正是通过自己的观察和分析,发现了消费者的购买特性和城管抓人的模式,挣到了人生的第一桶金。

作为一个数据科学家,当然需要具备很多的能力,如基本的统计和数学能力,编程能力,建模能力,这些能力可以让你成为一个不错的IC(individual contributor)。也就是说别人定义好问题,你可以来解决。在这些能力之上,良好的沟通能力,协调能力,能让你成为一个不错的数据科学团队的Leader,可以整合资源,用团队的力量完成公司重要的项目。我上面所提到的观察分析能力,是在于对业务的理解,根据业务的需求,提出问题,并找到解决的办法的能力。具备了这个能力,你就有机会成为真正一流的数据科学家。

想成为一流的数据科学家吗?那么别犹豫, 9月欢迎到友盟+主办的UBDC大会一起进化,努力做个心中有“数”的人吧。

作者:李丹枫【友盟+】CDO,美国数据分析和挖掘领域工作10多年,曾任职于包括雅虎,微软,FICO等在数据应用走在前沿的公司,积累了丰富的数据挖掘和机器学习的实战经验。负责【友盟+】数据科学团队,并带领【友盟+】数据科学团队基于设备行为数据建立风控数据模型,成功打造了互联网金融风控解决方案。

本文原题目《成为一名优秀数据科学家的前提是心中有“数”》

7,如何成为一名顶级战斗力的数据分析师

不知道大家以前听没听说过“10x Developer”这个词,如果你连听都还没听说过,那可真是时候考虑放弃自己的程序猿事业了。就像传说一样,一些程序猿的战斗力能达到同行的10倍,也就是说一个10x程序猿能够替换一个10人的开发团队。本篇文章我们就针对数据科学,来谈一谈如何才能成为一名传说中的10x老司机。本文作者主要从事数据挖掘及处理方面的开发工作,是西雅图女性程序员俱乐部PyLadies创始人,曾在PyData Seattle 2015上做过关于通过自然语言处理和机器学习调查用户体验的主题演讲。

以下正文~~

最近我在PyData Seattle发表了一个关于如何通过借鉴开发社区的提示和窍门来提高数据科学技能的主题演讲。这些建议将帮助开发者成为一名非常受团队成员和其他人欢迎的数据科学方面的老司机。

这篇文章分为五部分,其中包括:

10x开发者的历史和争议项目设计代码设计工作工具生产模式

当然,如果你想观看原始演讲的视频,可以点击这里(网页链接)

10x开发人员,顾名思义,就是比普通开发人员生产力高出10倍的人。

一个10x的开发人员,不只是能在一定时间内比普通开发人员生产更多代码,还能像boss一样调试bug,代码里的bug也更少。因为他们会测试代码,指导初级开发人员,编写自己的文档,并且拥有很多其他技能来让自己超越仅仅知道如何写代码的境界。

H. Sackman,W. J. Erikson和E. E. Grant在1968年进行了一个叫做“比较在线和离线编程性能的探索性实验研究”的实验,发现程序员在完成写代码的任务上有很大的时间差异。

虽然该实验选取的被研究人员平均开发经验已经达到了七年之久,但相互之间的时间差异却能达到惊人的20倍。

虽然该实验的设计存在一定的缺陷,例如将使用低级语言的程序员和使用高级语言的程序员混合到了一起,但之后越来越多的研究都发现了类似的结果。

虽然关于到底存不存在10x开发人员仍有着广泛的争论,但本文重点关注的不是这些,而是关注开发人员,如何通过从那些经验丰富并且被认为开发速度更快的人那里得到的提示和窍门,成为一名更有生产效率的数据科学家。

你得真正了解业务

不管你是为教育、生物技术还是金融公司工作,都应该至少对解决问题的业务有一个比较深入的了解。

为了有效地沟通数据分析背后的故事,你应该了解是什么在驱动业务,并且了解业务目标。

例如,如果你负责优化食品卡车的位置,那么你就需要了解客流量,竞争,该地区发生的事件,甚至天气。你需要想了解公司为什么要优化位置。可能是因为公司要增加现有卡车的销售量,或者是想要增加卡车数量。

哪怕你可能是今天在搜索网站工作,明天就到了金融公司去当数据科学家,你也应该为了使你的分析与利益相关者相关知道是什么让业务成为可能。

你还应该了解你所在项目的业务流程,例如知道谁需要签署最终结果,一旦你负责的部分完成,数据模型被传递给谁,以及预期的时间表是如何安排的。

最后,你应该确保你知道这个项目的利益相关者是谁,并且能够向不懂技术的利益相关者讲明白这个项目实际的效果。就像是成为教育工作者一样,并能够向不懂技术的利益相关者讲明白为什么达成目标可能需要比他们预期的更多时间或资源。

当你了解了利益相关方的目标,并能够确保你沟通技术,专业知识和建立解决方案所需的时间,那么你在你们公司的价值一定会变得更大。

你得真正了解数据

了解业务很重要,了解数据更重要。你需要知道数据该怎样提取,何时提取,谁负责质量控制,为什么数据会可能存在差距(例如供应商的变化或提取方法的变化),什么可能会丢失,并且哪些其他数据源可以被添加进来以创建一个更准确的模型。

这真的需要你去和不同的团队交谈,并且不断地提出问题。不要害怕问他们正在做哪些工作,也不要害怕跟他们讨论你正在做哪些工作,因为你永远不知道大家是不是在做重复的工作,或者他们是否有一个更干净的版本的数据,而这恰恰是你需要数据。这样可以节省你大量查询数据库的时间,例如对SiteCatalyst进行多个API调用。

为什么在项目设计过程中多花费一些时间和精力可以让你成为10x数据科学家?

你只需要做那些需要完成的工作(在写代码之前已经思考过),这样就可以快速完成项目,因为你会减少工作量!通过在客户/用户认为他们需要的东西和他们真正需要的东西之间发现不同,你就能把自己定位成这个领域的专家和共识的制定者。你会巩固自己对问题的理解,从而减小犯那些重大错误的几率。

你得懂得代码设计

虽然在设计代码时有很多非常好的实践,但其中有一些非常突出的细节将大大增加你的生产效率。

我第一次听到关于清晰度或清晰度胜过聪明才智的论述是在大学写作课。 被自己一时的聪明想法抓住,并使用今天刚想到的最新词汇来表述想法是很容易的一件事,但是像编程一样,你这样做不仅可能会混淆自己,还会混淆别人。(小编注:比如不按变量命名规则,每次都是a,b,c。。。真的在日后看代码的时候很崩溃)

在上面的Scala示例中,第一行显示了使用简写语法的sortBy方法。虽然简明扼要,但很难想象下划线代表什么。虽然这是许多人在匿名函数中表示参数名称的常见模式,但对于不太高级的开发人员(或者当你过了一段时间再看你的代码)时,搞明白代码到底代表什么的做法就变得很头痛了。

在第二个例子中,我们起码使用了一个参数名称,加上它还显示了赋值,我们可以看到它是通过序列x中的最后一个元素排序的。

当代码不怎么抽象的时候,之后的调试才会更容易,所以在第三个例子中,我明确命名了我的参数,以便它表示数据。

当你的大脑必须要经历每一步,或者查找或回想代码的简写代表什么的时候,调试会需要更长的时间,添加新函数也会需要更长的时间,因此即使使用上述示例的简写可以简洁而快速地输入,从长远来看,明确命名参数对你和他人都会是有利的,从而避免你们耍小聪明犯下的错。

虽然我们不会检查缓存,但我们将介绍命名的重要性。想象一下,你正在查看一些旧的代码,你会看到序列按Scala示例进行排序:

.sortBy(x => -x._2)

使用单个字母来命名序列根本提供不了有用的信息,因为当你可能从API,数据库或Spark中的数据流中提取数据时,你必须运行代码才能看到”x”到底代表什么。

所以保持与之前Scala的示例的代码应该是:

sortBy(clothesCount => -clothesCount._2)

这样你就可以知道我们正在对什么进行排序,甚至不用运行代码。

但是,有时使用X作为变量名称却很好。例如,X通常用于机器学习库,其中X表示观察到的数据,而y是试图预测的变量。在这种情况下,使用这个领域约定俗成的表示,如“模型”,“拟合”,“预测”和“x”和“y”等字段是最好不过的。

除了数据科学方面的要求,你还要遵循你所使用的语言的编程语言惯例。例如,我建议你去检查一下文档,如PEP for Python,来了解最佳做法。

通过规范你的命名约定,并通过清晰而不是耍小聪明的代码,它将使重构和调试更容易和更快。按照这两个代码设计的窍门,你将走上成为10x数据科学家的道路。

保持代码样式一致,与刚刚我们说的保持命名约定一样重要。要获得一些基本的风格点,你应该坚持一种情况,不要在同一个脚本中混合使用驼峰式大小写和snake的命名规范,否则的话,你的代码很快就会变得难以阅读和浏览。另一种你应该保持一致的方法是同一种任务要坚持使用相同方法。例如,要从字典中删除重复项,并且需要在代码的好几个位置处执行此操作,那么就不要仅仅因为在Stack Overflow网站上看到过就使用其他创造性的方法来执行操作。使用最清晰和最不聪明的方法来让你的代码和脚本保持一致。并且,我还要再次强调,一致性的目的是为了避免让你自己和其他人混淆,这将有助于你更快地进行调试!(请注意,我们这段话的核心是调试)。

还记住我们刚刚谈到的,必须在代码中的多个地方删除字典中的重复项吗?使用函数,你就不需要多次重写代码。当然,即使你不重用代码,把代码封装在函数中也是至关重要的最佳做法。你的函数应该很小,小到只能做一件事情,以便可以重复调用。

当你不使用函数时,经常会有有全局变量导致命名冲突,代码不可测试和代码的不断重复。

通过使用函数,你的代码就可以自由组合,更易于编写测试单元。

但是不要仅仅止步于写一些只做一件事情的小函数,请务必抽象你的函数,以便重新使用它们 - 这样有助于降低代码冗余度,并能加快你的开发时间,这样做下去至少让你成为一个2x 程序猿。

尽管不太常见,但代码设计中很重要的一点是使用桩代码。桩代码是简单的mock类以及函数,可以显示输入,输出和注释,并为代码提供一个大纲。在你开始实际编写代码之前,使用桩代码会让你先考虑代码,并可以帮助你避免怪异的意大利面条式的代码。你会注意到你在编写代码之前有哪些重复的代码,并且会考虑最合适的数据结构。

上面的代码示例给我们展示了注释和文档。要真正成为一个被同事喜欢的程序猿,并提高自己作为一名数据科学家的效率,就要会写有用的简明扼要的注释。这不仅应该包括关于代码段的注释,还包括其输入和输出。

此外,关于docstrings可能最酷的是,它们可以通过大多数语言的库转换为文档。例如Python有一个名为Sphinx的库,可以让你将docstrings转换成完整的文档。

你现在可能知道你的代码是什么,但当你尝试调试或添加函数时,你和其他人将非常开心有注释。

无论你使用什么语言编写代码,请记得使用异常处理,并为你自己,同事和最终用户留下有用的错误信息。上面的代码显示了一个停止函数,能够传递来自正在调用的API的错误消息。

如果数据不是API需要的,那么它就会引发一个有用的错误消息。在你自己的代码中,你可以在停止函数中写一个消息,帮助用户:

stop(paste0(“Make sure all your inputs are strings: ”, e))

以上示例来自“Hitchhikers Guide to Python”,它使用Python测试库Pytest。

尽管编写测试单元对于开发人员来说相当普遍,但这在数据科学领域却很少使用。当然,你可以使用交叉验证,混淆矩阵和其他方法来验证你的模型。 但是,你是否测试了正在为你获取数据的查询? 你使用的各种方法是如何清理和转换数据的,你的模型需要它们吗? 这些方面对于安全防范“Garbage in, garbage out”(小编注:这两个单词的意思是,如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。)至关重要。 当你测试代码时,不仅这两个未来的证据可以反映可能引入错误的变化,而且当你有能力自己给自己检查代码时,每个人都会认为你就像一个摇滚明星一样耀眼,因为一旦代码被用于实际生产就会发现bug非常少。

为你的项目使用版本控制是成为10x数据科学家的重要一步。这最明显的好处是保存模型的不同版本,既可以轻松地进行团队工作,也可以通过在存储库中使用版本控制进行备份,防止在笔记本电脑被盗或硬盘驱动器坠毁的情况下丢失工作。

在beta版中,有一个名为Data Version Control的开源数据版本控制项目,对于数据科学工作流程来说看着很有希望。 它依靠Git,并允许通过构建数据依赖图来跨团队重现项目。你的数据会与你的模型分开保存,它与其他版本控件一样工作,允许你回滚到以前保存的备份。

10x开发人员知道使用正确的工具来完成工作,无论是使用库来节省时间,切换语言以实现性能,还是使用API,而不是自己从头构建解决方案。

比方说你现在有一些Twitter或其他社交数据要用来进行情绪分析。一个选择是自己标注数据,训练自己的模型,另一个则是使用预先训练的模型。不去自己建立每个数据模型来重新造轮子是很薄的。使用最适合工作的工具,即使这意味着使用你没有构建过的工具。

我们都写过一个与Cron工作配对的Bash脚本来自动化一些报告,但是,在你花费一些时间尝试调试由Cron自动执行的其他人撰写的报告时,你甚至不知道它在哪里运行,你会意识到必须有更好的方法才行。通过使用自动化工具,如Puppet,Chef,Ansible或任何其他流行的自动化工具,你就可以从集中的位置运行你的工作,因此调试他人(或你自己)的工作就能快很多。

有时你可能找不到一个团队来负责你设计的模型,这个时候就需要知道如何自己部署自己的模型。

虽然上面那副图中的提供商之间有很多差异,但它们包含了从难以置信的易用性到你需要的更多的设置和知识。本节的内容其实可以单独成为一个话题。如果你想了解有关模型托管的更多细节,可以查看我们的其他几个不同的报告,分别介绍部署模型(网页链接 )以及部署和扩展你的深度学习模型(网页链接)。

可能是致命伤的事情:

易用性成本(包括附加组件和隐藏成本,如托管数据)投标人锁定语言可用性

通过了解如何部署模型,你才有能力通过数据来讲述故事,轻松地与团队成员共享(不管使用哪种语言)或将其部署到生产环境中,从而与数千用户共享。这将帮助你成为10x-er,因为一旦了解了这一点,你就可以创建更多性能更高的模型,使用户开心。当用户开心时,企业主就会开心。

成为10x数据科学家的技巧

为了让这篇文章圆满,这里有一些关于如何成为10x数据科学家的最受欢迎的技巧:

模式匹配。这来自于以前遇到类似问题并意识到可以重用或修改当前问题解决方案的经验。了解如何解释你的代码 - 给自己和其他人。 这意味着你可以在白板上,做/得到代码甚至协同编程。要习惯于谈论你的代码和思考过程。了解如何/何时退出并重新开始。如果你意识到有一个更好的方法来解决问题,那就不要害怕重新开始。最好就是重新开始,做一个更好的方法来完成,而不是放出一些不是最佳或高性能的东西。创建你自己的Gists库,或通过GitHub或其他托管服务的存储库组织代码片段。

最后,回顾整篇帖子,如何成为一个10x的数据科学家和如何调试其实是相同的主题。每个10x的开发人员都可以想象成一个主调试器,因为这个规则就是无论你的代码多长,你都可以将它乘以10,并得到你需要调试的时间。 成为一个很好的调试器的一个窍门就是使用异常处理,你可以在IDE中使用调试器,你可以通过代码查找逻辑中的错误,并检查涉及错误的库的源代码,以确保你正在传递代码需要的内容。

即使你从这个帖子只得到了几点收获,恭喜你,你已走上了成为10x数据科学家的道路。

当然,能不能抵达道路的尽头,就看你自己咯。

8,你不能不知道的13位中国人工智能女性

一年一度的女神节,新智元整理出几位在人工智能领域工作的杰出女性,她们的研究和工作让人工智能更加美好。

从门禁刷脸到拍照购物再到自动驾驶汽车,人工智能正在以惊人的趋势席卷世界,改变我们的生活。不过,你或许还不够了解在背后往前推动人工智能的研究人员和科学家,尤其是女性研究员和科学家。

与大多数理工学科一样,AI/ML领域,女性从业者的数量呈压倒性的劣势,管理岗位和C级职位尤其。根据最新的一份调查,在谷歌和Facebook,女性工程师的数量仅有20%,而这已经算是多的——根据女性机器学习会议Women in Maching Learning(WiML)的创始人、AI研究者Hanna Wallach的统计,机器学习领域中女性仅占13.5%。

据Bloomberg Beta的统计,女性在AI/ML各领域普遍偏低,技术和研究岗位尤其,而在管理和C级别职位中,情况更加严峻。上图显示了C级别职位女性(黑色)与男性人数对比,在CRO和CCO两栏就没有女性。来源:TechEmergence

AI研究人员的多元化在未来5-10年都将是很大的挑战,让AI/ML更多包容和多样的呼声一直没有停止。WiML成立的目的,便是增加从事机器学习的女性数量,帮助女性取得专业成功,提升女性在机器学习中的影响。此外,还有像斯坦福AI4ALL这样的项目,旨在改变传统AI领域的刻板印象,让更多的女性参与,面向高中女生(美国9年级),让她们接触AI专业培训,发挥自己的才能。

在3月8日国际妇女节的这一天,新智元向所有的女性,特别是在人工智能领域工作的女性喝彩。新智元整理出以下几位中国人工智能值得关注的女性,她们都克服了个人生活和职业生涯的种种挑战,实现了令人难以置信的影响力,成为行业的领导者和榜样。

这份名单并不全面。更多有才华的人为AI做出贡献,这不是我们能在一篇文章中快速总结的内容。退部分人物的简介来自网络,包括高校页面或个人官网、维基百科以及此前的报道。相关信息若有过时乃至不当之处,请联系我们,我们将第一时间更正。

李飞飞:实现AI普世价值

2017年10月31日,李飞飞到访新智元并接受新智元创始人兼CEO杨静专访。

“AI没有国界,AI的福祉亦无边界”。

2017年11月13日,上海,谷歌云机器学习与人工智能首席科学家李飞飞动情地说完这句话,宣布谷歌将在中国组建AI中心,从北京出发,逐渐遍布全国。谷歌中国AI中心将由李飞飞和谷歌云机器学习负责人李佳共同领导,主要聚焦基础研究。

李飞飞是斯坦福大学计算机系终身教授,斯坦福人工智能实验室和斯坦福视觉实验室主任。李飞飞带领团队创建了全球最大的图像识别数据库ImageNet,由此改写了图像识别乃至人工智能的历史,ImageNet让人们知道,数据和算法一样重要。李飞飞关于神经网络和计算机视觉的研究大幅推动了人工智能发展,可能为我们带来更直观的图像搜索应用,以及能够在不熟悉的情况下做出决策的自主机器人。

2016年11月,李飞飞加盟谷歌云,担任谷歌云首席科学家,同时也继续在斯坦福工作。李飞飞接受新智元专访,表示自己是利用休学术假到谷歌去实践 AI的普世价值。谷歌AI中国中心是她加入谷歌便开始积极推动的一个项目,也是为这个远大目标做一个小小的贡献。“随着技术开始以更深刻的方式塑造人类生活,我们将需要共同努力,确保明天的人工智能会使我们所有人受益。”

李飞飞也有参与AI4ALL的工作,她多次强调,因为AI承载了人类所看重的各种价值观,包括道德、偏见、公正或使用权。AI将给人类社会带来有史以来最大的变革,AI发展需要更多女性的参与,需要多元化技术人员参与AI技术的开发。

李佳:AI赋能,让所有人都能随时使用AI

李佳以谷歌AI中国中心总裁、谷歌云AI研发主管的身份,在2018年2月北京举行的Think With Google大会亮相。在加入谷歌和李飞飞一起负责谷歌云机器学习部门之前,李佳是Snapchat的研究部门负责人,她带领的研究团队主要负责研发新方法,满足用户的需求,包括在图片上添加文字、符号等各种内容。更早一点,李佳曾在雅虎实验室的视图计算和学习部门担任负责人。

李佳在2017年底接受新智元采访时表示,这几年来,她在工业界看到各种各样的有意思的ML问题,这些问题通常都是在传统行业当中,而AI人才通常都在互联网技术公司,两者间有很大的差距,“我们希望更多更多的AI的人能够投身到这里,发挥技术特长来影响各行各业,最终影响整个人类社会的生活”。

李佳带领的谷歌云AI团队处于研究和产品两者的中心。2018年初,谷歌云发布了AutoML,让不懂AI的开发者也能使用AI,大幅降低机器学习的门槛。最先推出图像功能,是李佳和李飞飞走访上千客户,基于用户需求和前沿研究得出的结论。李佳说,谷歌Cloud AutoML是印证研究和开发可以良性循环结合的很好例子,让AI去解决实际问题,同时让实际问题激发研究兴趣。在会后接受采访时,李佳多次提到一句话:

AI赋能,让所有人都能随时使用AI。

周以真:龙女士,阿里达摩院首批达摩祖师之一

外界对周以真教授的评价为“横跨学界、政界、企业的计算机思维定义者”。盘点她过去的学术生涯,可以用“开挂”来形容:麻省理工学院博士毕业,师从图灵奖得主Ronald Rivest,历任卡内基梅隆大学计算机科学系主任、美国国家科学院计算机科学与通讯部门主席、微软全球资深副总裁等重要职位。而最能影响计算机历史的,则是她2006年发表的《计算思维》(Computational thinking)。论著中,周以真倡导运用计算机科学的基础概念解决问题、设计系统并理解人类行为的思维方式,这一理念推动了计算机科学在全球教育领域的发展。

同时,作为空手道黑带的周以真可以说是个不折不扣的“武林高手”,被称为“龙女士”。2017年,周以真教授作为首批10位“达摩祖师”之一加入阿里的达摩院,与人工智能领域世界级泰斗Michael I. Jordan、人类基因组计划领军人物George M. Church等人一同为达摩院提供研究方向、重点发展领域、重大任务和目标等学术问题提供咨询建议。

卢宇彤:中国超算巾帼英雄

卢宇彤是中国国家超级计算广州中心主任,同时是中山大学数据科学与计算机学院教授,曾任国防科技大学计算机学院软件所副所长,银河天河工程副总师。卢宇彤教授参加了五代银河系统和两代天河系统的研制工作,还是 “天河二号” 超级计算机系统副总设计师。她在中国科技部,国家自然科学基金委,广东省的支持下,主导了一系列的 HPC 和大数据项目。

卢宇彤教授在 2009 年和 2014 年分别获得中国国家科技进步奖一等奖和特等奖。她的长期研究兴趣包括并行操作系统,高速通信,大规模并行文件系统和大规模资源管理系统,以及高级编程环境和应用。

谷雪梅:前谷歌中国第一位本土女工程师

谷雪梅现在是菜鸟网络科技有限公司副总裁、技术产品负责人。她硕士毕业于卡内基梅隆大学计算机科学学院,2005年1月加盟谷歌,2006年2月调任谷歌中国,是谷歌中国第一位本土女工程师。

加盟阿里后,谷雪梅先后担任过阿里巴巴集团搜索事业部负责人、阿里妈妈技术产品负责人。在加入阿里之前,她在搜索基础设施和知识图表方面为谷歌公司工作了10年,任职Google Beijing site lead三年。她在大规模分布式计算平台、搜索推荐及广告、知识图谱等方面有多年的开发和管理经验。

吴华:百度自然语言处理首席科学家

吴华,博士,百度技术委员会主席、百度自然语言处理首席科学家。主要研究领域包括自然语言处理、机器翻译、人机对话、知识挖掘、机器学习等。作为百度翻译技术负责人和团队的创始人之一,吴华博士在机器翻译及自然语言处理领域浸润多年,负责过多项机器翻译的研究与开发工作,开发了多款自然语言处理产品。吴华博士已授权或公开的专利申请100余项、发表论文60余篇。作为分课题负责人或者成员参与过863重大项目、973项目、自然科学基金重点项目等。

吴华博士在自然语言处理领域的研究成为得到国际学术界的广泛认可,2011年她受邀担任NLP领域重要国际会议IJCNLP的机器翻译领域主席(Area Chair),2012年担任NLP领域最好的国际学术会议ACL的机器翻译领域主席。去年,她又被遴选为ACL 2014年的程序主席(Program Chair),她还获评2017年福布斯“AI杰出女性”。

谷俊丽:马斯克背后的中国女博士

谷俊丽,毕业于清华大学、美国伊利诺伊大学香槟分校博士,机器学习专家。现任小鹏汽车自动驾驶研发副总裁,全面负责小鹏汽车自动驾驶研发团队的创建,领导人工智能创新和自动驾驶软件的研发,加速小鹏汽车自动驾驶技术的应用和升级迭代。在加入小鹏汽车之前,谷俊丽在特斯拉搭建了机器学习团队,其领导打造的Autopilot 2.0,正是特斯拉大规模部署的自动驾驶/辅助驾驶系统,甚至有媒体称其为“马斯克背后的中国女博士”。

谷俊丽精通诸多领域,在机器学习、异构计算、高性能计算以及处理器设计方向都有深厚的研发经验。在清华大学读博士期间,谷俊丽作为核心人员研发过超长指令字数字信号处理器,后赴美参与UIUC超级计算机的研究工作,并曾工作于Google总部。2012年7月之后的四年,谷俊丽曾任国际芯片巨头AMD主任工程师,负责大数据和深度学习软件的研究开发。

史元春:中国最早开始研究普适计算的学者

史元春是清华大学计算机系教授、博士生导师,清华大学全球创新学院院长、长江学者,清华大学计算机系人机交互与媒体集成研究所所长,IEEE高级会员。

她于清华大学计算机系获学士、硕士和博士学位,1993年起在清华大学计算机系任教。史元春教授的研究兴趣涉及人机交互、普适计算、网络多媒体技术以及网络教学技术等领域。作为国内最早开展普适计算研究的学者,她于 2000 年建立了智能空间研究环境。史元春教授近年投入较多研究精力的方向是自然交互接口和高效交互界面,带领团队研制了大幅面交互桌面,基于手机摄像头等传感器的手势交互技术,界面优化和自适应转换技术等,数次获得教育部科技进步一等奖、二等奖。

初敏:带领研发第一个中英文双语语音合成系统“木兰”

初敏,中科院声学所博士,主要研究方向覆盖语音识别与合成、自然语言处理、机器学习和数据挖掘、大数据处理和计算等,在相关领域发表了近百篇学术论文并取得20多项国内外专利。目前担任思必驰VP、思必驰北京研发院院长,肩负着思必驰拓展语音技术在物联网外的新业务、新场景落地的重任。

初敏于2000年加入微软,在微软亚洲研究院从事科学研究近10年,创建并领导语音合成研究小组,研制出了第一个中英文双语语音合成系统“木兰”,被誉为微软亚洲研究院成立的前五年中取得的10大技术突破之一;后于2009年追随王坚博士的步伐加盟阿里,担任阿里云iDST(Institute of Data Science and Technologies)Analytics部门总监,曾经在阿里云和阿里妈妈负责机器翻译、阿里输入法、淘宝产品库、互联网用户画像、CNZZ数据银行等产品和项目的研发工作。

朱小燕:让60岁以上的老人自如地跟机器交互

朱小燕,清华大学计算机系教授、博士生导师、智能技术与系统国家重点实验室主任、北京市计算机学会副理事长。朱小燕1992年获得北京科技大学学士学位,在1987年取得了日本神户大学硕士学位,90年日本名古屋工业大学博士毕业,93年开始在清华大学任教。

朱小燕教授主攻智能信息处理, 机器学习, 文本挖掘等几个领域,所在研究小组曾在光学字符识别、语音信号处理、人机交互等领域进行过深入研究。所在室验室是国家信息领域到现在为止唯一的人工智能相关国家重点实验室,在手写数字识别、盲用计算机系统等方面取得了多项理论与应用成果。识别引擎曾经成功地应用于中国跨世纪人口普查及其它多个国际合作项目;研究组实现的多文档摘要系统在国际评测TAC2008、2009两年中连续获得第一名的好成绩。2009年朱小燕教授获得加拿大国际开发研究中心(IDRC)首席科学家称号。朱小燕对语音技术进一步的发展期待是能让60岁以上的老人也能够比较自如地使用语音与机器交互。

黄河燕:主持承担多项国家科研攻关项目,获国家科技进步一等奖

黄河燕,教授、博士生导师,1989年获中国科学院计算所博士学位、1986年获国防科技大学硕士学位、1983年获武汉测绘科技大学学士学位,曾任中国科学院计算机语言信息研究中心主任,现任北京理工大学计算机学院院长,兼任香港城市大学特约教授,中国科技大学、南京理工大学、中国科学院研究生院兼职教授和博士生导师。

在机器翻译、自然语言处理和智能应用系统等方面进行了长期深入研究,提出并设计了面向对象的多风格智能程序设计环境;主持研究并实现了基于多策略的机器翻译系统、军用文字信息输入识别与处理系统、多语机器翻译及其系列应用系统、大型网络信息翻译集成处理系统等,组织并完成了基于上述系统技术的多项产品化开发工作,获得了国家科技进步一等奖和中科院科技进步一等奖等多项奖项,目前主持多项国家自然科学基金项目及863项目。2017年12月14日,中国互联网协会标准工作委员会成立大会在北京召开,黄河燕任中国互联网协会标准工作委员会副主任委员。

刘杉:腾讯音频实验室杰出科学家

刘杉,本科毕业于清华大学电子工程系,硕士和博士毕业于美国南加州大学电机工程系,现任腾讯音视频实验室杰出科学家。刘杉加入腾讯之前,曾任华为美国多媒体实验室主任兼视频标准首席科学家和全球项目负责人;在此之前担任联发科美国视频和视觉技术开发部主任。在联发科任职期间,作为主要发明人和联合发明人的50余篇技术提案被ITU-T H.265 | ISO / IEC HEVC, MPEG-DASH, OMAF, MMT 等国际标准采纳。她还曾担任MERL主任研究员、IBM客座研究员。

多次担任标准组织技术分组与专家小组的主席和联席主席,并多次在国际顶级学术会议担任领域主席、论文评审委员或做邀请报告。发表了超过 30 篇专业期刊和会议论文,是超过 200 个美国和全球专利申请的发明人,其中许多发明已被授权并成为标准基本专利或被内置于多款通信和多媒体产品中,是ITU-T H.265 | ISO / IEC HEVC V4(定稿版本)七位主编之一。

杨静:新智元创始人兼CEO

最后,我们不能不提新智元的创始人、CEO 杨静。

杨静女士曾任法国阳狮集团实力传播 (Zenith Media)媒体购买及咨询副总监(2002-2010)、中国经济网经营顾问(2010-2014)。2014年策划主持了“奇点临近”、“算法帝国”、“大数据时代的社会人与机器人”等系列人工智能、大数据主题研讨会。2015年3月与机械工业出版社联合主办“新智能时代论坛”,受邀担任2015年5月中国科协年会智能社会科技专家论坛、2015年机器人世界杯产业峰会、世界机器人大会“人工智能开启机器人新纪元”分论坛主持人。

2015年9月,杨静女士创办新智元,2016年3月出版专著《新智元 机器+人类=超智能时代》,2016年10月联合主办世界人工智能大会,并出版《中国人工智能产业发展报告》。2017年继续主办世界人工智能大会,与英特尔公司联合主办新智元开源·生态技术峰会,并担任中国人工智能产业发展联盟理事、中国证券投资基金业协会第一届金融科技专业委员会委员、合肥高新区机器人专家委员会特聘专家等职务。

3月29日,杨静女士将主持举办“2018新智元AI技术峰会——产业·跃迁”,邀请国内外顶级AI专家论道最新技术与产业趋势,并发布2018最值得关注的AI创业家权威榜单,同时,新智元还将与中国人工智能产业的主导企业共同发起成立AI产业生态平台,将AI技术规模化、产业化应用和场景落地最前沿的案例带给行业,进而推动行业的智变升级。

9,量子计算人工智能这才是未来科技的最大热门

编者按:本文来自微信公众号“AI科技大本营”(ID:rgznai100),36氪经授权发布。

作者 | George Musser

编译 | AI科技大本营

90年代初,当卫奇塔州立大学(Wichita State University)的物理学教授Elizabeth Behrman开始结合量子物理学和人工智能(主要是当时备受争议的神经网络技术)时,大多数人认为这两门学科就像油和水一样,根本没办法结合。“当时我连发表论文都很困难。神经网络学术期刊问我‘量子力学是什么’,而物理学期刊则会问‘神经网络是什么玩意’。”她回忆道。

如今,这两门学科的结合似乎再自然不过了。神经网络和其他机器学习系统成为了21世纪影响最大的技术。这些系统不仅在一些大部分人不擅长的任务(例如:围棋和数据挖掘)上打败了人类,而且还在大脑的某些本职工作(例如:面部识别、语言翻译)上超越了人类。这些系统的实现依赖于庞大的计算能力,因此科技公司要寻找的计算机不仅要更大,而且还要更先进。

在经历了数十年的研究后,量子计算机现在的计算能力已经超越了其他所有计算机。人们常认为,量子计算机的杀手级应用可以对大数进行因数分解——这对现代加密技术至关重要。但是实现这一点至少还要再等十年。不过,当前基本的量子处理器已经可以满足机器学习的计算需求。量子计算机在一个步骤之内可以处理大量的数据,找出传统计算机无法识别出的微妙模式,在遇到不完整或不确定数据时也不会卡住。“量子计算和机器学习固有的统计学性质之间存在着一种天然的结合。” Rigetti Computing的物理学家Johannes Otterbach表示。(Rigetti Computin是一家位于加州伯克利的量子计算机公司。)

如果有什么不同的话,那就是当前的趋势已经走向另一极端。谷歌、微软、IBM等科技巨头正在往量子机器学习上猛砸钱,多伦多大学还成立了一个量子机器学习创业孵化器。“ ‘机器学习’现在正成为一个潮词。在 ‘机器学习’加上‘量子’,它就变成了一个超级潮词。”莫斯科斯科尔科沃科技学院(Skolkovo Institute of Science and Technology)的量子物理学家Jacob Biamonte称。

然而,“量子”一词在此处没有任何意义。你可能能会认为量子机器学习系统应该很强大,但是这种系统实际上却像是患有某种闭锁综合症。量子机器学习系统处理的是量子态,而不是人类可以理解的数据,量子态和数据的相互转换会使系统原有的优势消失。就像是,iPhone X原本的参数和性能都很强,但是如果网络信号太差的话,它就会和老式手机一样慢。在一些特殊情况中,物理学家可以克服输入输出障碍,但是这些情况是否存在于现实机器学习任务中?答案仍然是未知的。“我们现在还没有明确的答案。一直以来,人们往往对这些算法是否能提高计算速度并不关心。”德克萨斯州大学奥斯汀分校计算机科学家Scott Aaronson表示。

量子神经元

无论是传统神经网络,还是量子神经网络,它们的主要任务都是识别模式。受人类大脑的启发,神经网络由基本的计算单元(即“神经元”)构成。每个神经元都可以看作为是一个开关设备。一个神经元可以监测多个其他神经元的输出,就像是投票选举一样,如果足够多的神经元处于激活状态,这个神经元就会被激活。通常,神经元的排列呈层状。初始层(initial layer)导入输入(例如图像像素),中间层生成不同组合形式的输入(代表边、几何形状等结构),最后一层生成输出(对图像内容的高级描述)。

需要注意的是,神经元之间的连接需要经过反复试验进行调整,不是预先确定的。例如,给神经网络输入带有“小猫”或“小狗”标签的图像。网络会给每一张图像分配一个标签,检查是否匹配正确,如果不正确就调整神经元连接。刚开始时网络的预测是随机生成的,但是其准确度会越来越高;在经过10000个实例的训练之后,网络将能识别图像中的宠物。正规的神经网络可能拥有10亿个神经元连接,所有连接都需要进行调整。

传统计算机计算单元的所有连接都用庞大的数字矩阵表示,运行神经网络就是在计算矩阵代数。传统的方法是,用一个专门的芯片(例如:图像处理器)来完成这些矩阵运算。而在完成矩阵运算上,量子计算机是不可匹敌的。“量子计算机运算大型矩阵和向量的速度快很多。”麻省理工大学(MIT)物理学家、量子计算先驱Seth Lloyd称。

在进行运算时,量子计算机可以利用量子系统的指数属性。量子系统的大部分信息储存能力并不是靠单个数据单元——qubit(对应于传统计算机中的bit)实现的,而是靠这些qubit的共同属性实现的。两个qubit带有四个连接状态:开/开、关/关、开/关、关/开。每个连接状态都分配有一个特定的权重或“幅值”,代表一个神经元。三个qubit可以代表八个神经元。四个qubit可以代表16个神经元。机器的运算能力呈指数增长。实际上,整个系统处处都分布有神经元。当处理4个qubit的状态时,计算机一步可以处理16个数字,而传统的计算机只能一步只能处理一个。

Lloyd估计,60个qubit的计算机可以编码的数据量相当于人类一年生成的所有数据,300个qubit的计算机可以编码可观测宇宙中的传统信息内容。(IBM、英特尔和谷歌共同研发的量子计算机是当前最大的量子计算机,大约有50个qubit)。不过前提是假设每个幅值(amplitude)对应于一个传统的bit。Aaronson表示:事实上,幅值是连续的数值(复杂的数字)。为获得可信的试验准确度,可以储存15 bit的信息。

但是,量子计算机的信息储存能力并不能加快它的运算速度。如何能够使用qubit才是关键。2008年,Lloyd、MIT物理学家Aram Harrow和以色列巴伊兰大学(Bar-Ilan University)计算机科学家Avinatan Hassidim展示了如何用量子计算机完成矩阵求逆的关键代数运算。他们将整个运算分解为一系列可以在量子计算机上执行的逻辑运算。他们的算法适用于很多种机器学习算法。而且,需要完成的运算步骤少于因数分解一个大数所要完成的步骤。量子计算机可以在受到噪声影响前,迅速完成分类任务。“在完全通用且容错的量子计算机到来之前,量子计算可以提供量子优势。” IBM的 Thomas J. Watson 研究中心的Kristan Temme表示。

让系统本身解决问题

目前为止,我们只在4 qubit的计算机上实现了基于量子矩阵代数的机器学习。量子机器学习在实验上取得的大部分成功都采用了一种不同的方法:量子系统不只是模仿网络,它本身就是网络。每个qubit代表一个神经元。虽然这种方法无法让计算机利用指数属性所带来的优势,但是它可以让计算机利用量子物理学的其他特性。

位于温哥华附近的D-Wave Systems公司制造的量子处理器拥有2000个qubit,是目前最大的量子处理器。它和大多数人观念中的计算机不同:它的主要任务是寻找数据的内部一致性,而不是对输入数据执行一系列的运算,得出输出。每个qubit都是一个超导电回路,其作用相当于一个向上、向下或向上与向下(叠加)的小电磁体。让qubit通过磁力相互作用,这样就可以将它们“连”在一起。

D-Wave Systems公司制造的用于机器学习应用的处理器

在运行系统时,必须先施加一个水平的磁场,这个磁场可以将qubit预置为向上和向下的均等叠加——等同于空白状态。输入数据的方法有好几种。在某些情况中,你可以将某一层qubit固定在预期的输入值;不过多数情况下,应将输入导入到qubit的相互作用的范围内。然后让qubit相互作用。某些qubit朝同一方向排列,某些qubit朝相反方向排列,在水平磁场的作用下,它们会翻转到它们选择的方向。通过这样做,这些qubit可以触发其他qubit进行翻转。由于很多qubit都没对准方向,刚开始时会发生很多翻转。等到翻转停止后,你可以关闭水平磁场,将qubit锁定在固定位置。此时,qubit处于朝上和朝下的叠加状态,这种状态可以确保输出与输入相对应。

关键在于,Qubit最终的排列方式很难预测出来。通过完成自然出现的任务,系统可以解决普通计算机难以解决的问题。“我们不需要使用算法。这种系统与常规的编程完全不同。系统本身可以解决问题。” 东京工业大学的物理学家Hidetoshi Nishimori解释道。D-Wave计算机的工作原理就是由Hidetoshi Nishimori提出的。

qubit的翻转是由量子隧穿效应(quantum tunneling)驱动的。这种效应是一种自然趋势,量子系统必须要选出最佳配置,不能退而求其次。你可以构建一个工作原理相似的传统网络,采用随机晃动,而不是通过隧穿效应来让bit翻转。在某些任务中,这样的网络表现更好。但是有趣的是,在处理机器学习中出现的问题时,量子网络实现最佳结果的速度似乎更快。

D-Wave计算机也有缺陷。在当前的配置下,D-Wave计算机的噪声非常大,它只能执行有限的操作。而机器学习算法本质上是具有容噪能力的,它们可以理解混乱的现实环境,在干扰性背景中从区分小猫和小狗。“神经网络对噪声有很强的鲁棒性。” Behrman称。

Hartmut Neven是谷歌的一名计算机科学家,他开创了增强现实技术,是谷歌Google Glass项目的联合创始人。后来,他领导一个团队开始研究量子信息处理。2009年,这个团队证明了一台初期的D-Wave 计算机可以很好地完成一个机器学习任务。他们将这台计算机用作为一个单层神经网络,在20000张街景图数据库中将图像分类为两个类别:“汽车”和“非汽车”(请记住:这台D-Wave计算机与2018年上线的50-qubit系统属于完全不同的机型。)。Neven的团队结合使用D-Wave 计算机与传统的计算机,他们分析了图像的各种统计参数(quantities),然后计算这些参数对图像中汽车的敏感度——通常不是很敏感,但至少比抛硬币(猜正反面)要好。这些参数的某些组合可以准确地识别出汽车,但是无法识别出具体车型——这是神经网络的任务。

这个团队为每个参数都分配了一个qubit。如果qubit的值稳定在1,则将相应的参数标记为有用;如果qubit的值稳定在0,则不用标记。Qubit的磁力相互作用可以编码问题的要求,例如:只包含区分作用最强的参数,以确保参数的最终选择尽可能简单明了。试验的结论是,D-Wave计算机可以识别出汽车。

去年,加州理工学院粒子物理学家Maria Spiropulu和南加州大学物理学家Daniel Lidar领导的一个团队将算法应用到粒子物理学问题中:将质子碰撞分类为“希格斯玻色子(Higgs boson)”和“非希格斯玻色子”。这个团队将研究对象选择为生成质子的碰撞,他们使用基本的粒子理论来预测哪些粒子属性可能会表征希格斯粒子的短暂存在,例如:超出动量的某些阈值。他们考虑了8种粒子属性和28种属性组合,一共是36种候选信号然后让南加州大学的新型量子计算机找出最佳选择。该计算机识别出16个有用的变量,3个最佳变量。该量子计算机在执行准确的分类任务时比标准流程所需的数据量要少。“在训练集较小的条件下,量子计算方法的准确度要比高能物理学中的传统方法高。”Lidar表示。

加州理工学院物理学家Maria Spiropulu使用量子机器学习寻找希格斯玻色子。

去年12月,Rigetti 证明了一种使用通用19 qubits量子计算机自动分类对象的方法。大致上,研究人员向计算机输入了一系列的城市名称以及它们之间的距离,然后让计算机将这些城市分类为两个地理区域。这个问题的困难之处在于,一座城市属于哪个地理区域取决于系统对其他城市的分类,因此必须一下子解决整个系统。

Rigetti的团队为每个城市分配了一个qubit,表明这个城市属于哪个类别。通过qubit之间的相互作用(在Rigetti的系统中,这种相互作用是电作用力,而不是磁作用力),每一对qubit都尽量要选取相反的值——这样做可以将它们的能量降到最小。显然,对于任何qubit数超过2个的系统而言,某些qubit对只能被分配到相同的类别中。靠近的城市更容易被分配到同一类别中,因为相比距离较远的城市,邻近城市被分配到同一类别中的能量损耗要小。

为了将系统的能量降至最低,Rigetti的团队采用了一种在某些方面类似于D-Wave量子退火的方法。他们先将qubit预置为所有可能簇分配(cluster assignment)的叠加状态。然后让qubit进行短暂的相互作用,使qubit偏向于假设相同或相反的值。接着他们应用了一种模拟水平磁场的机制,在qubit倾斜时使它们可以翻转,以使系统更接近于最低能量状态。最后,他们重复执行了这个两步骤流程——相互作用与翻转,直到系统的能量降至最低,这样城市就被分类为两个不同的区域。

这些分类任务是有用的,但很直接。机器学习的尖端是生成模型,这种模型不仅可以识别小猫小狗,还可以生成新的原始模型——从来不存在的动物,但它们和真实动物一样可爱。这种模型甚至还可以自己分辨“小猫”和“小狗”的类别,或者修复缺少尾巴或爪子的图像。“在机器学习中,这些方法非常强大且有用,但是应用起来十分困难。” D-Wave的首席科学家Mohammad Amin表示。量子计算如果能被应用到生成式模型中,一定会大受欢迎。

D-Wave和其他研究团队已经开始着手解决这个难题。训练生成式模型,也就是调整qubit之间的(磁或电)相互作用,以使网络能复制某些实例数据。为了实现这一点,我们可以结合使用神经网络和普通的计算机。神经网络负责困难的任务——理解选定的相互作用对最终的网络配置有什么意义,然后计算机使用这个信息来调整qubit之间的相互作用。去年,NASA量子人工智能实验室(NASA’s Quantum Artificial Intelligence Lab)的研究人员Alejandro Perdomo-Ortiz和他的团队在一篇论文中,用一个D-Wave系统处理手写数字的图像。结果,该系统识别出10个类别,并为0至9这10个数字各分配了一个类别,而且还生成了自己的手写体数字。

量子计算机的瓶颈

令人失望的是,如果你无法将数据载入到处理器中,你的处理器再强大也无济于事。在矩阵代数算法中,一个简单的运算就可以处理一个由16个数字构成的矩阵,但是载入这个矩阵却需要进行16个运算。“人们完全没有重视量子态制备——将传统的数据载入到量子状态中我认为这一步是最重要的一步。”量子计算初创公司Xanadu的研究人员Maria Schuld表示。她是最早获得量子机器学习博士学位的人员之一。当我们把机器学习系统布置到实体机器中时,常常陷入两难的境地:如何将一个问题嵌入到qubit网络中;让qubit以正确的方式相互作用。

当载入数据之后,你需要将数据存储起来,并确保量子系统在与数据相互交互时不影响正在进行的计算。Lloyd和他的团队提出了一个使用光子的量子RAM,但是目前还没有超传导qubit或囚禁离子(trapped ions)的类似装置——用在先进量子计算机中的技术。“除了构建量子计算机本身之外,这是一个额外的技术难题。从我和一些实验主义者的谈话中,我发现他们对待这些难题的态度是畏惧的。因为他们不知道如果开始构建这样的量子计算机。” Aaronson表示。

最后还有一个问题:如何导出数据?这意味着检测计算机的量子状态,一次检测不仅只能一次返回一个随机抽取的数字,而且还会使整个状态崩溃,在你还没来得及收回数据之前,其他的数据就已被清除。你只能再次一遍又一遍地执行算法,以收回所有信息。

不过并不是没有希望。在某些问题中,你可以利用量子干涉(quantum interference)。也就是说,你可以设计运算过程,使错误的答案自行消除,并巩固正确的答案。这样,当检测量子状态时,计算机就会给出你想要的数值,而不是随机数值。但是只有少数算法(例如蛮力搜索算法brute-force search)可以很好地利用量子干涉,而且速度是适中的。

在某些任务中,研究人员发现了输入和输出数据的快捷方法。2015年,Lloyd、加拿大滑铁卢大学的Silvano Garnerone和南加州大学的Paolo Zanardi证明了:在某些类别的统计分析中,不需要输入或存储整个数据集。同样,当几个关键数值就可以满足需求时,不需要读取所有数据。例如,科技公司根据庞大的消费者习惯数据,利用机器学习来矩阵为用户建议节目或者商品。“Netflix或亚马逊(Amazon)并不需要获取到处生成的矩阵,它们要做的只是为用户生成建议。” Aaronson称。

所有这些引出了这样一个问题:如果量子计算机只在某些特殊任务中表现优秀,传统的计算机是否也能胜任这些任务?这是量子计算领域的一个还未解决的大问题。毕竟普通的计算机也十分强大。处理大型数据集的常用方法——随机采用,在本质上与量子计算机十分类似,即:无论系统内部进行何种运算,最终返回的结果都是随机的。Schuld称:“我研究出来的很多算法常常让我感到‘它们太棒了,我们这下可以提升运算速度了’。不过我为了好玩又编写了一个在传统计算机上运行的抽样算法,我发现用抽样算法也可以实现相同的效果。”

如果回顾量子机器学习目前为止的成果,你会发现它们都带有星号。以D-Wave计算机为例:当分类汽车图像和希格斯粒子时,D-Wave计算机的速度并不比传统的计算机快。“我们在这篇论文中没有谈到的一个问题是量子加速。” Google DeepMind团队的计算机科学家Alex Mott表示。他曾经是Higgs研究团队的一员。矩阵代数方法(例如Harrow-Hassidim-Lloyd算法)只有在矩阵为稀疏矩阵(多数元素为零)时才会实现量子加速。“在机器学习中稀疏数据集是否真的有趣?从没有人问过这个问题。” Schuld表示。

量子智能

话说回来,现有的方法偶尔有什么进展,科技公司们就会感到十分高兴。“我们看到的这些优势都不算大;它们虽然不是指数性的,但是至少是二次的”微软研究院(Microsoft Research)的量子计算研究院Nathan Wiebe称。“如果量子计算机足够大、足够快,我们就可以彻底改变机器学习的许多领域。”在应用这些系统的过程中,计算机科学家可以解决一些理论性难题——这些系统是否在本质上更快,原因是什么。

Schuld还看到了量子计算在软件方面的创新空间。机器学习不仅仅是计算问题,而且还是很多问题交缠在一起,每个问题都有自己特殊的结构。“人们编写的算法被从使机器学习变得有趣和美丽的事物中移除。这就是为什么我开始探索其他方法和思考的原因:如果有了量子计算机(小型的),它可以运行什么机器学习模型?也许这样的模型还没有发明出来。” Schuld说。如果物理学家想要让机器学习专家刮目相看,除了构建现有模型的量子版模型外,他们要探索别的突破。

许多神经科学家现在认为人类思维的结构反映了身体的要求,实际上机器学习系统也囊括万千。这些系统所处理的图像、语言和大多数其他数据都来自于真实世界,这些数据反映了世界的种种特征。同样,量子机器学习系统也是包罗万象的,它所反映的世界要远远大于我们的世界。毫无疑问,量子机器学习系统将在处理量子数据上大放光彩。当数据不是图像,而是物理学或化学实验的产物时,量子计算机将会大显神通。如果解决了数据输入问题,传统的计算机就将会被完全淘汰。

第一批量子机器学习系统可以为后来的系统的设计提供帮助,这就形成了一个很好的自我参考循环。“我们可以使用这样系统来构建量子计算机。在某些调试任务中,这是我们唯一的方法。” Wiebe说。也许这些系统甚至可以纠正我们的错误。且不谈人类大脑是否是量子计算机——这是一个备受争议的问题,大脑有时候的行为让人感觉它就是量子计算机。众所周知,人类的行为离不开情境;现有的选择决定了我们的偏好,这其实和我们的逻辑相悖。从这个角度看,我们确实像是量子粒子。“人类问问题的方式以及对顺序的重视,都是量子数据集中非常典型的特性。” Perdomo-Ortiz说。这样看来,量子机器学习系统可以帮助我们研究人类认知偏见。

神经网络和量子处理器有一个共同点:那就是它们竟然能实现。训练神经网络绝不是想当然能做到的,过去几十年间,大多数人都对是否能做到持质疑态度。同样,量子物理学是否能被用在计算上也不好说,因为我们对量子物理学独特的能力还知之甚少。但是神经网络和量子处理器都已实现,虽然并不是总能实现,但是还是超出了我们的预期。考虑到这一点,量子物理学和神经网络的结合也很可能会在未来大放异彩。

原文链接

文章TAG:数据挖掘专家哪些数据分析和数据挖掘的牛人数据数据挖掘挖掘

最近更新