菜单

数据科学:北大这个学科竟然教“炼丹”?!

2017-11-20   作者:来星凡、刘文欣、谢蝶

图1:新浪科技统计的今年双十一交易额大数据

数据科学是什么?能吃吗?

尽管近年来数据科学热度不断飙升,“阿尔法狗大战李世石”的话题在短时间内迅速登顶微博热搜,但要问数据科学是什么,可能答案就言人人殊了。北大数据科学方向15级本科生、北大前数据科学学会会长、现元培学院学生学术协会主席伍维晨就谈到,目前对“大数据”、“数据科学”这些概念存在“滥用和误解”。数据科学强调的是对数据进行深入分析,并不必然要求大量的数据。现在的研究主要面向大数据,是为了适应数据爆炸的背景。同时,“大数据”研究也不单指研究数据量的庞大,如果只是采取简单的描述性统计,那么再大的数据量也不能称作“大数据”研究。数科领域现在最火的“深度学习”,大众看来神乎其神,却被业内的人戏称为“炼丹”——只知道炼出来是个丹,但是不知道炼丹炉内究竟发生什么了化学反应。唯一比古代的“炼丹术”好的一点,可能是古代炼丹炼不出长生不老药,而深度学习能“炼”出可应用的东西。

图2:AlphaGo之父哈萨比斯演讲:AI就像望远镜

另一方面,由研究到从业,社会对“大数据”人才的需求量都非常大。社会需要这样的人才:不仅要有数学、计算机、统计的坚实基础,也要能懂模型算法、解决实际问题。这些,在单纯的数学或者说统计、计算机的专业难以达到;数据科学便应运而生。数据科学专业的建制人之一,北京大数据研究院院长、北大元培学院院长、中国科学院院士鄂维南教授提到专业的考量,就是在基础层面,加强从数据采集到存储的系统训练;在应用层面,加以有效培养,即把有志于研究的学生推到研究的前沿,把倾向于应用的学生引向大数据应用的各个领域,比如医疗、交通、金融、新闻与传播等,让他们熟悉各个行业自身的业务。

整合:好土发新芽

在中国面临社会变革的历史阶段,北大总是充当先锋。在大数据时代人才的培养上,北大数据科学专业也走在前面。这种担当能够实现,源于北大扎实的学科基础和缜密的考察分析。

北大的数学和信科专业水平都很高。北京大学数学科学学院(以下简称数院)学科门类齐全,教学与科研并重,理论与应用并举,是具有重要国际影响的数学科学研究和人才培养基地。长期以来,北京大学信息科学技术学院(以下简称信科)也取得了一系列国内领先、具有国际影响的重大研究成果,在我国信息科学技术发展进程中创造了多个“第一”,培养了一大批信息领域的栋梁之才,为国家信息科技产业发展做出了重大贡献。北大数学和信科扎实的专业基础为学科的交叉融合提供了条件。

图3:数学科学学院介绍

图4:信息科学技术学院介绍

仅仅有基础还不够。其实,北大的数据科学本科方向在数院、信科两院都开设,元培数据科学与则进行了培养方案的进一步优化整合。数院、信科的数据科学方向的培养方案还是偏重数学科学和计算机科学,包括了一些与数据科学不直接相关的课程,比如在纯数学领域非常重要的“解析几何”、号称信科“第一大神课”计算机系统导论(ICS)。元培数科则整合度相对高。伍维晨曾提到的数据科学两大面向,也是元培数据科学的培养方案所本:“第一是统计的面向,例如概率论,数据统计;第二是计算的面向,例如数据结构与算法,算法设计与分析,优化算法。”基于这点,数科展现了以数据为核心的学科交叉融合。

自由:思考者的空气

鄂维南教授曾经将中国大学生和西方大学生作比较,认为中国大学生往往给人留下勤奋用功、大量刷题,却缺乏学习的主动性和独立思考能力的刻板印象。作为数科专业的建制人之一,他希望改变这种现状,而必要的一个手段,就是用足够的自由解放学生的自我驱动力

数据科学15级的张宏毅对“数理逻辑”课堂上的“形式化”论题记忆犹新。通俗来讲,形式化过程就是把想要表达的意义用符号表示出来。“数学就是要研究,我们怎样去形式化以使得自然语言最严格”、“我现在说了一句话,如何用符号最能表达我的意思?我把所有的话都写成符号,是不是能表达世间所有的意思?”,从数学符号问题,张宏毅展开丰富的联想。他甚至想到“可计算性”,想到计算机的计算能力和人脑的计算能力的区别界限。虽然这些问题目前可能没有答案,但这些思考,使他不仅将数科作为他生命里的一个职业,更试图为之奠基。

张宏毅选修的数理逻辑,在北大的信科和数院都有开设,但是难度有差异。在数科,同学有较大的选择权。因为对这方面感兴趣,张宏毅选了数学学院开设的稍难的一门。事实上,数据科学方向的培养方案十分自由,2016年的培养方案是学生自己参与制定的。数科毕业的硬性学分要求是130分,比普通院系少十几分,目的就是精简课程、突出核心,同时让大家在选修课上有更多自由发挥的空间。

图5:数据科学与大数据专业学分要求

成熟:从炼丹术士到化学家

然而,选课和设置课程的弹性,并不意味着无拘无束、流于浮泛。虽然2013年,美国总统奥巴马才首次提出“big data”大数据的概念,但数据研究其实由来已久。以“数据科学导引”为例,这门课教授的内容已有几十年的研究史,课堂上会涉及比较前沿的研究,但是大部分是成熟的知识。为了更好适应大数据研究的新潮流,2015年,北京大学设立大数据与数据科学方向。与这个不断进步与发展的新兴方向一样,数据科学专业也在方案的提出、试错、修改中不断完善。

在某种意义上说,数科专业的教学和这个领域的研究状况有某种相似之处——未知中包含已知。在这样一个新专业中学习,总会有一些崭新的体验。在一些新开设的课程中,课本可能都没有正式出版。但是这些“新”不代表不成熟。正如鄂维南教授所说,“一个新的专业开设新的课程,很正常。方向新是事实,但是数据科学的基础早就有了,课程计划是很成熟的,只是这几年才变得热门而已。”在这个意义上,数科同学更像是“化学家”,通过选课、与导师交流等日常可控的选择,每时每刻塑造着全新的自己,希望能够在未来撑起一角天空。

图6:数科同学讨论后的合影

学术之外

数科同学可不是大家印象中的刻板理科生哦!

能就学术话题侃侃而谈的伍维晨对音乐很感兴趣,考取了中央音乐学院的钢琴九级(注:伍维晨参加考试时,最高级就是九级)。16年元培“一二九”合唱比赛的指挥也是他;同时他还喜欢下围棋,是中国棋院围棋业余5段。伍维晨从高中就开始担任学生会主席,现任元培学院学生学术协会主席。全面发展加上出众的领导力,“伍总”的外号一经同校的理科状元带进北大,就广为流传。

张宏毅的freestyle则展现在他对音游、日语和解谜的喜好上。音游是一种需要配合音乐与节奏做出动作的游戏,玩家在锻炼节奏感、反应速度的同时还可以欣赏音乐。从初中到高中,他还坚持自学日语。至于“解谜”中的“谜”,则是张宏毅根据“平时的奇怪脑洞”自编的。他开设了自己的公众号,分享这些谜题作品。通过这个喜好,他结交了一群拥有共同爱好的挚友,“有种白手起家创业的感觉”。和伍维晨一样,张宏毅也是数科“封神”者之一。张宏毅谦虚地说自己只是“宅”,但在学术和爱好中游刃有余的他,其实有着出众的自我把控力。

图7:关注张宏毅的公众号之后,可以打开一个解谜论坛。上为论坛同好交流截图。

从兴趣广泛的个体代表中,我们可以窥见数科专业的整体气象。学生团队的建立、共同学习小组的建设,也是他们用更喜欢的方式去重构学习生活的尝试。置身于“自力更生”氛围的元培,他们自我创造、自我锤炼。这学期,一个一起读

数据科学的未来

数据科学是一门理论性和实践性并重的学科,它有非常的理论的面向,比如统计学理论;也有非常实践的面向,比如数据科学在医疗、交通、环境、金融等各行各业的应用。

在医疗方面,CT图像要用X光照射,但X光对人体有伤害。用比较低剂量的X光照射可以减轻对人体的伤害。但剂量越低,噪声就越大,会加剧检测中的干扰。数据科学可以把模糊的图像还原成清晰的图像,从而解决这一矛盾。

再如无人驾驶。对人的驾驶来说,从目标的确定开始,然后对周围的环境进行判断,再由一系列复杂的生物化学反应得出对情境的判断,最后决定左拐或右拐,加油或刹车。这个过程人工智能应该怎么处理呢?这也需要数据科学。

许多数科同学即将投身于这些领域中,大展身手。如果矢志于科研,北京大学数据科学研究中心、大数据研究院这两个平台欢迎他们的到来。随着导师制度的进一步完善,学生与导师和学术前沿的对接也会更加顺利。

图8:北京大数据研究院,数科同学未来可能的保研去向。

从播种到初生新芽,从新生到渐渐成熟,北大数据科学正以无可抵挡的速度成长。依托坚实基础、面向崭新时代,它哺育着一大批有才华、有志气的青年;它适应着社会,改变着社会,并且将不断地为社会发展注入新活力。

彩蛋:

2016年元培学院“一二九”合唱比赛掠影;请欣赏:不愿意露出正脸的帅气指挥。

受访者:

普林斯顿大学教授、北大元培学院院长、中国科学院院士、北京大数据研究院院长鄂维南教授

 

北京大学元培学院于艳新老师

北京大学元培学院大数据与数据科学方向2015级学生伍维晨、张宏毅

制图:陈灿

部分图片、数据来源:受访者及网络

采访:何婧涵、来星凡、刘文欣、谢蝶

撰稿:来星凡、刘文欣、谢蝶