035棋牌

2019-09-10 | 作者:微軟亞洲研究院

编者按:“如果今天大家想从我的演讲中记住一点东西的话,那就是Data for Good——数据要用来做好事,要负责任地使用数据。”8月30日,哥倫比亞大學數據科學研究所所長周以真教授在“二十一世紀的計算”大會上這樣闡釋了數據科學研究的使命。同時,她還分享了哥倫比亞大學許多以此爲基礎的最新研究。錯過大會現場的小夥伴們快看過來吧。


很长时间以来,数据是由科学仪器生成的,比如说对撞机、望远镜、卫星等仪器能生成海量的数据。而今天不同的是,我们人类也在产生大量的数据,这是大数据的一个新现象。我们不仅收集数据,还会对数据进行清理、压缩、加密等等,完成之后我们才将其储存起来,就像一个 DNA 库一样。接下来我们还会去组织数据,以便最终能高效地提取数据,这就是数据管理的作用。然后我们可以进行数据分析,人工智能、深度学习、机器学习这些技术开始发挥作用。最后,我们还要对数据进行可视化,数据必须用直观明了的方式可视化地讲述一个故事。值得注意的是,对隐私和道德的关注贯穿整个流程。我们需要非常关心隐私和道德,就像微软非常关心人工智能的道德和伦理一样。

哥倫比亞大學數據科學研究所所長周以真教授

數據科學的使命

數據科學是什麽?數據科學是從數據中發掘價值的研究,這裏面的關鍵詞就是價值。價值取決于終端用戶的解釋。對于科學家來說,價值就是發現新知識;對于天文學家來說,仰望星空就是爲了發現新的行星;對于企業家來說,價值就是利潤。剛剛說到的人工智能、機器學習、深度學習都是孕育價值的工具。

哥倫比亞大學數據科學研究所有300多位老師,遍布于17個系,涵蓋了所有的學科,涉及醫療、法律、商業等專業;有幾大研究中心,包含金融分析、醫療分析、傳感等研究方向。我們非常歡迎中國學生,也會一直歡迎中國學生。

我们的数据科学研究一共有三个使命:一是推动数据科学前沿领域的发展。数据科学是一个全新的领域,数据科学的基石是计算机科学、统计和云研究。二是通过数据科学转变各个领域和行业,实际上数据科学家遍布我们的学校,这种转型也涉及各个学科。第三个使命是保证数据被负责任地使用,使其造福社会。我们要解决气候变化、医疗卫生、社会公正等带来的各种挑战,同时还要负责任地使用数据,关注数据道德和隐私的问题。总结一下,如果今天大家要从我的演讲里收获什么,或者大家想从我的演讲中记住一点,那就是 Data for Good——数据要用来做好事,要负责任地使用数据。

推動數據科學前沿進展

接下来介绍一个我们的数据科学研究。它来自一个融合了统计学、计算机科学和社会科学的全新领域——因果推理。这对计算机科学、数据科学还有人工智能都有很重要的意义。我们想要解决的问题叫做多因果推理(Multiple Causal Inference)。传统的因果推理是单向的,一个原因带来一个结果,而在这里我们关注的是多个因果的联系。举个例子,假设导演想要拍电影,在挑选演员的时候他们想先预测一下用哪个演员能带来多少收入。我们现在有一个数据库,包含电影名、演员还有票房等数据,我们想通过统计的方式知道每个演员能转化成多少票房。这个工作的难点在于,这里面有不少混杂因子,既影响因,又影响果。比如说,电影的类别就是一个混杂因子,因为大部分时候动作片就比艺术片票房要高;还有电影的叙事方式也对票房有影响。这些混杂因子会影响建模。

传统的方法可能会先列出所有的影响因子,计算一下可能结果,但是否已经测量了所有的混杂因子是不可证伪的。于是我们提出了一个想法——去除混杂因子(Deconfounder)。这是一种结合了无监督机器学习和预测模型检测的算法,推断潜在变量将其作为未观察到的混杂因子的替代,然后用这个替代来执行因果推断,估计“接近真实”的因果效应。Deconfounder 有三个特点:比经典因果推断更弱的假设;对混杂因子的替代效果是可以检测的;无偏推断。

回到电影选角的例子,我们通过 Deconfounder 的方法测量了007系列电影中演员的票房影响力,发现经过去除混杂因子后,Sean Connery(James Bond)的价值比没有去除混杂因子前提高了不少,而另外两个演员 Bernard Lee(M)和 Desmond Llewelyn(Q)的价值却下降了。事实上,多因果推断在现实生活中有很多应用,比如基因分析、挑选运动员还有商品定价等,有助于解决很多现实问题。

用數據科學轉變各行各業

數據科學的第二個使命是將其應用在各個不同領域中,譬如生物學、經濟學、金融學、天體物理學等學科,推動各行各業的轉型。

我们和微软合作了一项研究,将机器学习与经济学结合,研究人工智能众包平台 Amazon Mechanical Turk 这样的劳动力市场,是否是一种买方垄断(即只有一个买方而有多个卖方,此时买方具有垄断性,可以付出较低的价格),它可能不是一个公平的劳动力市场。

另一個例子是強化學習在金融工程中的應用。現在很多金融機構都會用機器人投資顧問,不用花幾個月的時間,幾分鍾就可以通過強化學習學到你的風險偏好,而且現在和機器人交流越來越能夠像與真人交流一樣流暢。

還有一個完全不同的領域——曆史。哥大曆史系正在用機器學習模型、輿情分析等方式去分析曆史文本,例如,每年曆史系教授都會在美國政府發布的文件中搜集文本,比如搜集70年代外交官相互發的外交傳電,通過分析和可視化這些文件,來理解70年代發生的曆史事件。

Data for Good:负责任地使用数据

如何以負責任的方式使用數據,並以數據爲方式應對社會挑戰?

前面沈向洋博士讲到了微软的人工智能六大原则,我把它们调整顺序重新组合,变成这样一个缩写“FATES”,分别是公平(Fairness),负责任(Accountability),透明(Transparency),道德(Ethics),安全、保障与隐私(Safety,Security,and Privacy)。

數據助力安全與保障

我想重点谈一下“S”,安全、保障与隐私。这个项目叫 DeepXplore,它是用编程语言和软件工程的方式去测试深度学习系统的一个白箱框架,通过神经元覆盖(neuron coverage)和差分测试(differential testing)去发现 DNN 的很多意想不到的缺陷。什么是神经元覆盖?在软件工程中,测试程序会用到代码覆盖,为软件每一个路径创建一个测试,神经元覆盖的思路与之类似,比如创建一些输入的事件实例去覆盖每一个神经元,然后我们就会发现很多错误。这项工作也获得了 SOSP 的最佳论文奖。

另一个项目 PixelDP,现在有很多研究都揭示出 DNN 的脆弱性,连非常简单的涂鸦都会改变 DNN 的分类结果,而在自动驾驶时如果认错了交通标识,可能会导致非常严重的后果。这个研究工作受到了差分隐私(differential privacy)的启发,这个理念来自于密码学,我们把它嫁接到机器学习中,试图使 DNN 更加强大,以应对图像中的污染等情况。我们给 DNN 增加了一个噪声层,可以确保将输入中污染的影响控制在一定范围内,让分类器不会认错。

用數據應對廣泛的社會挑戰

雖然這方面的研究還處于初期階段,我們希望數據能幫助人類應對許多社會挑戰,比如下面展示的兩個氣候和醫療的例子。

大數據和機器學習可以幫助農民選擇更合適的播種作物,來減少多變的氣候對農業産量的威脅。研究者研究了印度種植的5種農作物的數據,小米、玉米、水稻、珍珠米和高粱。很多農民會大範圍種植水稻,但是水稻對降水、氣溫、土壤等條件的變化都比較敏感,在遇到頻繁氣候變化時,在一種稻米上孤注一擲就可能導致國家的農業總産量下降,使得糧食供應受到影響。因此我們的研究對印度的作物種植多元化給出了一些建議,有助于抵禦氣候變化的不利影響。

下面这个例子是一个全球性的医疗项目 OHDSI(Observational Health Data Sciences and Informatics),我们看到的是来自25个国家的6亿患者的电子病例数据,都用同样的格式对数据进行收集整理,这些数据令人惊叹,可以使我们深入了解仅靠临床了解不到的医疗情况。

之前講到探究多因果的關系是一個去混雜因子的過程,如果只用簡單的線性回歸的模型看某種藥物的效果,可能會無法發現這種藥物到底是因是果,不能有效地找到因果關系。在多因果關系的推理框架下,去混雜因子是非常有前景的,比如在梳理這些病例數據的時候。

最后请大家记住“Data for Good”,谢谢。

標簽

?