大数据如何影响咱们生活.docx

资源描述

大数据如何影响咱们生活.docx

《大数据如何影响咱们生活.docx》由会员分享，可在线阅读，更多相关《大数据如何影响咱们生活.docx（6页珍藏版）》请在冰点文库上搜索。

大数据如何影响咱们生活.docx

大数据如何影响咱们生活

大数据如何影响咱们的生活

信息大爆炸的今天，不讨论大数据那个话题似乎就是跟不上时期。

从医药到教育，再到其他各个领域，大数据充斥着现代社会的每一个角落。

而咱们最关心的仍是大数据最终将以什么样的形式，怎么样影响乃至改变咱们的生活。

来听听四位专家告知你大数据到底有多少可能。

丹·瓦格纳DanWagner

CivisAnalytics的创始人兼首席执行官

你曾经说过，希望用大数据解决全世界最大的问题。

你最想解决的问题是什么？

咱们主要关注两个领域：

教育和健康。

在教育领域，咱们专注于利用个人层面的数据，帮忙客户发觉那些申请和注册的大学低于其潜能的低收入学生，并帮忙这些机构找到适当的方式，让这些孩子进入与其潜能相匹配的大学。

保险投保也是咱们的目标之一，尤其是在《平价医保法案》刚开始实施的头几个月。

咱们主要致力于与多家机构合作，帮忙它们找到没有医疗保险的民众，并让他们加入到医保计划中来。

这是一项超级艰巨的工作，因为没有现成的无保险人员名册。

你只能通过统计推断来完成这项工作。

最值得关注的问题之一是，保险如何从集体保险向个人保险进展，和保险公司如何学会管理这一风险。

咱们正同几家机构合作，利用数据提前发觉诸如心血管疾病等个体风险，提前了解病人面临的风险。

一旦发觉有风险，你会增加投保人的保费吗？

你不能这么做。

你只能按照诸如年龄等一系列精简变量来肯定保单价值。

因此，你不能按照上述风险来定价，但你需要管理这一风险。

你同奥巴马竞选团队合作时，大数据发挥了如何的作用？

咱们带来的最显著改变是在媒体方面。

具体来讲，就是利用尼尔森收视率来追踪竞选广告的投放和效果。

透过收视率数据，你就恍如看到了一张人口统计表，能从中了解到观众群的组成，例如是西班牙裔，仍是女性。

我的做法是，按照咱们计算得出的个人可说服得分来概念咱们的观众。

咱们将这些数据与机顶盒数据相匹配。

由此就可以找到每一美元广告投放能带来最高可说服观众密度的电视栏目。

有了这些数据，咱们大体就可以按照一个单一的标准来决定广告投放的优先顺序。

这与人口统计学没有任何关系。

只需明确哪些是咱们在个人层面上肯定的、要特别针对的观众群。

这是一项超级艰巨的工作，但从文化角度来看，这种方式很适合咱们的竞选团队，因为，奥巴马竞选的典型特征是，选民摇摆不定。

咱们应当如何解决数据分析中的安全问题？

你必需超级重视那个问题。

很多这种机构在搜集信息，但我以为，其中很多机构都没成心识到什么是最高标准的数据安全操作。

咱们的很多工作都是在亚马逊云服务平台上完成的，这比你内部可能开发的东西要好得多，因为你能够利用亚马逊提供的很多网络协议。

亚马逊的云计算服务算是该领域最好的。

大数据热潮中，咱们可能犯的最大错误，或可能轻忽的最重要问题是什么？

大数据热潮最令人遗憾的一点是，人们只考虑其进程，而没有考虑结果。

有些时候，这股热潮有些盲目，在某种意义上，它只是将对数据计算能力增加的信念孤立地看做是一种解决问题的手腕。

你将如何运用这些未来真的能改善人们生活的数据？

这是个大问题。

在日常生活中，你是如何应对信息过载问题的？

作为一个在互联网相关公司工作的人，我有很多时刻是在网上。

但我尽可能缩短通过各类电子设备进行沟通的时刻，并尽力确保自己阅读大量书籍。

埃里克·谢德特EricSchadt

伊坎基因组织学和多尺度生物学研究所（IcahnInstituteforGenomicsandMultiscaleBiology）董事

如何证明超级计算在医学研究中能发挥重要作用？

主要通过两种途径。

一是管应当下医学领域产生的诸如DNA测序等海量数据。

举例来讲，一名癌症病人的全基因组序列会产生万亿字节之多的数据。

想象一下，若是要为数十万人做基因测序，就会产生万万亿，乃至百亿亿字节量级的数据。

要对这些数据进行管理并加以处置，使之转化为能被医界人员所用的信息，就需要超级计算设备和相关的专业知识。

另一个途径是，利用需要超级计算在短时刻内完成的超级复杂的数学算法，按照已经存在的疾病亚型，和医治该疾病亚型可能的最佳方式成立一个疾病预测模型。

这使医生在医治中的作用和病人与医生间的数据关系发生了如何的转变？

发生了根本性的转变。

与咱们现有方式的不同的地方在于，咱们更深切地研究个体，而非一个群体。

就拿糖尿病来讲，目前可能有100种不同的糖尿病亚型，而且你和你的邻居得这种病的原因也各不相同。

你可能是因胰腺β细胞功能受损所致；或你肌肉中的摄取受体不能有效地吸收葡萄糖等等。

不同的病因可能需要不同的医治方式。

医生看到的只是晚期症状，但此刻透过各类分辨率更高的科技产品他们能看到致使下游结果的上游病因。

最近医生们才看到了这些病因。

其中涉及数百万个变量，这是人脑无法理解的。

您适才说到的都是数学帮忙克服人脑缺点的方面，这些数学计算程序有哪些缺点需要人脑的帮忙？

咱们所做的工作是用一种需要人脑参与的方式来呈现信息，这是一种很棒的模式识别机械。

目前在专门大程度上人与机械是合作伙伴关系。

或许10年、20年以后，诸如Watson等运算机将变得超级壮大，人的干与会大大降低。

但目前还做不到。

很多组织搜集的医学数据只供己用，咱们应该对此感到担忧吗？

若是咱们真的希望对人类健康产生影响，这些数据和模型必需对所有人进行开放。

物理研究领域就有如此的先例，强子对撞机实验的全数数据都是对公众开放的。

固然，存在如何保护个人隐私的问题。

能够通过技术解决隐私保护问题吗？

咱们固然能够保护并存储数据，保护运算机环境的安全，并采取众多安全协议来确保数据不会陷入危险。

但有一点咱们很清楚，任何形式的高维数据都无法真正做到匿名。

就像照片一样。

你不能指望你的外貌也有隐私，因为人人都能看到你的脸，你不能将它藏起来。

我以为DNA和诸如分子尺寸等其他数据最终也将归入一样的范围，原因很简单，当技术足够成熟的时候，基因测序会像照相一样简单、廉价。

在日常生活中，你是如何应对信息过载问题的？

不能陷在大数据中。

我会去玩单板滑雪、骑摩托车，或是做一些能帮忙你放松，无需太动脑筋的活动。

安德烈斯·维根AndreasWeigend

独立顾问，亚马逊公司前任首席科学家

你曾经将大数据比作原油。

若是你在后院发觉了原油，你的那个发觉可能用途不大，因为你需要将原油精炼后才能供人们利用。

原始数据也像原油一样，不是拿来就可利用。

亚马逊和谷歌就是从事数据精炼提取的公司。

固然，据我所知，原油和数据二者之间最大的区别是，数据一时半会儿不会被用光。

而至于价钱，信息产品和石油产品之间的关系也超级成心思。

原油的大部份益处被你所描述的精炼公司而不是被其用户取得。

咱们如何才能保证每一个人都能从大数据中获益？

我以为，在苹果公司的应用商店发生的一切将会在数据经济领域再次上演，会有公司以这些数据为“原材料”推出服务。

若是成立一个应用商店，而另一家公司利用数据向消费者提供给用并与数据公司共享收入，价值由此产生。

大约10年前，你曾担任亚马逊首席科学家。

目前，世界是不是已经完全变样了？

10年前，咱们已经注意到行业的重点正由算法（意味着你能够从自己所有的数据中取得任何东西）向仅仅需要取得更多的原始数据这一方向转移。

所以说，此刻的情形与昔时完全不同，不过，咱们仍然有类似的想法。

贝索斯仍是贝索斯。

你以为哪些行业守着最丰硕的数据金矿却未找到利用金矿创造价值的方式？

中国有一家公司名叫腾讯，他们推出的微信完全颠覆了中国人的沟通方式。

与之相对应的另一家公司是中国电商公司阿里巴巴，该公司了解客户对哪些商品感兴趣，他们在搜索什么商品，和他们最终买了哪些商品。

阿里还清楚客户是不是退货和有无付款问题等。

这两家公司均拥有10亿客户。

它们了解客户的所有沟通适应或所有财务交易情形，所以，它们确实大有可为。

固然，这也取决于你对哪些行业感兴趣。

不过，真正的潜力是这两方面数据的交叉整合。

比如，在需要做出信贷决按时，你能够从腾讯了解很多信息。

因为，了解到你是不是曾经和妓女鬼混或与拉皮条的家伙有过来往，也能多多少少地了解你未来偿还贷款的偏向。

在日常生活中，你是如何应对信息过载这一问题的？

咱们必需形成一个认知适应，熟悉到人们是会错过一些信息的。

若是有人错过了你的一封电子邮件，请不要生气。

请通过另一个渠道与他们联络。

威廉·库科尔斯基WilliamCukierski

Kaggle公司的数据科学家

效果最好的竞赛有哪些？

我最看好的一场竞赛叫“找鲸大赛”。

竞赛中要寻觅的鲸是生活在大西洋中的一种濒危种群。

这些搜寻者拥有壮大的网络，不中断地记录鲸发出的声音，他们也拥有自己的算法，且效果超级好。

他们说：

“要不咱们把这些数据交给Kaggle，看Kaggle有无更好的解决方案。

”他们最后实现了非凡的功效。

目前，这些壮大的网络能够以接近99%的准确率来侦测出鲸的声音。

我以为，若是有人坐在纽约的办公桌前就可以够从事与日常工作毫无相干且在万里之遥的一项工作，并为咱们的日常生活带来庞大益处，这将是一项何等了不起的情形！

你们还在设法利用数据分析来进行癌症研究。

Kaggle是不是组织过很多医疗相关领域的竞赛？

Kaggle尚未在医疗领域涉足过量，主要原因是涉及泄露患者信息那个问题。

另一个难题是拥有这些数据的个人和机构把数据囤积了起来，不肯分享。

制药公司拥有制药实验的数据，它们把这些数据压在了箱底。

人们为了数据分享作了一些初步尽力，也许诺在这方面展开合作，但结果仍是各自都想保留自己手中的数据。

从某种程度上说，主要仍是担忧隐私保护问题。

你可能不会愿意把他人的基因组公开发布，然后大家都看出来这是家住骨干道232号的萨利·斯密斯（SallySmith）的基因组。

不过，与此同时，这些担忧也有些过度。

对于这种问题，人们恍如都在玩把戏，说什么除非把数据直接交给你，不然你怎么能够远距离地利用数据解决问题呢？

若是能消除这些顾虑，你就可以够取得一些实质性的进展。

你们公司在举行人人都能够参与的竞赛，而有些占有数据的机构却牢牢抓着数据不放手。

这是不是是一个矛盾？

我在日常工作中面临的最大挑战之一是说服人们分享数据，并令其确信这么做不会要挟到其机构的生存。

常常情形下，不是说你占有了数据，数据就成为与生俱来的无价之宝，数据是需要挖掘和分析的。

若是咱们从一个机构拿到了一组数据，并将其公开，问题的解决方式是公开的，这不会产生什么问题，因为没有其他人有相同的数据，也没有人会再去取得并利用这些数据。

你以为，关于大数据的各类说法和观点，哪方面的失控最严峻？

我必需纠正一下你的问题，应该是哪些方面没有失控。

在与人们谈论大数据时，很难避免失控那个问题，也很难避免其老板的介入，一样难以取得老板支持地说“好吧，咱们也做大数据吧”。

我以为，人们在数据量方面有些失控。

所以，常常有人会说，“咱们有10亿兆的数据，咱们有百万兆的数据。

”许多问题能够在更小的数据规模上取得解决。

比如，用输送带来挑选利马豆。

销售利马豆的公司希望利用照相机来发觉输送带上变质的利马豆。

你能够想象，若是你能够发觉一粒棕色利马豆，你就可以够发觉所有的棕色利马豆，而不需天文级别的数据来解决这一问题。

我以为，95%的问题适用于那个模型。

剩余5%的问题的算法需要大量的数据，提供的数据越多，其方案的效果就越好。

Netflix向用户推荐电影就是最好的例证。

展开阅读全文