5 分钟阅读

数据科学:采用数据驱动的方法开展业务

数据科学不仅仅是提供重要信息。通过将合适的模型应用于合适的数据,数据科学使公司能够在大量数据中识别各种模式,以预测并最终影响业务成果。换句话说,数据科学可以为公司提供必要的远见,从而更好地服务客户,开发更具吸引力的产品,提高运营效率。


什么是数据科学?

数据科学指的是使用机器学习、数据挖掘、预测分析、深度学习和认知计算等技术,发现隐藏在大量杂乱数据中的模式和重要信息的过程。与传统商业智能及相关方法不同,数据科学并不局限于结构化数据,它不需要将数据整理成整齐的行和表,也不限于小型数据集。相反,数据科学技术可以大规模应用于大量的半结构化和非结构化数据,比如基于文本的数据、机器数据、传感器数据和社交媒体数据。得益于这种限制较少的数据分析方法,数据科学使企业能够找到他们甚至不知道要如何询问的问题的答案,这可能导致发现潜在的突破性重要信息,从而提升竞争优势。


为什么数据科学很重要

发掘大数据的价值

Hadoop 和基于云的存储等现代数据管理方法能够以前所未有的优惠价格存储大量数据。但存储大数据本身并不会提供价值。通过应用数据科学,可发现可操作的重要信息,从而发掘大数据的价值。

可预测、主动

通过事前预测事件发生的可能性,数据科学使公司能够主动采取行动来优化成果,而不是在事后对事件作出反应。

持续学习

数据科学不是一次性事件。随着数据科学驱动的重要信息付诸实施,这些行动的结果将反馈到预测模型和算法中。最终形成一个不断改进的自学系统。

数据科学适用于所有行业

数据科学几乎在所有行业都有应用。农民使用数据科学来确定种植作物的最佳时间;零售商使用数据科学向客户提供个性化优惠;工业公司使用数据科学来防止设备故障。从金融服务、保险、医疗保健再到能源,各行各业都在通过数据科学发生转变。



“大多数通过其规范分析获得结果的企业正在通过数据科学活动获得重要信息。而更成熟的企业正在探索机器学习并评估实时和近实时部署。”

Michele Goetz
首席分析师, Forrester Research
引自 InformationWeek 2016 年 6 月的一篇文章《使用规范分析的 8 种智能方式》。



您正在考虑采用数据科学?
需要注意的事项

数据科学需要从大量数据中提取价值,并可能产生颠覆性的重要信息。然而开发数据科学实践并非易事。如果您的企业决定向前发展,请确保您提前知道以下这些问题的答案。


您准备好为数据科学人才支付费用了吗?

同时拥有统计、分析和数学技能的数据科学家很罕见,但需求量很大。要开始进行数据科学实践的企业必须做好为顶尖的数据科学人才多花钱的准备。

您将如何企业数据科学团队?

在一些企业中,数据科学家是支持整个企业的集中式共享服务的一部分。而在其他一些企业中,数据科学家隶属于业务部门。这两种方法各有利弊。请考虑一下哪种方法更适合您的企业结构和文化。

您可以扩展您的数据科学工作负载吗?

在正常情况下,更多的数据等于更好的数据科学结果。而值得高兴的是,无论企业内部还是外部,都有大量数据供您分析。但在大量数据上运行数据科学算法和模型十分具有挑战性。您需要使用能够大规模运行数据科学的技术和技能。

您运行数据科学的策略是什么?

如果从数据科学得出的重要信息没有得到使用,那么它们没有任何价值。而且,这也一定会使希望其工作带来影响的数据科学家变得很沮丧。请确保您针对如何使用预测模型和其他数据科学输出来解决实际业务挑战制定一个计划。

您将如何监管数据的使用?

虽然得益于数据科学,某些事情看起来很有可能,但这不意味着您应该这样做。使用数据科学的企业还必须根据道德和法律标准制定有关如何使用数据的基本规则。



主要区别: 数据科学与传统商业智能"
数据科学方法
传统商业智能方法
探索性。 数据科学鼓励实践者随时随地探索数据。这是一个需要实验的迭代学科。 预先确定。 传统的传统商业智能系统高度结构化和模型化,只向预先确定的高价值问题提供答案。
灵活。 支持数据科学的平台擅长快速轻松地从各种类型的源系统添加新数据。 僵硬。 对现有传统商业智能系统进行更改,是一件非常复杂且十分耗时的事情。
可扩展。 支持数据科学的平台必须高度可扩展,无论是从数据存储角度还是计算角度。数据科学算法和模型在运行所有数据而非样本时最有效。 不可扩展。 支持商业智能的传统数据仓库设备通常无法扩展,以满足严苛的大数据存储和处理需求。
前瞻性。 数据科学使公司能够预测未来事件的可能性。 后瞻性。 传统商业智能仪表板、报告和其他输出只详细说明已经发生的事情。
可操作。 通过应用来实现得出的重要信息,使用户能够采取行动来推动业务成果的实现。 不可操作。 传统商业智能报告和可视化虽然提供重要信息,但通常不会规定后续最佳措施。



Pivotal 和客户将数据科学付诸行动

欺诈检测

将预测模型应用于实时交易数据,以识别和停止欺诈活动。

客户细分

基于行为、交易、社会和其他数据分析更细微地划分客户。

客户流失

确定指示客户有可能弃用产品或服务并采取措施进行阻止的模式。

预测性维修

预测汽车、工业设备和其他机器中发生零件故障的可能性,以便可以采取预防措施。

情绪分析

分析基于文本的数据,比如电子邮件内容和社交媒体更新,以收集用户和客户情绪。

网络安全

识别对 IT 和其他网络的潜在恶意攻击和其他在线威胁,并采取预防措施。

推荐引擎

根据对过去购买行为和其他数据的分析,向用户推荐有针对性的产品、服务和畅销产品。

需求预测

提前预测对产品和零件的需求,以保持最佳库存水平。



数据科学八正道 – 四个阶段与四大区分因素
第 1 阶段: 问题制定
确保制定契合利益相关者目标的问题。
第 2 阶段: 数据步骤
构建合适的功能集,充分利用所有可用数据的数量、种类和速度。
第 3 阶段: 建模步骤
在这一步中,您需要从回答什么、哪里和什么时候的问题过渡到回答为什么以及怎么做的问题。
第 4 阶段: 应用
创建一个将模型与决策制定流程相结合并采取行动的框架。
四大区分因素

四大区分因素中的每个因素都适用于左侧数据科学生命周期的所有四个阶段。

迭代方法

以敏捷的方式执行每个阶段,与领域专家和中小企业合作,并根据需要进行迭代。

创新

抓住机遇,在每个阶段进行创新。

构建故事

创建基于事实的故事,以清楚地向利益相关者传达见解。

技术选择

选择合适的平台和合适的工具集来解决现有问题。



Pivotal 的数据科学

Pivotal 的数据科学家团队与各行各业的客户合作,以解决他们最迫切的业务挑战,并及时抓住市场机会。

在 Pivotal 数据科学互动期间,团队通常可以:

评估现有的分析功能和数据源

确定具有高商业价值的可执行使用情形

以迭代方式制定、发展和完善分析模型

通过将预测重要信息嵌入业务逻辑和智能应用来实现运行

Pivotal 数据科学家还帮助客户在互动过程中学习和发展自己的敏捷数据科学技能,以便他们能够继续处理新的使用情形。



Pivotal Moments
在 Pivotal 数据科学家的帮助下,Synchrony Financial 为其移动应用开发了“下一个最优报价”功能,该功能可预测可能的购买行为,并为客户提供有针对性的优惠。
康卡斯特与 Pivotal 数据科学家合作制定算法,以使其能够识别和停止其网络上的可疑活动,比如未经批准的文件共享。
作为与 Pivotal 进行数据科学互动的一部分,Fiat Chrysler 正在开发客户情绪分析功能,以使汽车制造商能够减少客户流失并提高客户忠诚度。



Pivotal Data Science
帮助您预测结果,甚至改变结果


Pivotal Greenplum
针对海量数据执行强大的交互分析


想找到更多与数据科学相关的资源?

查看所有资源

使用入门 with Data Science
The Last Mile: Operationalizing Data Science

下载

Using Data Science for Cybersecurity

Watch Now

Meet our Data Science Advocates

了解更多

阅读下一部分
智能应用