以正确的方式构建(大)数据管道

外部数据可用于提高整体业务绩效。但是,首先要深入了解外部数据的来源和实施到管理实践中的方式。

外部数据的效用逐年增加。随着收购变得越来越普遍,小型企业可以访问,外部数据的应用程序激增。然而,对此类数据的适当管理仍然是一个问题。过去几年进行的一项调查表明,即使是传奇企业也难以管理数据。

在继续之前,我强烈建议您阅读我之前关于此主题的文章。如果已经奠定了适当的基础,则跳入外部数据及其获取和管理会更容易。

了解外部数据

乍一听可能很简单。但是,外部数据是从组织外部获取的所有数据。在营销中,它通常被称为第二方或第三方数据。

然而,外部数据以多种形式出现。

我们应该在传统外部数据、高级外部数据和替代数据之间做出三个重要的区分。首先,我们大多数人都熟悉传统的外部数据源——政府记录、统计部门、新闻稿等。

虽然相对较少的企业大量使用它,但传统的外部数据仍然在金融行业和其他几个行业中占有一席之地。然而,高级外部数据旨在吸引更广泛的受众。

先进的外部数据是通过互联网监控和自动数据收集产生的。

许多企业使用一些高级外部数据的衡量标准,例如社交媒体情绪分析或跟踪和监控客户评论。

最后,替代数据并不是一种新型数据;而是一种品质。虽然它有很多定义,但通常被理解为传统数据的对立面。换句话说,它正在获取不经常使用的数据,并从中得出可操作的见解。

替代数据的一个很好的例子是卫星图像。同样,这可能会让人感到意外,但对于此类数据,金融部门有一个相当直接的用例。

研究人员发现,零售商和其他重要市场参与者的卫星图像可以让投资者在其他人赶上之前推断出价值波动。

在这种情况下,可以使用替代数据来做出更好的投资决策。

将高级外部数据集成到现有管道中

与内部数据不同,外部数据需要一些奉献精神,内部数据主要是作为其他业务流程的副产品收集的。它只能通过创建内部数据收集团队或从第三方供应商处采购来获得。

然而,在开始任何网络抓取或自动数据收集之前,需要决定三件事:需要什么样的数据、如何实现以及存储在哪里。

正如我在上一篇文章中提到的,数据仓库应该是所有业务数据到达的地方。但是,这仅适用于未用于日常操作的数据。外部数据既可以为日常运营提供动力,也可以用于更长期的目的。

如果数据是为日常操作收集的,例如动态定价,则信息可能永远不会在仓库中结束(或以不同的方式结束)。在这些情况下,长期存储可能会成为事后的想法,因为动态定价将是一个复杂的 API、数学比较和计算网络。

如何理解高级外部数据和替代数据

另一方面,一些高级的外部和替代数据只有在与附加信息相关的存储和分析时才能被理解。这些案例更为复杂,需要大量规划。

首先,所有收集的数据都应该有特定的目的。通常,该目的将是支持或否定假设。回到我们的卫星图像示例,此类数据需要长期存储并手动分析。它应该被分配一个特定的主题和期望。

其次,应该理解的是,在某些情况下,替代数据可能没有用。例如,由于通常假设数据可以提供对某些特定现象的见解但尚未经过彻底测试,因此可能会发现替代数据无法支持提议的假设。

最后, 外部数据收集流程需要比传统流程更多的维护和支持。如果企业还没有专门的分析师或提取团队,则很难使用高级外部或替代数据。

建筑支撑结构

为了利用先进的外部和替代数据,需要建立支持结构。在某些情况下,如果数据是从第三方供应商处获取的,则它们可能非常简单。只需要一个数据分析师团队和一些治理实践。但是,当然,仍然需要数据质量审查和其他流程。

如果没有数据供应商可以提供必要的信息,或者由于其他原因必须建立内部抓取团队,事情就会变得更加复杂。

由于深入的技术开发是我信任我的同事的事情,因此我将跳过细节。相反,对于大多数企业来说,寻找提供抓取解决方案的供应商是更容易的选择。

尽管如此,正确的集成将需要一个专门的数据团队来处理流程,尤其是如果信息是从多个来源收集的。在将数据移动到仓库之前,至少必须执行三个关键步骤:清理、规范化和保证。

从多个来源自动提取的数据不会统一,可能会出现损坏,或者可能只是不准确。

因此,需要执行数据清理。之后,数据必须先规范化,然后才能移动到任何地方。通常,这主要是固定格式、命名约定和其他结构方面。

最后,质量保证是必要的,然后才能将其移动到任何地方,尽管与某些其他类型的数据不同,抓取的数据通常具有预先确定的质量要求。在某些数据是从供应商处获取的情况下,质量保证变得更加重要。

结论

一旦外部数据进入管道,事情就会变得更加复杂。

由于自动化数据收集需要技术专长或分析能力,或两者兼而有之,成本也会增加。因此,必须提前仔细计划将外部数据集成到业务流程中。

然而,通过外部数据获得的收益是巨大的,并开辟了全新的增长机会。

文章内容来自网络,如有侵权,联系删除、联系电话:023-85238885

参与评论

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

评论区