数据仓库和大数据正朝向数据湖方向发展

data, blue, code

物联网和机器学习是工业 4.0”中两个重要方面两者都将带来前所未有的数据收集和分析,推动新的见解和效益产生。想要利用制造数据来促进改进并不是什么特别新鲜的事新鲜的是从大数据准备工作进行过渡,这项工作通常数据仓库甚至大数据工作中占很大比重分散系统的数据往往需要经过多级聚合和索引,才适合用于解决传统问题。

 

制造商应该计划使自己的所有企业数据集纳入到更大的数据湖中。数据湖是一存储库,保存大量原生格式原始数据,包括结构化数据、半结构化数据和非结构化数据。数据结构和要求直到需要数据时才会进行定义。向数据湖 的过渡更注重分析工具的访问灵活性,而降低了对数据准备工作的关注根据数据湖的定义,数据湖由各种数据源组成,只有在查询时才定义可访问性要求和工作

 

大量基于物联网以资产为中心的流程变量必须与传统的业务数据达成平衡。有些信息只存储在 ERP 数据中, ERP 数据是“工业 4.0工作的核心部分。举例来说,灵活的制造资产可用于生产许多不同的 SKU。在生产不同 SKU 时,资产消耗各不相同此外,资产消耗还会因运营商及其资产运营方式而有所差异。生产订单和分配操作员之间差异的相关数据通常位于 ERP 系统中。

 

基于 ERP 的资产数据是全面了解资产绩效的基本要素。这些生产数据的形式和格式显然与时间变化的标量值完全不同,标量值表示的是直接来自资产和物联网的信息流和速度。虽然数据格式存在差异,但考虑生产所有环节以提供全面信息依然很重要。制造商利用机器学习技术来推动真正的预测性维护时,必须要考虑所有这些不同但又相关的数据。对于任何给定时段的传感器数据,只有放到该时内处理生产订单的环境,才能得到真正的评估。高级数据分析和机器学习可以利用这种“块状”数据集。

 

数据仍然是理解和潜在改进的重要基础。原先批量导出和导入活动的方法是针对集中式密集索引的数据仓库执行,但现在需要重新思考这些方法。面向“工业 4.0的工具需要通过数据湖方法,提供给本机和开放形式数据。