一体化数据科学基座-Microsoft Fabric开箱报告

编者:按照我对微软产品的理解,一般一个大型数据平台的推出初期通常都有一些很奇怪的不足之处,但是Florescence同学开箱评估之后发现这回有点不一样啊,可用性很高,我们这把评估过程和这个服务的介绍一并发给大家看看。


我们先来说说Microsoft Fabric是什么。微软以前叫xx Fabric的产品还挺多的,什么App Fabric、SQL Fabric 等等,我还记得以前给人讲AppFabric的场景。这次这个干脆就叫Microsoft Fabric,看出来可能是个集大成者,也确实,Microsoft Fabric是面向企业的一体化分析解决方案,涵盖从数据移动到数据科学、实时分析和商业智能等内容。它提供一套全面的服务,包括数据湖、数据工程和数据集成等等。使用Fabric时,用户无需将来自多个供应商的不同服务拼凑在一起,而是可以享受高度集成、端到端且易于使用的产品,简化分析需求。该平台构建在服务型软件 (SaaS) 的基础之上,将集成性提升到一个全新的水平。

Microsoft Fabric可将Power BIAzure SynapseAzure数据工厂中的新组件和现有组件汇集到单个集成环境中,这些组件将呈现在用户自定义的桌面。Fabric 将数据工程、数据工厂、数据科学、Data Warehouse、实时分析和Power BI等体验汇集到共享SaaS基础中。这种集成当然也理论上具有以下优势:行业内广泛运用的深度集成分析、熟悉且易于学习的共享体验、开发人员可以轻松访问所有资产以及、一个统一的数据湖,允许用户在使用分析工具时保留原始数据。

借助Microsoft Fabric SaaS,所有数据和服务都无缝集成。IT团队可以集中配置核心企业功能,并且权限会自动应用于所有基础服务,数据敏感度标签也会自动跨套件继承。我们先打开来看看都有哪些组件:

Microsoft Fabric 中的数据工程模块允许用户设计、构建和维护基础结构和系统,使组织能够收集、存储、处理和分析大量数据。Microsoft Fabric 提供各种数据工程功能,以确保数据易于访问且高效。在数据工程主页中,用户可以:

1.使用Lakehouse创建和管理数据

2.将数据复制到Lakehouse的管道

3.将批处理/流式处理作业提交到Spark群集

4.使用Notebook编写用于数据引入、预处理和分析的代码

这里说到Lakehouse了,Lakehouse是一种数据体系结构,它使组织可以在统一的位置存储和管理结构化和非结构化数据,并使用各种工具和框架来分析和处理这些数据,包括基于SQL的查询和分析以及机器学习等其他高级分析技术。这是一种灵活且可缩放的解决方案,它与其他数据管理和分析工具集成,为数据工程和分析提供了一种全面的解决方案。

Lakehouse在创建期间自动生成 SQL 终结点和默认数据集来创建服务层。通过这种新的透视功能,用户能够直接在数据湖中的delta表上工作,从而从数据引入到报告,全程享受顺畅且高性能的体验。

值得注意的是,默认仓库是一种只读体验,不支持数据仓库的完整 T-SQL 外围应用。SQL 终结点中只有增量格式的表可用,我们无法使用SQL终结点查询ParquetCSV和其他格式的表。

自动表发现和注册是Lakehouse的另一项功能,它允许数据工程师将文件完全托管到表。将文件放入Lakehouse的托管区域时,会自动验证此文件是否采用支持的结构化格式(目前仅支持Delta 表),并使用必要的元数据(例如列名、格式、压缩等)将此文件注册到元存储中。然后,可以将文件引用为表,并使用SparkSQL语法与数据交互。数据工程师可以通过多种方式与Lakehouse和数据进行交互。资源管理器是主要的Lakehouse交互页面,可支持加载数据、使用对象资源管理器浏览数据以及设置MIP标签等各种内容。数据工程师也可使用笔记本编写代码,以表或文件夹的形式直接读取、转换和写入Lakehouse,或是使用数据集成工具(例如管道复制工具)从其他源拉取数据并将其放入Lakehouse。基于此,数据工程师可以开发可靠的应用程序,使用熟悉的编程语言执行Spark作业。

Microsoft Fabric数据工程和数据科学分支基于完全托管的Spark计算平台运行。该平台可提供精湛的速度和效率。用户可以创建和配置一个Spark集群——一个由多个计算节点组成的群集,用于并行执行Spark作业。用户可以指定群集的规模、虚拟机类型、存储选项等。在执行Spark作业之前,用户需要将待处理的数据加载到Fabric的存储服务中,在这里就是连接到我们的Lakehouse,也可以使用Azure提供的工具或API来将数据上传到存储服务中。

Notebooks是一种交互式计算环境,类似我们熟悉的Jupyter Notebook,它使用户能够创建和共享包含代码、公式、可视化效果和叙述性文本的文档。它允许用户使用各种编程语言(包括PythonRScala)编写和执行代码,可用于数据引入、预处理、分析和其他与数据相关的任务。

数据管道指的是一系列数据处理的步骤,包括收集、处理数据并将其从原始形式转换为可用于分析和决策的格式。它们是数据工程的关键组件,因为它们提供了一种以可靠、可缩放且高效的方式将数据从源移动到目标的方法。

接下来,我们通过两个demo演示一下Fabric的功能和使用方法。

Microsoft Fabric其实给出了详细的Demo官方文档(https://learn.microsoft.com/en-us/fabric/data-science/use-ai-samples),因而这一部分主要展示Fabric运行的模式和流程以及分享使用体验,具体步骤细节请参见文档。本文就把这些Demo中有意思的部分在复现中摘一些有意思的部分分享给大家。

  1. 模拟场景1:房价预测

这个实验可太有应景了,而且Ai4C应用研究院正好有一个孵化项目也与此有关,正好测试了一下Fabric的实用性。本实验旨在开发一个预测具有季节周期性时序数据的模型。我们选取了纽约市财政部门发布的2003年至2015年的楼市交易信息。导入数据后,我们从Lakehouse创建一个数据集并展示。

在Spark作业一栏可以清晰地看到说明和状态,如果出现错误也会提示报错信息。体验下来感觉Spark的效率还是挺高的。

接下来,我们采用pysparksql包的函数对数据进行了简单的清洗和预处理,从数据中提取出有效的销售额、房屋面积和格式化的时间信息,以便下一步喂给AI模型分析预测。下图分别是销售总额和房屋总面积随时间变化的统计图。

预测模型使用到了Facebook发布的Prophet库。Prophet使用了一种灵活的时间序列模型,结合了线性和非线性组件,以捕捉数据中的趋势和季节性。模型的训练过程使用了Stan贝叶斯统计库。Propeht的优点是高效且易于使用,无需太多的调参和特征处理,尤其在季节性数据预测中表现突出。简单调试后,我们取得了不同时间尺度下的预测结果。其中黑色点是用于训练的点,蓝色线是Prophet给出的预测,浅蓝色表示不确定区间。

Prophet还提供了内置的交叉验证函数以评估预测准确度,此处就不再展开。另外,Fabric还集成了其他强大的可视化工具,比如Power BI等,可以绘制各类美观的报表。上面这个图虽然不能精准地对某一个物业进行直接预测,而且宏观角度其实由于Range跨度给得也挺大,但是三五笔就能做出来这个效率还是挺不错的。

模拟场景2:文本分类

在这个场景下,我们的任务是在Spark上使用线性回归模型解决一个简单的文本分类问题。数据标签为Fiction和Non-fiction。

同样地,我们还是先下载数据集,并上传至Lakehouse,从Lakehouse将数据导入到本地进行清洗和预处理,使用word2vec将特征和标签接入数据管道。经过初步训练得到如下混淆矩阵。

由于不同标签的数据数量不平衡以及逻辑回归模型的局限,分类效果还有待提升。实验不同的超参数效果不够理想,换用决策树后初步分类准确率大约能达到85%

Fabric使用体验

1.简化的工作流程

Fabric提供了一个集成化的平台,使得数据清洗、特征工程、模型训练和部署等工作可以在同一个环境中完成,大大简化了工作流程。我可以在一个平台上完成从数据处理到模型部署的整个过程,而无需切换不同的工具和环境,提高了工作效率。

2.强大的计算资源

Fabric的Data Engineering Synapse提供了强大的计算资源,可以快速处理大规模的数据集和复杂的模型训练任务。我可以利用分布式计算和并行化处理的能力,加快模型训练的速度。

3 完善的监控和调试功能

Fabric提供了详细的监控和调试功能,我们可以实时监控模型训练的进度和性能,并及时调整参数和优化模型。这大大提高了调试和优化的效率,减少了出错的可能性。

4.数据处理还是逃不开

由于项目所涉及的数据集较大且复杂,数据处理的过程中遇到了一些困难。我们通过仔细研究数据集的特点和需求,设计合适的数据清理和预处理方法,通过分批处理和并行计算的方式,还是能提高处理的效率和准确性。

展开阅读全文

页面更新:2024-05-12

标签:数据   基座   作业   数据处理   组件   模型   效率   功能   科学   工具   报告   用户   工程

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top