DataSphere Studio:工作流式图形化体验数据应用开发管理集成框架

#挑战30天在头条写日记#

DataSphere Studio(简称 DSS)是微众银行自研的数据应用开发管理集成框架。

基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。

在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。

DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。

借助于 Linkis 计算中间件的连接、复用与简化能力,DSS 天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。

界面预览

请您耐心等待,加载 gif 需要一些时间。

核心特点

DSS 主要特点:

一、一站式、全流程的应用开发管理界面

DSS 集成度极高,目前已集成的系统有(DSS 对以上组件的版本兼容性,请访问:已集成组件的兼容性列表):

1、数据开发IDE工具——Scriptis

2、数据可视化工具——Visualis(基于宜信 Davinci 二次开发)

3、数据质量管理工具——Qualitis

4、工作流调度工具——Schedulis

5、数据交换工具——Exchangis

6、数据Api服务——DataApiService

7、流式应用开发管理工具——Streamis

8、一站式机器学习平台——Prophecis

9、工作流任务调度平台——DolphinScheduler

10、数据模型中心——DataModelCenter(社区联合共建中)

DSS 对以上组件的版本兼容性,请访问:已集成组件的兼容性列表

DSS 插拔式的框架设计模式,允许用户快速替换DSS已集成的各个 Web 系统。如:将 Scriptis 替换成 Zeppelin,将 Schedulis 替换成 DolphinScheduler。


二、基于Linkis计算中间件,打造独有的AppConn设计理念

AppConn,是 DSS 可以简单快速集成各种上层 Web 系统的核心概念。

AppConn ——应用连接器,定义了一套统一的前后台接入协议,总共分为三级规范,可让外部数据应用系统快速简单地接入,成为 DSS 数据应用开发中的一环。

AppConn 的三级规范即:一级 SSO 规范,二级组织结构规范,三级开发流程规范;

DSS 通过串联多个 AppConn,编排成一条支持实时执行和定时调度的工作流,用户只需简单拖拽即可完成数据应用的全流程开发。

由于 AppConn 对接了 Linkis,外部数据应用系统因此具备了资源管控、并发限流、用户资源管理等能力,且允许上下文信息跨系统级共享,彻底告别应用孤岛。

三、Workspace级管理单元

以 Workspace 为管理单元,组织和管理各数据应用系统的业务应用,定义了一套跨数据应用系统的工作空间协同开发通用标准,并提供了用户角色管理能力。

四、已集成的数据应用组件

DSS 通过实现多个 AppConn,已集成了丰富多样的各种上层数据应用系统,基本可满足用户的数据开发需求。

如果有需要,也可以轻松集成新的数据应用系统,以替换或丰富 DSS 的数据应用开发流程。 点我了解如何快速集成新的应用系统

应用工具

描述

DSS0.X 兼容版本(推荐 DSS0.9.1)

DSS1.0 兼容版本(推荐 DSS1.1.0)

Linkis

计算中间件 Apache Linkis,通过提供 REST/WebSocket/JDBC/SDK 等标准接口,上层应用可以方便地连接访问 MySQL/Spark/Hive/Presto/Flink 等底层引擎.

推荐 Linkis0.11.0(已发布

>= Linkis1.1.1(已发布

DataApiService

(DSS已内置的第三方应用工具)数据API服务。可快速将SQL脚本发布为一个 Restful 接口,对外提供 Rest 访问能力。

不支持

推荐 DSS1.1.0(已发布

Scriptis

(DSS 已内置的第三方应用工具)支持在线写 SQL、Pyspark、HiveQL 等脚本,提交给 Linkis 执行的数据分析 Web 工具。

推荐 DSS0.9.1(已发布

推荐 DSS1.1.0(已发布

Schedulis

基于 Azkaban 二次开发的工作流任务调度系统,具备高性能,高可用和多租户资源隔离等金融级特性。

推荐 Schedulis0.6.1(已发布

>= Schedulis0.7.0(已发布

EventCheck

(DSS 已内置的第三方应用工具)提供跨业务、跨工程和跨工作流的信号通信能力。

推荐 DSS0.9.1(已发布

推荐 DSS1.1.0(已发布

SendEmail

(DSS 已内置的第三方应用工具)提供数据发送能力,所有其他工作流节点的结果集,都可以通过邮件进行发送

推荐 DSS0.9.1(已发布

推荐 DSS1.1.0(已发布

Qualitis

数据质量校验工具,提供数据完整性、正确性等数据校验能力

推荐 Qualitis0.8.0(已发布

>= Qualitis0.9.2(已发布

Streamis

流式应用开发管理工具。支持发布 Flink Jar 和 Flink SQL ,提供流式应用的开发调试和生产管理能力,如:启停、状态监控、checkpoint 等。

不支持

>= Streamis0.2.0(已发布

Prophecis

一站式机器学习平台,集成多种开源机器学习框架。Prophecis 的 MLFlow 通过 AppConn 可以接入到 DSS 工作流中。

不支持

>= Prophecis 0.3.2(已发布

Exchangis

支持对结构化及无结构化的异构数据源之间的数据传输的数据交换平台,即将发布的 Exchangis1.0,将与 DSS 工作流打通

不支持

= Exchangis1.0.0(已发布

Visualis

基于宜信开源项目 Davinci 二次开发的数据可视化 BI 工具,为用户在数据安全方面提供金融级数据可视化能力。

推荐 Visualis0.5.0

= Visualis1.0.0(已发布

DolphinScheduler

Apache DolphinScheduler,分布式易扩展的可视化工作流任务调度平台,支持一键将DSS工作流发布到 DolphinScheduler。

不支持

DolphinScheduler1.3.X(已发布

UserGuide

(DSS 将内置的第三方应用工具)包含帮助文档、新手指引、Dark模式换肤等。

不支持

>= DSS1.1.0(已发布

DataModelCenter

(DSS 将内置的第三方应用工具)主要提供数仓规划、数据模型开发和数据资产管理的能力。数仓规划包含主题域、数仓分层、修饰词等;数据模型开发包含指标、维度、度量、向导式建表等;数据资产打通 Apache Atlas,提供数据血缘能力。

不支持

规划在 DSS1.2.0(开发中

UserManager

(DSS 已内置的第三方应用工具)自动初始化一个 DSS 新用户所必须的所有用户环境,包含:创建 Linux 用户、各种用户路径、目录授权等。

推荐 DSS0.9.1(已发布

规划中

Airflow

支持将 DSS 工作流发布到 Apache Airflow 进行定时调度。

PR 尚未合并

不支持


架构

使用场景

DataSphere Studio 适用于以下场景:

1. 正在筹建或初步具备大数据平台能力,但无任何数据应用工具的场景。

2. 已具备大数据基础平台能力,且仅有少数数据应用工具的场景。

3. 已具备大数据基础平台能力,且拥有全部数据应用工具,但工具间尚未打通,用户使用隔离感强、学习成本高的场景。

4. 已具备大数据基础平台能力,且拥有全部数据应用工具,部分工具已实现对接,但尚未定义统一规范的场景。

项目地址:

https://github.com/WeBankFinTech/DataSphereStudio

展开阅读全文

页面更新:2024-05-04

标签:数据   工作流   组件   框架   场景   能力   快速   工具   用户   工作   系统   平台

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top