数据架构师在互联网行业中是个很重要的职位,是企业数据资产最重要的“奠基者”。那么,如何成为一个合格的数据架构师呢?本文作者基于自身经历,从三个方面展开介绍,推荐给对数据架构师感兴趣的童鞋阅读。

如何成为一个合格的数据架构师?早在1980年,未来学家阿尔文·托夫勒就在《第三次浪潮》中,将大数据比喻为“第三次浪潮的华彩乐章”。

21世纪以来,数据量进入每两年翻一番的增长期,越来越多人意识到了数据的价值,数据架构师闪亮登场,数据成为企业不可忽视的重要资产,而数据架构师则是企业数据资产最重要的“奠基者”。

最早,数据架构师在IOE上工作;2009年,阿里云最早提出“去IOE”的口号,初代数据架构师革了自己的命;2015年,这一年产生的数据量是人类过去历史上所产生数据量的总和,从此进入了指数级增长阶段。

数据架构师也演化出了2个大方向(平台型数据架构师、数仓型数据架构师)。

如何成为一个合格的数据架构师?

再进阶,则可以学习维度建模:选择业务过程-声明粒度-确定维度-确定事实,如果能亲身参与一个项目就更好了。

2)步入设计

首先要了解数据仓库的分层、每一层做什么,为什么要分层?然后,了解事实表的类型(事务、周期快照、累计快照)、维度表的类型(普通维度、缓慢变化维度)、总线矩阵、数据立方体(cube)等。

3)高阶学习

维度建模实践后,发现维度建模的不足,那么是时候可以开始研究其他建模了。建议通读并理解Inmon大师的范式建模(数据仓库之父Bill Inmon, Building the Data Warehouse)和Kimball大师的维度建模,两者的建模各有优劣,可以取长补短。

4)解决业务问题

数据模型最终解决的是业务问题,目前常见的建模以维度建模为主。但是维度建模不停的在变化, Bill Inmon提出了datavault的建模思想,数据仓库、数据平台、数据中台、数据湖等概念层出不穷。

本质不变,目标还是解决实际的业务问题。

我个人建议,我们数据仓库的规划可以自顶向下,采用Inmon的思想,开发和建模规范也要考虑全局,而在实施中可以采用维度建模,自底向上,采用Kimbal思想,落地快,迭代快。

实际解决问题时不拘泥于一个模型,什么模型合适就用什么模型。

5)阿里的创新

阿里基于维度建模提出了公共模型层概念,一定程度上能解决数据共享和重复建设的问题,OneData的理念非常有研究价值。但在应用中我们需要注意,不要一味的用相同的场景做法去套不同行业,在实践中需要辩证看待,按需去用。

6)模型标准

数据模型没有好坏,只有用得对错。判断的标准也很简单,有没有解决业务问题?更高的要求是有没有驱动业务的变革或者创新。大白话来说就是两个问题:挣到钱了吗?省下钱了吗?

5. 必杀技3:ELT技术1、ELT概念

传统的ETL (Extract-Transform-Load)是把T的部分放在中间的,在大数据环境下我们更愿意把T放在后面,从ETL向ELT进行演变。原因也很简单,这样我们可以充分利用大数据环境T的能力。数据开发也平台化了,例如阿里的DataWorks、Dataphin,将数据同步、清洗转化、任务调度集成在一起。

ELT技术注意哪些?

E(Extract,抽取)和L(Load,装载)的优化需要懂源头和目标数据库(数据仓库)的特点,需要根据情况进行优化。

T(Transform,转化)部分要理解底层技术原理,进行优化。

ELT的注意点总结如下:

时效性必须在规定时间内跑完数据,跑出结果;准确性数据计算结果必须准确;容错性ELT可以支持重跑、补数等功能;前瞻性及时告警和预警功能,提前处理问题。6. 加分项:应用系统

一个应用系统是怎么诞生的?

可以通过软件工程这门课程学习,需求分析、概要设计、详细设计、软件开发、软件测试、试运行、上线、运维、下线等整个过程。

一个应用系统一般会有前端、后端和数据库,对于我们数据架构师,我们至少要知道,怎么开发一个系统,怎么保证一个系统的稳定。特别是“稳定”,我们要对高可用、负载均衡、安全有深刻的认识,需要考虑到应用(Tomat)、数据库(MySQL)、其他中间件(缓存服务、文件服务等)。

高可用:系统一个节点发生故障后能进行无感切换,这个很重要。

负载均衡:使压力均衡进行,它决定了系统的扩展性。

安全:磁盘阵列(raid0、raid1、raid5、raid10)、防火墙、授权、认证,及数据安全,防泄防篡、脱敏加密、防丢失等。在做架构决策时,知道哪些操作可能会影响业务系统,才能设计更好的数据架构。

7. 锦上添花:算法

DT时代已至,未来一定是“数据+AI”的天下。所以作为数据架构师,我们可以不会写算法,但我们要了解且会使用算法。

这里的算法主要指机器学习算法,初学者可以理解下预测、分类(聚类)的概念(其实很多图像和语音识别的算法也可以归为预测和聚类算法中)。可以用Python模拟最简单的线性回归,进阶则研究逻辑回归。

监督学习算法:支持向量机(Support Vector Machine,SVM)、决策树、朴素贝叶斯分类、K-临近算法(KNN);非监督学习算法:K-均值聚类(K-Means) 。优点是算法简单容易实现,缺点则是可能收敛到局部最小值,在大规模数据集上收敛较慢。可在图像处理、数据分析以及市场研究等场景应用;强化学习(深度)算法:如果不想转职算法工程师,目前仅作了解即可。

最后分享算法开发的简化版步骤:

    数据准备(数据同步);问题明确(明确分类还是回归问题);数据处理(合并、去重、异常剔除);特征工程(训练集,测试集、验证集);选择合适的算法;模型评估(若评估不合格,则考虑:①换算法;②调参数;③特征工程再进一步处理)。

三、总结:建立属于自己的知识索引

其实,无论是什么岗位,自学能力都很重要。我们可以为自己建立一个知识目录或知识索引,按照知识索引去查漏补缺,不断丰富自己。

作为一名数据架构师,我们要懂点硬件、懂点网络、懂点安全,了解应用,熟练掌握一门开发语言,深入理解一个数据库,实操过大数据,精通数据仓库技术(建模+ELT),有深度,有广度。

本文由 @奇点云 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议




阻力设计在产品中的应用

阻力设计在产品中的应用

阻力是指物体在流体中相对运动所产生与运动方向相反的力,不仅在自然间中常见,在互联网中也广泛存在。本文作者从五个角度,深入分析阻力设计在产品中的应用,希望对你...

2020-06-18
如何成为一个合格的数据架构师?

如何成为一个合格的数据架构师?

数据架构师在互联网行业中是个很重要的职位,是企业数据资产最重要的“奠基者”。那么,如何成为一个合格的数据架构师呢?本文作者基于自身经历,从三个方面展开介绍,推...

2020-06-18
倒推“抖音短视频”APP产品需求文档

倒推“抖音短视频”APP产品需求文档

文章是倒推“抖音短视频”APP产品需求文档,但由于作者是第一次写需求文档,所以仅对核心需求进行了需求分析与说明。一起来看看~ 目录: 一、文档综述 1.1文档属性 1.2产...

2020-06-18
微信“拍一拍”,真的是一个没什么用的功能吗?

微信“拍一拍”,真的是一个没什么用的功能吗?

昨天微信上线了“拍一拍”功能,用户点击2次头像,会产生头像抖动,震动反馈,且在聊天框中显示“XX拍了拍XX”。 这个功能推出后,很多微信群都在疯狂拍一拍,引起了一波拍...

2020-06-18
数据大屏设计师,我不信你没有这些困惑(上)

数据大屏设计师,我不信你没有这些困惑(上)

从事互联网行业的人,每天都在接收新知识,时常也会有迷惑的时候,尤其是数据大屏这样比较少有人踏足的领域。本文作者以自身经历出发,对数据大屏设计提出了自己的一点...

2020-06-18
客户关系管理的15个模型总结(下)

客户关系管理的15个模型总结(下)

对于ToB产品,仅仅基于用户需求来设计产品架构是远远不够的。B端产品服务的是有着几年,甚至几十年管理积淀的企业,必须依靠一定的理论知识来支撑系统的设计规划。本文...

2020-06-18
B端产品设计:价值主张与需求对应的价值

B端产品设计:价值主张与需求对应的价值

B端产品的需求来源于场景,产品经理通过满足客户需求从而产生价值。因此,SaaS产品经理面对扑面而来的需求时,应当更清晰理解并评判需求的价值。 01 2008年,著名商业...

2020-06-18
以知乎为例,探讨未来产品设计的几大变化

以知乎为例,探讨未来产品设计的几大变化

知乎作为一个典型的问答社区,它本身反映了内容社区产品的很多典型问题。本文以知乎为例,探讨社区类产品未来发展的一些变化,对内容社区感兴趣的童鞋不要错过。 前段...

2020-06-18
如何用产品思维打造线上课程?

如何用产品思维打造线上课程?

如何用产品思维来给自己打造一个线上课程呢?本文从市场调研、课程开发、运营推广、成交这几个方面分享如何打造自己的课程,希望对大家有所帮助~ “地摊经济”重出江湖,...

2020-06-18
「武侠连载」营销中心设计——优惠券

「武侠连载」营销中心设计——优惠券

优惠券是常见的一种营销推广的方式,但是你真的了解它吗?本文作者以武侠故事的形式,对优惠券展开了生动的分析,对优惠券感兴趣的童鞋不要错过哦。 (武侠情节接上文“...

2020-06-18
金融支付财务融合业务-实践分享1:订单、账单、交易流水、账套知识解构、原理解析

金融支付财务融合业务-实践分享1:订单、账单、交易流水、账套知识解构、原理解析

本文作者从实际工作实践出发,结合案例等分享了电商金融支付财务融合中的基本概念和相关原理解析,包括:订单、账单、交易流水和账知识解构,供大家一同参考和学习。 ...

2020-06-18
关于卡片设计的分析与思考

关于卡片设计的分析与思考

卡片是APP常见的设计形式,它既有好处也有弊端,因此需要根据场景和内容确定展现形式。本文从四个方面对卡片设计展开分析,推荐给对卡片设计感兴趣的童鞋阅读。 卡片是...

2020-06-17
内容型产品中,付费会员功能如何设计?

内容型产品中,付费会员功能如何设计?

付费会员制度让用户预付会员费,将钱留在平台,那么未来一定会有消费行为,那么会员制度要如何设计,才能激励用户付费呢? 01 为什么要做付费会员? 讨论这个问题之前...

2020-06-16
文字社区是否可以拥有弹幕?

文字社区是否可以拥有弹幕?

从社区产品的角度来思考,弹幕功能对于内容生产方,内容消费方以及平台方而言各自有什么意义?图文内容社区是否有机会拥有弹幕呢?如果可以发弹幕,用怎样的形式呢?本...

2020-06-16
FMS财务系统收支结算总结

FMS财务系统收支结算总结

本文按照FMS收支结算划分,结算流程分类及各系统交互,财务系统内部结算基础能力,收支结算整体结构的顺序来依次介绍,总结财务系统收支结算的结构,和一些作者的个人思...

2020-06-16
如何迅速提升用户好评?试试这三种方法

如何迅速提升用户好评?试试这三种方法

小编推荐:如何提高一个产品的用户评分,改变大家对这个产品的印象呢?本文作者给大家介绍了三个概念:用户体验地图、峰终定律和服务蓝图,并详细解释了该如何使用这三...

2020-06-16
对工具型产品易学习与易使用的思考

对工具型产品易学习与易使用的思考

小编推荐:易学习是指怎么让新用户的学习成本降低,能够很快地掌握产品的使用,它的前提是足够简单和容易理解。而易使用是指,如何让用户快速、高效地完成一项任务,达...

2020-06-16
比对象还懂你!推荐算法为啥这么准?

比对象还懂你!推荐算法为啥这么准?

信息过度和广告过多的社会中,推荐算法的使用也就显得理所当然,但是它是如何做到了解用户的呢?本文从用户画像的定义和设计出发,结合实际案例,深入浅出地阐述了基于...

2020-06-15
B端平台产品需要培养的4种意识

B端平台产品需要培养的4种意识

对于许多刚入行不久的产品经理来说,B端平台产品是比较有难度的一项工作。本文作者基于自己的工作经历,提出了四点关于B端平台产品需要培养的4种意识,希望对你有帮助。...

2020-06-15
广告系列:保留价

广告系列:保留价

在一次拍卖中如果所有买家的报价均小于卖家的估价时,则拍卖品不出售由卖家保留,此时卖家的估价就是保留价,也叫底价,全称市场保留价。对于卖家来说,保留价的设置保...

2020-06-15