carryme2015
您好,数据工程师都做什么?数据工程师负责创建和维护分析基础架构,该基础架构几乎可以支持数据世界中的所有其他功能。他们负责大数据架构的开发、构建、维护和测试,例如数据库和大数据处理系统。大数据工程师还负责创建用于建模,挖掘,获取和验证数据集合等流程。数据工程师的关键技能下面介绍数据工程师所需的几项关键技能。1.大数据架构的工具与组件数据工程师更关注分析基础架构,因此所需的大部分技能都是以架构为中心的。2.深入了解SQL和其它数据库解决方案数据工程师需要熟悉数据库管理系统,深入了解SQL至关重要。同样其它数据库解决方案,例如Cassandra或BigTable也须熟悉,因为不是每个数据库都是由可识别的标准来构建。3.数据仓库和ETL工具数据仓库和ETL经验对于数据工程师至关重要。像Redshift或Panoply这样的数据仓库解决方案,以及ETL工具,比如StitchData或Segment都非常有用。此外,数据存储和数据检索经验同样重要,因为处理的数据量是个天文数字。4.基于Hadoop的分析(HBase,Hive,MapReduce等)对基于Apache Hadoop的分析有深刻理解是这个领域的一个非常必要的需求,一般情况下HBase,Hive和MapReduce的知识存储是必需的。5.编码说到解决方案,编码与开发能力是一个重要的优点(这也是许多职位的要求),你要熟悉Python,C/C++,Java,Perl,Golang或其它语言,这会非常有价值。6.机器学习虽然数据工程师主要关注的是数据科学,但对数据处理技术的理解会加分,比如一些统计分析知识和基础数据建模。机器学习已经成为标准数据科学,该领域的知识可以帮我们构建同类产品的解决方案。这种知识还有一个好处,就是让你在这个领域极具市场价值,因为在这种情况下能够“戴上两顶帽子”会让你成为一个更强大的工具。7.多种操作系统最后,需要我们对Unix,Linux和Solaris系统有深入了解,许多数学工具基于这些操作系统,因为它们有Windows和Mac系统功能没有的访问权限和特殊硬件需求。
丁凤1217
1 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)3 写 SQL (很多入职一两年的大数据工程师主要的工作就是写 SQL )4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)5 应用迁移(有部分公司需要把应用从传统的数据库 Oracle、MySQL 等数据库的存储过程程序或者SQL脚本迁移到大数据平台上,这个过程也是非常繁琐的工作,无聊,高度重复且麻烦,吃力不讨好)6 数据采集(采集日志数据、文件数据、接口数据,这个涉及到各种格式的转换,一般用得比较多的是 Flume 和 Logstash)7 数据处理 离线数据处理(这个一般就是写写 SQL 然后扔到 Hive 中跑,其实和第一点有点重复了) 实时数据处理(这个涉及到消息队列,Kafka,Spark,Flink 这些,组件,一般就是 Flume 采集到数据发给 Kafka 然后 Spark 消费 Kafka 的数据进行处理)8 数据可视化(这个我司是用 Spring Boot 连接后台数据与前端,前端用自己魔改的 echarts)9 大数据平台开发(偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样,常见的是各种难用的 PaaS 平台)10 数据中台开发(中台需要支持接入各种数据源,把各种数据源清洗转换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据)11 搭建数据仓库(这里的数据仓库的搭建不是指 Hive ,Hive 是搭建数仓的工具,数仓搭建一般会分为三层 ODS、DW、DM 层,其中DW是最重要的,它又可以分为DWD,DWM,DWS,这个层级只是逻辑上的概念,类似于把表名按照层级区分开来的操作,分层的目的是防止开发数据应用的时候直接访问底层数据,可以减少资源,注意,减少资源开销是减少 内存 和 CPU 的开销,分层后磁盘占用会大大增加,磁盘不值钱所以没什么关系,分层可以使数据表的逻辑更加清晰,方便进一步的开发操作,如果分层没有做好会导致逻辑混乱,新来的员工难以接手业务,提高公司的运营成本,还有这个建数仓也分为建离线和实时的)总之就是离不开写 SQL ...
没腰的麦兜
数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为“大数据工程师”。“大数据工程师”往往是一个团队,它意味着从数据的收集、整理展现、分析和商业洞察、以至于市场转化的全过程。
用阿里巴巴集团研究员薛贵荣的话来说,大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。
沈志勇认为如果把大数据想象成一座不停累积的矿山,那么大数据工程师的工作就是,“第一步,定位并抽取信息所在的数据集,相当于探矿和采矿。第二步,把它变成直接可以做判断的信息,相当于冶炼。最后是应用,把数据可视化等。”
因此分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。
大数据人才需求及现状分析随着国家重视大数据,政府扶持大数据,大数据在企业中生根发芽,开花结果。未来三至五年,中国需要180万数据人才,但目前只有约30万人。企业基于大数据计算分析存储、数据挖掘、数据分析等数据产业的发展,IT行业需要更多的数据人才。
大数据工程师因为稀缺被很多知名企业高价聘请,因为技术的魅力深受国家的重视,对于大数据就业发展前景是一直被人们看好的。就目前来看大数据工程师的收入待遇可以说达到了同类的顶级,以后的发展前景更是一片光明。大数据目前行业发展迅速,人才紧缺。这也是为什么大数据工资都如此之高的原因。
大数据时代的到来很突然,在国内发展势头迅猛,而人才却非常有限,现在完全是供不应求的状况。在美国,大数据工程师平均每年薪酬高达万美元,而据了解,在国内顶尖互联网类公司,同一个级别大数据工程师的薪酬可能要比其他职位高20%至30%,且颇受企业重视。
优质工程师考试问答知识库