sy2009Jason
一、认识大数据大数据本质其实也是数据,不过也包括了些新的特征,数据来源广;数据格式多样化(结构化数据、非结构化数据、Excel文件等);数据量大(最少也是TB级别的、甚至可能是PB级别);数据增长速度快。二、大数据所需技能要求Python语言:编写一些脚本时会用到。Scala语言:编写Spark程序的最佳语言,当然也可以选择用Python。Ozzie,azkaban:定时任务调度的工具。Hue,Zepplin:图形化任务执行管理,结果查看工具。Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。必须掌握的技能:、 HBase(、 Kafka、Storm/JStorm、Scala、Python、Spark (Core+sparksql+Spark streaming ) 、辅助小工具(Sqoop/Flume/Oozie/Hue等)。
那一朵云啊
数据挖掘领域是一个独特的行业,通常的招聘面试方法可能不大适用于本行业的特点。在招聘一个合格的数据挖掘工程师时,公司一般关注以下三个方面:他聪明吗?聪明意味着能透过复杂的信息建构问题并以正确的方式加以解决。聪明人还能从失败中获取经验。他能否专注于项目?专注意味着在各种困难的环境内,仍能独立或合作完成项目。他是否能与团队一起工作。团队合作需要很好的沟通能力,工作中涉及到的概念、问题、模型、结论等都需要成员之间正确的沟通方能加以明确。为了解候选人是否具有数据挖掘工程师的潜质,需要一小时的面试,主要通过以下五个环节:1、简介如同交谈之初的寒暄一样,简介是使候选人放松下来。可以先介绍一下公司本身的情况,再回答对方的一些疑问。如果问题很复杂,可以将回答放到面试的最后阶段再处理。2、关于数据挖掘项目这是最为重要且耗时的面试阶段,询问候选人最近接手的数据挖掘项目的情况和处理方式。要提问的方面包括:他一开始是如何描述这个项目的项目持续了多长时间这个项目的关键问题是什么问题是如何得到解决的在数据挖掘项目中最为困难的阶段是什么最有趣的阶段又是什么在他眼里,客户是怎么样的团队的其他成员又是如何表现的从中获得了什么样的经验在这个面试阶段,不仅要提问关于“what”的问题,还要很多关于“why”的问题。因为优秀的数据挖掘工程师要能面对客户,清晰的论证并支持其提出的观点。3、关于数据挖掘的流程考察候选人对于工作流程的认识是必要的,如果他谈到了跨行业数据挖掘流程规范(CRISP-DM)意味着好兆头。有很多时候,候选人对这些规范不以为然。虽然说从不同的角度来看待问题是一种创新,但是创新也需要建立在坚实在流程标准之上。因为它可以保证我们不会出现大的纰漏。必要的时候,可以用白板让候选人画出流程图。并让他评价这些工作中最为重要或需要反思的地方。因为建模工作不可能一次完成,反复的提炼问题、建立模型的情况是经常遇到的。另外可以在某个挖掘流程进行深入考查,例如询问对方如何避免过度拟合,如何从大量的候选变量中进行筛选,如何评价或比较模型的效果。4、解决问题软件公司的面试一般会包括“编码测试”,考查数据挖掘工程师也应该如此。一种可以参考的作法是提供一份存在缺陷的分析报告。让候选人对报告进行研究,表达报告中结论的意义,提出其中所存在的问题或不足,提出改进或补救的方法。5、收尾在面试的最后阶段,需要回答候选人的其它提问,并使之相信本公司在本行业中的优势地位,以及在职业生涯中的作用。在完成面试后,需要立即将面试记录进行整理存档。面试是一件苦差事,但也是一个交流学习的机会。通过面试可以了解到其它人遇到的问题,以及他们是如何解决的。
姹紫嫣红NEI
大数据工程师需要负责创建和维护数据分析基础架构,包括大数据架构的开发、构建、维护和测试等,还负责创建用于建模,挖掘,获取和验证数据集合等流程。
大数据工程师可以做大数据开发工作,开发,建设,测试和维护架构,负责公司大数据平台的开发和维护,负责大数据平台持续集成相关工具平台的架构设计与产品开发等。
大数据工程师可以做数据分析工作,收集,处理和执行统计数据分析,运用工具,提取、分析、呈现数据,实现数据的商业意义,需要业务理解和工具应用能力。
大数据工程师可以做数据挖掘工作,数据建模、机器学习和算法实现,商业智能,用户体验分析,预测流失用户等,需要过硬的数学和统计学功底以外,对算法的代码实现也有很高的要求。
大数据工程师可以做数据库开发及管理工作,设计,开发和实施基于客户需求的数据库系统,通过理想接口连接数据库和数据库工具,优化数据库系统的性能效率等。
1、计算机编码能力:实际开发能力和大规模的数据处理能力是作为大数据工程师必须要掌握的能力,现在人们在社交网络上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的信息中提取有用数据呢,这就需要大数据工程师来做。
2、.大数据架构工具与组件:企业大数据框架的搭建,多是选择基于开源技术框架来实现的,这其中就包括Hadoop、Spark、Storm、Flink为主的一系列组件框架,及其生态圈组件。
3、数据仓库和ETL工具:数据仓库和ETL能力对于大数据工程师至关重要。像Redshift或Panoply这样的数据仓库解决方案,以及ETL工具,比如StitchData或Segment都非常有用。
4、编程语言:编码与开发能力是大数据工程师的必备技能,要熟悉Python,C/C++,Java,Perl,Golang或其它语言。
优质工程师考试问答知识库