fj陈老诗
大数据工程师 = 系统工程 + 大规模数据处理 + 数据分析 + 机器学习 + 商业智能
大数据工程师首先是一个系统工程师,也是一个软件工程师。同时,他还得有一些特定的技能,会做大规模数据处理,比如当你的数据有PB量级甚至ZD量级时,你需要会Leverage云平台等,通过几千台机器并行处理,解决大规模数据处理的问题。
大数据工程师还和数据科学家有重叠,二者都要有很强的数据分析能力,比如会用Matlab,R,Python等。仅仅做简单的数据分析可能也不够,大数据工程师还得做机器学习模型,最终我们希望大数据工程师做到的是商业智能。
大数据工程师的最终的目的,是帮助公司提供更好的用户体验,做出最优决策,获取更多的利润。他的工作成果是帮助企业挖掘出数据里的价值,从而实现Data-driven decision making。在个性化、在线广告领域,大数据工程有巨大的商业价值,Yahoo,Facebook,Google的80%以上的收入都来源于广告。通常,大数据工程师要解决的问题是,当一个用户在网站上出现时,如何显示一个与该用户喜好最相关的广告,使他最有可能去点击,从而提高公司的广告收入,这些都是需要通过大数据分析和机器学习建模,帮助做决策。
如果你是New grad,面试官期望你熟练掌握一门面向对象的通用语言 (如Java)。如果你只会C++,进公司后可能还是得去熟悉Java,因为很多时候编程语言的选择是与所用框架相关的, 比如Hadoop就是用Java编写的,用C++写Hadoop的应用就不是很方便。
另外,熟悉一门脚本语言 ,如Python,Go. R和Matlab不认为是一个Decent的脚本语言。
对候选人更重要的要求是基本的程序设计素养。如果程序设计功底足够好,熟悉一个新语言就是一两周的事情,面试官可能会从他平时工作的项目里提炼一些问题,看你能不能找到合适的解决方案。
princess小姐
【导语】近年来,大数据发展如火如荼,很多人都选择学习大数据专业或者转行大数据,大数据里又包含很多就业岗位,所以在进行岗位选择的时候,还是需要大家合理选择,为了帮助大家更好的进入大数据行业执业,下面就把2021年大数据工程师面试内容给大家进行一下具体介绍。
1、自我介绍
一般上来就是自我介绍,谈下工作经历和项目经验,面试官会根据你的项目经验对你进行技术面试。在自我介绍时,一定要抓住核心说,不要太啰嗦,尽量放大自己的价值,让面试官感受到你对工作的热情,以及以后对公司贡献的能力。
2、数仓开发知识技能
(1)Java是必问的,不过问的不深,把Javase部分吃透,足以应付Java部分的面试。
(2)Hadoop生态,Yarn、Zookeeper、HDFS这些底层原理要懂,面试经常被问。
(3)Mapreduce的shuffle过程这个也是面试被常问的。
(4)Hbase和HIve,搞大数据这些不懂真的说不过去。
(5)Mysql、Oracle和Postgres数据库操作要回,Sql要会写。
(6)linux操作系统,这个简单得命令必须要懂,会写shell脚本更好了。
(7)Kettle或Sqoop这种数据处理工具至少要会一个。8,数据仓库建模、数据模型的问题。
3、技术方面知识技能
(1)SparkSql和SparkStreaming,底层原理、内核、提交任务的过程等等,尽量深入内幕,这个经常会跟MapReduce作比较的。当然也要了解Storm和Flink,Flink这个建议要学会,以后用处会越来越广。
(2)Redis、Kafka、ElasticSearch这些都得懂原理,深入了解,会使用,会操作,会调优。
(3)impala和kylin这些尽量也要了解会用
(4)Python这个要是有能力,有精力,建议也要往深处学习,我目前正在自学中。
(5)集群的问题,包括一些简单的运维知识。
(6)大数据数据倾斜的问题,包括Spark JVM内存调优问题等等。
关于2021年大数据工程师面试内容,就给大家介绍到这里了,希望对大家能有所帮助,当然进入大数据行业,还需要大家在平时不断进行技能提升,这样才能更好的拥有一席之地。
妖妖小雯雯
我 :Hadoop适合离线分析,是批处理;Spark适合实时分析,是近实时流,微批处理。
我 :其实自己在平时使用的时候,并没有过度割裂开这两种,因为毕竟自己是结果导向所以无论Python的缩进格式还是Java的要加逗号,最后可以实现我的需求就可以了。 补 :如今,再来审视这个问题,会发现其实在使用过程中,Python,Java确实有一些需要你拐个弯注意下的,比如【Python】list的remove函数和【Java】list的remove方法,同名异能。以及Python一些轮子如何用Java去实现也是要注意的。
我 :小于等于A表条数,也就是小于等于3条 补 :现在看来,当时陷入了工作中带来的一个误区,就是面试官可没说join的字段是主键,它可以不唯一哈,不唯一就会导致大于3条,因为有重复,而B表记录不足的地方均为NULL,所以可能小于吗?不信客官你看: 例1 : A表的记录数在B表中全都有且B表id唯一
例2 A表的记录在C表中有缺失但C表记录唯一 :
例3 A表的记录在D表中全都有但D表id不唯一 :
所以正解应该是大于等于A表的条数
优质工程师考试问答知识库