鑫宝贝66
1. 第一阶段(一般岗位叫数据专员)
基本学会excel(VBA最好学会;会做透视表;熟练用筛选、排序、公式),做好PPT。这样很多传统公司的数据专员已经可以做了
2. 第二阶段(数据专员~数据分析师)
这一阶段要会SQL,懂业务,加上第一阶段的那些东西。大多数传统公司和互联网小运营、产品团队够用了。
3. 第三阶段(数据分析师)
统计学熟练(回归、假设检验、时间序列、简单蒙特卡罗),可视化,PPT和excel一定要溜。这些技术就够了,能应付大多数传统公司业务和互联网业务。
4. 第四阶段(分裂)
数据分析师(数据科学家)、BI等:这部分一般是精进统计学,熟悉业务,机器学习会使用(调参+选模型+优化),取数、ETL、可视化啥的都是基本姿态。
可视化工程师:这部分国内比较少,其实偏重前端,会high charts,, 。技术发展路线可以独立,不在这四阶段,可能前端转行更好。
ETL工程师:顾名思义,做ETL的。
大数据工程师:熟悉大数据技术,hadoop系二代。
数据工程师(一部分和数据挖掘工程师重合):机器学习精通级别(往往是几种,不用担心不是全部,和数据分析师侧重点不同,更需要了解组合模型,理论基础),会组合模型形成数据产品;计算机基本知识(包括linux知识、软件工程等);各类数据库(RDBMS、NoSQL(4大类))
数据挖掘:和上基本相同。
爬虫工程师:顾名思义,最好http协议、tcp/ip协议熟悉。技术发展路线可以独立,不在这四阶段
发现回答的有点文不对题额,不过大致是所有从底层数据工作者往上发展的基本路径。往数据发展的基本学习路径可以概括为以下内容:
1. EXCEL、PPT(必须精通)
数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。
2. 数据库类(必须学)
初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。
NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。
3. 统计学(必须学)
如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。
其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。
4. 机器学习(数据分析师要求会选、用、调)
常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。
5. 大数据(选学,有公司要求的话会用即可,不要求会搭环境)
hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。
6. 文本类(选学,有公司要求的话会用即可)
这部分不熟,基本要知道次感化、分词、情感分析啥的。
7. 工具类
语言:非大数据类R、Python最多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。
喵布拉基
1. 第一阶段(一般岗位叫数据专员)
基本学会excel(VBA最好学会;会做透视表;熟练用筛选、排序、公式),做好PPT。这样很多传统公司的数据专员已经可以做了
2. 第二阶段(数据专员~数据分析师)
这一阶段要会SQL,懂业务,加上第一阶段的那些东西。大多数传统公司和互联网小运营、产品团队够用了。
3. 第三阶段(数据分析师)
统计学熟练(回归、假设检验、时间序列、简单蒙特卡罗),可视化,PPT和excel一定要溜。这些技术就够了,能应付大多数传统公司业务和互联网业务。
4. 第四阶段(分裂)
精品窗帘
像你从零开始来学习的话,可能需要下够足够的功夫才可以了,如果你想要掌握真正的技能与技巧的话,建议你还是掌握更多的技术,掌握更多的能力,只有这样才能获得更多更好。更全面的数据分析能力才能更快的找到适合自己的工作。
Nightwish阳光
第三节 延伸预测法 用延伸预测法进行预测须具有以下条件: 一是预测变量的过去、现在和将来的客观条件基本保持不变,历史数据解释的规律可以延续到未来。 二是预测变量的发展过程是渐变的,而不是跳跃式的或大起大落的。 延伸预测法包括简单移动平均法、指数平滑法、成长曲线模型、季节波动模型等,其基本方法是时间序列预测。 在市场预测中,经常遇到按时间排列的统计数据,如按月份、季度和年度统计的数据,称为时间序列。时间序列预测就是通过对预测目标本身时间序列的处理,研究预测目标的变化趋势。 一、简单移动平均法 简单移动平均法是以过去某一段时期的数据平均值作为将来某时期预测值的一种方法。该方法按对过去若干历史数据求算术平均数,并把该数据作为以后时期的预测值。 (一)简单移动平均公式 简单移动平均可以表述为:f=∑x/n 其中:f是预测数, n是在计算移动平均值时所使用的历史数据的数目,即移动时段的长度 为了进行预测,需要对每一个t计算出相应的Ft+1,所有计算得出的数据形成一个新的数据序列。经过两到三次同样的处理,历史数据序列的变化模式将会被揭示出来。这个变化趋势较原始数据变化幅度小,因此,移动平均法从方法论上分类属于平滑技术。 (二)n的选择 采用移动平均法进行预测,实际工作中平均数的时期数 n 的选择非常重要。这也是移动平均的难点。 不同n的选择对所计算的平均数是有较大影响的。 n值越小,表明对近期观测值预测的作用越重视,预测值对数据变化的反应速度也越快,但预测的修匀程度较低,估计值的精度也可能降低。 n值越大,预测值的修匀程度越高,但对数据变化的反映程度较慢。 因此,n值的选择无法二者兼顾,应视具体情况而定。 n一般在3—200之间,视序列ざ群驮げ饽勘昵榭龆ā?BR>一般对水平型数据,n值的选取较为随意;一般情况下,如果考虑到历序列中含有大量随机成分,或者序列的基本发展趋势变化不大,则n应取大一点。对于具有趋势性或阶跃型特点的数据,为提高预测值对数据变化的反应速度,减少预测误差,n值取较小一些,以使移动平均值更能反映目前的发展变化趋势。 (三)简单移动平均的应用范围 移动平均法只适用于短期预测,在大多数情况下只用于以月度或周为单位的近期预测。简单移动平均法的另外一个主要用途是对原始数据进行预处理,以消除数据中的异常因素或除去数据中的周期变动成分。类似于季节指数趋势法的前几步。 二、指数平滑法 指数平滑法又称指数加权平均法,实际是加权的移动平均法,它是选取各时期权重数值为递减指数数列的均值方法。指数平滑法解决了移动平均法需要几个观测值和不考虑t—n前时期数据的缺点,通过某种平均方式,消除历史统计序列中的随机波动,找出其中主要的发展趋势。 (一)指数平滑法公式 对时间序列x1、x2、x3、……,xn,一次平滑指数公式为: F=αx+(1-α )Ft-1 式中 α——是平滑系数,0<α<1; xt——是历史数据序列x在t时的观测值; F,和F是t时和t—1时的平滑值。 一次指数平滑法又称简单指数平滑,是一种较为灵活的时间序列预测方法,这种方法在计算预测值时对于历史数据的观测值给予不同的权重。这种方法与简单移动平均法相似,两者之间的区别在于简单指数平滑法对先前预测结果的误差进行了修正,因此这种方法和简单移动平均法一样,都能够提供简单适时的预测。 一次指数平滑法适用于市场观测呈水平波动,无明显上升或下降趋势情况下的预测,它以本期指数平滑值作为下期的观测值,预测模型为: x’t+1=Ft 亦即 x’t+1 =αx +(1-α) (二)平滑系数。 平滑系数。实际上是前一观测值和当前观测值之间的权重。 当α接近于1时,新的预测值对前一个预测值的误差进行了较大的修正;当α=1时,Ft+1=xt,即t期平滑 值就等于t期观测值。 当α接近于0时,新预测值只包含较小的误差修正因素; 当α=0时,Ft+1=Ft,即本期预测值就等于上期预测值。 研究表明大的α值导致较小的 平滑效果,而较小的α值会产生客观的平滑效果。因此,在简单指数平滑方法的应用 过程中,α值对预测结果所产生的影响不亚于简单移动平均法中n的影响。 一般情况下,观测值呈较稳定的水平发展,α值取0.1-0.3之间;观测值波动较 大时,α值取0.3—0.5之间;观测值呈波动很大时,α值取0.5-0.8之间。 (三)初始值Fo的确定 从指数平滑法的计算公式可以看出,指数平滑法是一个迭代计算过程,用该法进 行预测,首先必须确定初始值Fo值,它实质上应该是序列起点t=0以前所有历史数据 的加权平均值。 一般采用这样的方法处理:当时间序列期数在20个以上时,初始值 对预测结果的影响很小,可用第一期的观测值代替,即Fo=x1;当时间序列期数在20 个以下时,初始值对预测结果有一定影响,可取前3-5个观测值的平均值代替,如: Fo= (x1+x 2+X3) /3。 三、成长曲线模型 产品生命周期理论揭示产品市场的发展具有一个成长的过程,要经历导入期、成长期、成熟期和衰退期四个阶段。对产品市场演变趋势的预测,可以运用成长曲线(又称为增长曲线)预测模型进行预测。 (一)成长曲线模型 Yt =e(k+abt)(k>0,b>0) 该模型称为龚泊兹曲线,它反映了时间序列呈现S型增长曲线,即初期增长缓慢,接着以较大幅度增长,随后趋于稳定水平。它与产品生命周期曲线非常相似,可以用来预测产品市场的周期变化。 (二)计算过程(略) 四、季节变动分析 季节变动,是指市场需求由于自然条件、消费习惯等因素的作用,随着季节的转变而呈现出周期性的变化,它在每年都重复出现,表现为逐年同月(或季)有相同的变化方向和大致相同的变化幅度。 掌握市场需求的季节变化规律,是合理预测市场需求的前提。季节变动按照数据的时间序列,有升降趋势和水平趋势,季节变动分析包括季节指数趋势法和季节指数水平法两种。 (一)季节指数水平法 预测模型: Yt=Yft 式中 Y——为时序的平均水平,ft为季节指数。 Y可以是预测前一年的月(季)平均水平,也可以是已知年份所有数据月(或季)的平均水平。ft称为季节比或季节指数、季节系数,它表示季节变动的数量状态。 季节指数水平法适用于无明显的上升或下降变动趋势,主要受季节变动和不规则变动影响的时间序列,它一般需要3-5年分月(或季度)的历史数据资料。 季节指数水平法预测的一般程序为: (1)数据分析,形成数据序列; (2)计算各年同月(或季)的平均值yi; (3)计算所有年所有月(或季)的平均值Y; (4)计算各月(或季)的季节比率ft=Yi/Y; (5)计算预期趋势值,一般采用最近年份的平均值Yt-1; (6)计算预测年各月(季)的预测值Yt= Yt-1*ft (二)季节指数趋势法 市场需求量存在季节变动,同时各年水平或同月(或季)水平呈现上升或下降的趋势,这时不能采用指数水平法,而应该采用季节指数趋势法。 其预测模型为: Y=(a+bt)ft 式中(a+bt)为时间序列的线性趋势变动部分,ft为季节指数。 季节指数趋势法的基本思路是,先分离出不含季节周期变动的长期趋势,再计算季节指数,最后建立预测模型。其基本步骤是: (1)以一年的季度数4或月数12为n,对观测值时间序列进行n项移动平均。 (2)由于n为偶数,应再对相邻两期的移动平均再平均后对正,形成新的序列Mt,以此为长期趋势。 (3)将各期观测值除去同期移动均值为季节比率, ft=Yt/Mt,以消除趋势。 (4)将各年同季(或月)的季节比率平均,季节平均比率fi消除不规则变动,i表示季度或月份。 (5)计算时间序列线性趋势预测值X’t,模型为: X’t=a+bt 式中 b=(Mt末尾项—Mt首项)/Mt项数 a=[∑y-b*∑t]/n
优质工程师考试问答知识库