从进入大学,我就常在思考,未来要做什么,自己的兴趣是什么。我的大学阶段,在保证本专业的成绩优秀的情况下,我尽一切努力探索更多未知的领域。参加过全国物流设计大赛,电子商务大赛,机械设计大赛,创新创业大赛,全国大学生数学建模大赛,还参与各种社团,学生活动,只是为了找寻真正喜欢的方向。后面,我发现能从心底里感兴趣,真正喜欢的就是参与数学建模的整个过程,这也在最后奠定了以后的方向。
保研后,在完成学校所有的论文要求和实验室项目的同时,我开启了数据分析的实习道路,现在已经在互联网实习快一年了,记录一下所有的成长历程吧!
首先是面试,有两轮的面试,因为是技术岗,第一个面试官问了两个算法题和一个数学题,第二个面试官问了一个用sql处理数据的问题和两个数学题,而第二个面试官就是我们数据组的老大。
开始的一周,需要搭建跳板机,vpn和git的环境,接着就开始工作了。
我们组的工作内容:
我们组的工作是分析公司各业务的log日志,包括服务器和客户端,还有每个业务服务的数据库中的数据。最后搭建数据仓库,完成一整套数据收集,处理,分析到展示的过程,其中还涉及监控和报警,有离线数据还有实时数据的分析。我们提供一个数据报表展示平台,每一个报表由运维,产品,运营,服务器开发等同事提出数据需求,最后由我们完成,同时,我们还会处理各种临时需求,数据分析等工作,并提供一个方便大家查询数据的sql查询接口。
技术流:
首先,各业务的产品经理想要分析某个点击行为或者功能,需要和对应的开发,和我们组协商打点的数据格式,参数,对应的服务器名,日志路径,或者jdbc,库名与表名,对应的字段名称,具体业务逻辑和含义。业务产品需要给我们提出数据分析需求,不同的维度的筛选,统计指标的定义。接着需要大数据工程师,如果是离线数据,需要用sqoop将数据导入hdfs上,存入规定地标准路径和文件中,建立partition以天为分区。然后数据分析工程师需要搭建整个数据仓库,公司的数据仓库是用php搭建的框架,对应格式基本一致的数据源,用hive建表,可以对应csv,用jave写serde进行解析等方式处理,如果是非格式化且记录之间的格式变动较大,需要用pig处理,pig中调用python,处理后再用hive建表,也有需要用r进行处理的数据,最后数据经过ods,dw层以hive表记录,到最后dm层时实现产品最后的统计分析需求,dm以mysql表记录,数据仓库的建立需要伴随着业务不断修改逻辑,最后展示到web中,web中还需要进行一些简单的sql进行展示,用js插件可以调用不用的数据展示形式。实时数据是用kafak进行收集,然后实时查询,离线数据是晚上12:00开始跑job,其中包括任务调度,依赖等的设置。如果有以月跑的数据,还crontab进行调度,有些数据还需要外部信息,比如ip地址的对应,手机型号等,要写对应爬虫收集相关数据。公司有三个业务,业务的数据还会内嵌,交叉统计,有时候某一个业务逻辑修改会影响很多数据的统计结果,因此数据分析工作是一个复杂的系统工程。
作为一个数据分析工程师,我的工作主要是分析离线数据,在产品提出需求后,分析要统计的逻辑,提出倒数需求log或mysql,建立数据仓库hive,pig,python,php,从ods层到dm层写出数据统计的逻辑,最后把数据放如mysql,最后配置web页面,有时候会写简单的爬虫,跑临时数据,会用shell写个简单的脚本,用crontab进行调度等。仓库的代码用git管理。
结语:
喜欢我们组的氛围,大家都热爱各种创新的技术和分析方法,热爱分享。很感激老大带领我进入了公司,进入了我们组,感谢大家对我的帮助,开启了我数据分析的道路。
-
工程师
+关注
关注
59文章
1566浏览量
68439 -
数据分析
+关注
关注
2文章
1427浏览量
34011
发布评论请先 登录
相关推荐
评论