赛题很长,有整整一页。
前面是一大段关于赛题的介绍。
唐苏总结了一下,就是需要对赛题提供的虚拟网站的数据进行爬取、清洗、整理、计算、表达、分析,最后要用图表的形式实现数据可视化。
虽然只是初赛,但是唐苏感觉赛题的难度真的有点大,尤其是她们现在才大一,一些专业知识没有学过,甚至也没有上过数据可视化相关的课程。
唐苏倒是自学过数据可视化的一些课程,但是并不深入。
唐苏点开赛题上给出连接,准备开始爬取数据。
但她还未操作,就见一些同学离场了。
唐苏看了一下,离场的竟然包括自己寝室的同学杨璐和仇晓。有将近二三十个同学离场了,其中很多是自己的同学。
唐苏深吸一口气。
看来很多同学对于这个赛题是无从下手吧,或者因为没有掌握相关的一些技能,而不得不放弃比赛。
唐苏不管其他人了,她开始操作了。
她先进行了Hadoop相关组件安装部署,主要是安装Hive组件。
第一步完成之后,她开始使用Python语言爬取数据。
唐苏以前也去一些网站爬取过数据,这一步对于她来说难度并不是很大,这也是作为大数据专业的学生需要掌握的基本技能之一。
第二步,爬取到了数据,唐苏开始提取有效数据,然后对数据进行格式转化,转化为json格式。这一步唐苏很熟练的完成了,因为以前就做过。
Loading...
未加载完,尝试【刷新】or【关闭小说模式】or【关闭广告屏蔽】。
尝试更换【Firefox浏览器】or【Chrome谷歌浏览器】打开多多收藏!
移动流量偶尔打不开,可以切换电信、联通、Wifi。
收藏网址:www.po52.cc
(>人<;)