实验目的

面对当下数据“井喷”式的出现，大数据时代下数据采集成为各行业对数据处理的首要需求，对人才培养也提出了新要求。本项目秉承“以学生为中心”的理念，以“知行合一”为教学结果导向，培养学生主动发现、主动思考并解决Flume数据采集实践问题的能力，采用先进的虚拟现实技术实现对海量数据仿真采集，为学生获得实践、体验、评价的真实学习经历提供软硬件支持。

（1）实验的必要性

随着移动互联网、物联网的迅速发展，产生了大量网购数据、用户行为数据、物联网终端流数据等数据，要分析处理这些数据，首先要能采集到它们。Flume是一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方，用于收集数据。同时，Flume提供对数据进行简单并将数据写人各种数据接收方的能力。用户可以使用Flume从网站、社交网络、云端等获数痞，并存储在HDFS或HBase中，供后期处理与分析。Flume作为实时日志收集系统，在企业中得到广泛应用。本实验结合本校学科与专业建设要求，凸显仿真环境专业特色，通过本虚拟仿真实验项目来解决以下4个挑战性问题：①突破成本制约实现体验式学习，让学生可以将头脑中的逻辑思维在虚拟世界中建构出来，知行合一，学会做事；②突破时空制约实现全过程学习，记录并保存每个学生实验设计全过程，为学生回顾和反思，提供过程数据基础；③突破现实制约实现多方案学习，采集数据时，不受IP限制与制约，可在任何时间与地点对数据进行采集；④突破传统教学制约实现创新型学习，让学生回归到学习活动的主体角色。

（2）实验的实用性

通过本仿真实验，帮助学生梳理大数据的知识体系，并可以让学生更好的理解大数据的理论知识。本仿真实验可以让学生亲身与“互动”，体验大数据技术所能解决的问题。通过实操接触大数据应用的技术，感知海量数据处理的过程，培养数据思维和动手能力，对理论知识的理解更加深入。培养学生用于探索的创新精神，提高动手能力，为以后专业课程的学习乃至未来走向大数据工作岗位打下坚实基础。

数据源头的采集与设计也是一个很重要的话题，传统数据的采集主要是由上层统计机构对调查表进行设计，然后基层的统计人员，按照调查表的说明进行填报并上报。如今数据量庞大，需要一整套解决方案，便催生了很多数据采集组件，本实验涉及的Flume便是很重要的采集组件，在数据采集与预处理过程中，具有很强的实用性。

（3）教学设计的合理性

①设立“虚拟仿真微试验”视频讲解。Flume数据采集实验的专业性强、知识点多，而且在Linux操作系统操作完成，为了能够使学习者能够快速熟悉虚拟仿真实验环境，系统提供“教学引导视频”，提高学生的预习与自学能力。

②连贯而系统的知识点理论学习。将Flume核心概念agent；agent里面包含3个核心组件:source、channel、sink；用于把数据发送到目的地的组件sink,目的地包括 hdfs、logger、avro、 thrift、ipc、file、 nul、 hbase、 solr、自定义。等多个知识点在实验操作中系统连贯的串起来，提升学习了效果。

③设立“自主式学习模式”应用于课堂实践教学与课程自学。强调学习自主化，学习者可以根据语音提示以及步骤引导，能够自主完成本虚拟实验内容。培养学生的观察分析能力。结合理论学习，加深学生对于数据采集原理的认识。

④设立“练习模式”，应用于课后实践活动。重实验操作步骤的准备，并通过流程进行操作引导，强调操作流程的规范性和重要性，如果实验操作未按正确流程则无法完成实验。

⑤项目注重持续改进和社会效应，实验信息与课后评价实时反馈。促进教学团队有的放矢地开展教学研究，不断提升教学学术能力。实验深入浅出、通俗易懂、互动性强，可以作为社会公众的安全知识科普教育的重要部分。

（4）实验系统的先进性

①已拥有完全自有知识产权。虚拟仿真是一种新的教育生产力，是推进“智能+教育”的创新性手段；Flume作为分布式、高可靠、高可用的海量日志采集、聚合、传输系统，支持在日志系统中定制各类数据发送方，用以采集数据，也提供对数据进行简单处理，并写到各种数据接收方的能力。可以说，Flume是实时采集日志的数据采集引擎。本项目已取得相应软件著作权。

②解决虚拟桌面动态分配问题及虚拟桌面启动速度问题。够仿真海量数据分布式处理的集群环境，使用虚拟化容器技术，解决虚拟桌面动态分配问题及虚拟桌面启动速度问题。能够极大提升硬件资源使用率。

③提供对真实商业脱敏数据的仿真使用。这些数据质量好，时效性高，数据类型丰富，并且与真实世界中的事件息息相关。以这种真实数据作为底层资源，可以有效帮助学习和科研者准确解释、合理预测现实事件的相关关系及过程逻辑，可以诠释数据的多样性，充分展示大数据魅力，具有很高的教学价值和科研价值。

总之，本仿真实验系统可以促进实践条件及资源建设、实验环境搭建等，并有利于建立健全仿真训练运行机制，打造丰富的教学、实验内容，整合共享区域性资源，以人才培养为主旨，支撑专业发展。