大数据处理是指收集和操作大数据使其产生有意义的信息。大数据处理可以被认为是一种信息处理的过程,其可以帮助用户用各种方式感受到信息的变化,从已知信息之中获得对用户更为有效和有用的新的信息。
大数据处理的流程
大数据在处理过程中会涉及多个步骤,一般包括了采集、筛选、导入、存储、分析、挖掘和应用等等。
采集是获取大数据的过程;筛选则要验证所收集到数据的正确性和相关性,导入包括了对数据的预处理,将不同的数据按照不同特性进行分类和贴标签等预处理活动,按照一定的需求找到数据的关键点;存储则是将数据导入数据库组合起多个数据;分析则是最关键的一步,其需要将数据收集、整合、分析、解释并且进一步的呈现数据本质;挖掘则是要进一步呈现数据价值,以更深层次的算法获取数据价值;应用则需要将数据信息、数据摘要以及分析结论进行可视化呈现,利用大数据处理成果对用户决策等提供依据。
细分来讲,大数据的采集需要利用多个数据库来接收来自于不同客户端的数据,用户可以通过这些数据库来进行简单的查询和处理工作。这一步常常会用到关系型数据库MySQL和Oracle等,而Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
数据采集步骤所涉及的数据库并不能够支持这些数据的分析,因此需要将这些数据导入到一个集中的大型分布式数据库,然后对数据进行一些简单的清洗和预处理工作再进行存储。有时也需要在数据预处理时进行流式计算来满足实时计算需求。
分析主要利用的是分布式数据库及分布式计算集群,对存储的数据进行分析和分类汇总等,而实时性需求会用到EMC的GreenPlum、Oracle的Exadata以及基于Infobright等,一些半结构化数据分析则更多的会使用Hadoop。
数据挖掘一般无需设定主题,而是基于现有数据进行各种计算,从而达到预测的效果,实现高级别数据分析。常用的数据挖掘算法有Kmeans、SVM和NaiveBayes等,使用的工具一般有Mahout等。数据挖掘算法一般都较为复杂,因此常用的数据挖掘算法都以单线程为主。