欢迎来到培训码头!

济南
切换分站

您所在位置: 培训码头 > 新闻资讯 > 软件测试> 关于大数据

关于大数据

发布时间:2020-12-28 14:28:07 来源:山东中天软科技集团有限公司

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。通用化的大数据处理框架,主要分为下面几个方面:大数据采集与预处理、大数据存储、大数据清洗、大数据查询分析和大数据可视化。


一、大数据采集

大数据采集,即对各种来源的结构化和非结构化海量数据,所进行的采集。

数据库采集:流行的有Sqoop和ETL,传统的关系型数据库MySQL和Oracle 也依然充当着许多企业的数据存储方式。当然了,目前对于开源的Kettle和Talend本身,也集成了大数据集成内容,可实现hdfs,hbase和主流Nosq数据库之间的数据同步和集成。

网络数据采集:一种借助网络爬虫或网站公开API,从网页获取非结构化或半结构化数据,并将其统一结构化为本地数据的数据采集方式。

文件采集:包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。

二、大数据预处理

大数据预处理,指的是在进行数据分析之前,先对采集到的原始数据所进行的诸如“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作,旨在提高数据质量,为后期分析工作奠定基础。数据预处理主要包括四个部分:数据清理、数据集成、数据转换、数据规约。

中天软--张宁老师

15820018539
今日有24人申请