大数据的理想与现实 - 系统集成网
推广 热搜: 集成  系统集成  弱电  软件  kvm  服务器  思科  拼接  视频会议  SFP 

大数据的理想与现实

   日期:2012-08-10     来源:网界网    作者:周源    浏览:617    评论:0    

例如,在采集来自各种客户端(Web、App或者传感器形式等)的数据的阶段里,最大挑战在于并发数高,因为同时有可能会有成千上万的用户来进行访问和操作(比如火车票售票网站和淘宝),所以需要在采集端部署大量数据库才能支撑。

采集完数据后,还要将数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并在此基础上做一些简单的清洗和预处理工作。“导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。”吴朱华说。

接下来主要是利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。其中,对半结构化、非结构化数据的处理与分析就是Hadoop大显身手的时候了。但这一阶段由于涉及的数据量大,对系统资源,尤其是I/O资源的消耗量会很大。

最后数据挖掘阶段就涉及到各种算法与模型了。由于用于挖掘的算法很复杂,并且计算涉及的数据量都很大,对底层计算资源的要求将比较高。

“从大数据处理流程就可以看出,我们需要为大规模分布式数据密集型作业而设计的计算系统,需要经济高效智能的存储,需要可快速导入大型数据集然后复制到各节点进行处理的网络基础设施,需要保护高度分布式基础设施和数据的安全能力,以及那些拥有统计数据、算法、数据挖掘和可视化技术识别机会的专家团队。总之,大数据是一个端到端的全面解决方案,涉及到服务器、存储、网络、软件等各个环节。”何京翔说。

当谈到如何着手大数据应用实践时,吴朱华建议企业用户要找准切入点。最好是找到一个技术难度小,并且有一定的商业价值的场景来做大数据技术落地的试点,并不断地进行测试和迭代来验证,而不是一味求复杂、求大,这样比较容易说服企业管理层来进行长期的投入和支持。

此外,他还强调:“尽量不要走平台思路,应以具体的应用和场景为主。因为建一个平台有很多附加的成本和设计,例如,亚马逊的云平台是通过至少五年时间构建而成。特别是项目初期,不建议走平台这个方向,而是应脚踏实地以具体的商业场景为主。”

关键趋势:企业级市场积蓄大数据商机

无论是国内还是国外,对大数据展开率先研究与应用都是互联网公司,因为互联网公司最先面临来自海量、多样化的数据的压力。但是,IDC中国企业级系统与软件研究部高级研究经理周震刚表示,大数据的一个重要趋势就是,由网络处理走向企业级应用。

IDC中国企业级系统与软件研究部高级研究经理 周震刚

“未来几年,我们将看到大数据应用将从互联网逐渐向更多的行业发展,所以未来对基于数据流的监测和分析将有更多的需求。”周震刚说。例如,电信运营商利用大数据技术对用户的行为习惯进行分析,就能更有针对性地制订市场营销计划或开发出更多全新的商业模式和服务;金融行业能借该技术更快速地分析在金融机构之间交换的营销与交易数据,以确保交易的安全可靠和防欺诈;智能城市及物联网领域则可借大数据技术更快实现智能交通监控、智能公共安全、气象和污染变化的智能监控及预测等应用。

事实上,大数据向企业级应用的迁移趋势已经初步显示。例如,中国东方航空信息部总经理严振红告诉记者,他们已经密切关注大数据,正在做一些研究性工作;民生证券早已于去年开始了实验性质的大数据应用研发;而中国联通则是非互联网用户中走得比较超前的两家企业。

据中国联通研究院副院长黄文良介绍,由于此前难以向用户提供上网记录查询服务,中国联通曾一度为3G服务客户数据流量所引发的计费争议所困扰,而通过采用基于至强平台及英特尔发行版Hadoop的大数据解决方案,中国联通目前已在移动通信用户上网记录集中查询与分析支撑系统的建设上获得了重要进展。这也是电信行业首次将Hadoop/HBase引入商用电信服务系统建设中。

“这一系统可为我们的客户服务人员提供客户上网记录的快速查询服务,或为客户本人提供高效的异常大流量上网记录自助查询服务,这将有助于解决流量投诉问题,”黄文良表示:“未来该系统还有望帮助我们更为准确地把握用户偏好,从而让我们能更有效地制定市场策略和开发新业务。”

中国联通研究院副院长 黄文良

随着大数据向企业级应用的深层次渗透,周震刚表示还将可能带来两大新的变化。

一是大数据将创造细分的市场。数据分析、数据代理将可能作为一种服务出现,专门面向数据分析人才培训的市场也会随之火爆。当然,肯定还有一些目前无法想象的细分市场涌现出来。

二是将可能出现打包的大数据行业应用。“从传统概念来讲,大数据太复杂了,无法形成打包好的分析应用,但是在未来几年中,某一个行业的应用会形成一定的共性,将会有厂商根据行业的分析应用,打包好一些分析的应用,然后将基于大数据的分析应用推广到行业方面,这不仅需要做数据分析的专长,也需要很多行业方面的专业知识,将会有很多行业的ISV加入到大数据行列中,基于大数据平台开展他们的大数据分析应用。” 周震刚说。

事实上,有些动作敏捷的IT公司已经开始与一些专注于特定行业需求的本地系统集成商协作,开始构建专为相关行业应用优化的大数据解决方案。例如,英特尔正在支持2011年夺得全世界视频监控产品市场份额第一,并在全球安防领域内拥有最大规模研发中心的海康威视,去开发和推广基于至强平台和英特尔发行版Hadoop的大数据处理方案,以满足平安城市和智能交通应用对海量非结构化数据进行高效处理的要求。

总之言之,大数据市场正在积蓄无限商机。根据IDC的预测,到2015年,全球大数据市场规模将从2012年的20亿美元增长至160亿美元。无疑,企业级市场将对此增长贡献良多。

征战新蓝海 IT厂商布局忙

拥有广阔市场发展前景的大数据俨然成了一众IT厂商心中的新蓝海,IT厂商们早已开始为此排兵布阵。他们或发布战略、或推出产品,各种合作、收购动作频频,着实热闹。

例如,2010年IBM收购了数据分析公司Netezza,并在去年5月推出了InfoSphere BigInsights软件(该软件包包括Apache Hadoop发行版);惠普不仅将Vertica揽入怀中,还重金收购了对Autonomy,并于今年推出了与Vertica 6实现高级集成了的大数据应用平台HP AppSystem for Apache Hadoop;EMC自收购Greenplum后,很快发布支持大数据分析的下一代EMC Greenplum统一分析平台;甲骨文则通过NoSQL数据库和Big Data Appliance(大数据机)让客户直接拥有处理非结构化海量数据的能力;而HANA则让SAP享有风光无限;戴尔选择联手Cloudera跻身Hadoop阵营;微软已推出了基于Azure云平台的Hadoop服务;就连传统芯片厂商英特尔也宣布,不仅继续打造的高效IT基础设施,还推出了针对英特尔平台优化的Hadoop产品和服务。

市场研究Wikibon认为,得益于深厚的积累,IBM、英特尔这些老牌劲旅目前还是占据了优势地位。根据该公司的调研报告,IBM所占有的大数据市场份额最大,总价值约10亿美元,英特尔的大数据运营收入为7.65亿美元,惠普则位列第三,分得5.5亿美元。

此外,Cloudera、Splunk 、Clustrix、1010data等一些新兴的大数据企业异军突起,它们力争在未来庞大的市场需求中打拼出自己的创新空间。不过,令人较为遗憾的是,国内类似的大数据创新企业还比较少,希望这一局面能够尽早得以改变。

文章最后,请容许笔者引用戴尔服务部首席创新官James Stikeleather的一句话寄语已经莅临的大数据:“对于一项新技术,人们总容易高估它的短期影响,又低估它的长期效益。”

【表】IDC全球大数据市场规模与预测 2012~2015

【IDC对大数据的十大预测】

1. Hadoop迈向商业化

2. 部分早期的Hadoop项目面临挑战

3. 开源软件带来更多相关市场机会

4. 大数据推动软件公司间的并购

5. 针对大数据的应用市场迅速增长

6. 大数据由网络处理走向企业级应用

7. 大数据创造新的细分市场

8. 打包的大数据行业分析应用出现

9. 大数据推动基础架构向Scale-Out发展

10. 中国成为全球最重要的大数据市场之一

【关于Hadoop,你应该知道的8个事实】

事实1:Hadoop是由多个产品组成的。

人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的开源产品共同组成,这些产品都是Apache软件基金会的项目。

事实2:Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品。

由于Hadoop属于开源技术,可免费下载,所以英特尔、IBM、Cloudera等厂商都可以推出他们各自的Hadoop特别发行版本。这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务,特别适合企业用户。

事实3:Hadoop是一个生态系统,而非一个产品。

Hadoop是由开源社区和各个厂商共同开发和推动的。具体说来,厂商的Hadoop产品的结构化和关系性更强一些。

事实4:HDFS是文件系统,而不是数据库管理系统。

经常有人把二者混为一谈,但其实并非如此,能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。而且,在数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。

事实5:Hadoop的意义不仅仅在于数据量,更在于数据的多样化。

有人把Hadoop归类为海量数据处理技术,但是Hadoop真正的价值却是对多样化数据(主要指半结构化与非结构化数据)处理的能力。

事实6:Hadoop是数据仓库的补充,不是数据仓库的替代品。

Hadoop对多样化数据类型进行管理的能力使得“数据仓库将死”的言论四起,但其实并非如此,传统数据仓库在其领域中的性能仍然出色,Hadoop对数据仓库技术是补充的作用。

事实7:大数据不一定非Hadoop不可。

别看现在大数据和Hadoop已经密不可分,但Hadoop并不是大数据的“唯一”。许多其他厂商的产品,如Teradata、Sybase IQ(被SAP收购)和Vertica(被惠普收购)等都适用于大数据分析。

事实8:Hadoop不是“免费午餐”。

虽然Hadoop属于开源技术,但其实有许多隐形开销。由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,企业用户只能请专业人士在运行环境中手写输入代码,而这些专业人士的薪酬价码都不菲,更不用提部署Hadoop集群的硬件及相关配置的成本。

 
标签: 大数据 Hadoop
打赏
 
更多>同类资讯
0相关评论

 
推荐资讯
点击排行

网站首页  |  付款方式  |  版权隐私  |  使用协议  |  联系方式  |  关于我们  |  网站地图  |  排名推广  |  广告服务  |  RSS订阅  |  违规举报  |  京ICP备11008917号-2  |