您现在的位置是：首页 > IT基础架构 > 计算存储 >

大数据 Hadoop

2012-10-26 09:32:00作者：来源：

摘要如果要采用Hadoop去取代RISC架构的数据库，BI应用。那么必须打破原来企业经典的沿用几十年的数据结构，重新定义数据模型，表结构等等。...

　　这段时间接触大数据相关项目比较多，自然有些体会和感触。感觉到自己之前对于这个领域的认识并不全面，甚至有点盲目，然后在具体项目或者概念认证阶段走了不少弯路。但好在在这些项目过程中认识接触了不少合作伙伴的兄弟姐妹们，从他们那里学到了不少东西。现在试着把这些心得整理下分享给大家，希望对于各位对大数据感兴趣的童鞋们有点帮助吧。这篇PPT主要有两个部分：一个部分是讲大数据应用场景以及和传统方案的区别等等，还有一个部分是介绍国内大数据一些解决方案提供商和一些实际应用案例的。这里只贴出第一部分，希望能够帮大家理清些大数据的概念性问题。

　　上图中，精确数据是指每条数据都有着准确的含义和确定的价值，表达很明确的信息。比如，制造业的一条生产记录。传统关系型数据库以处理这类数据。并基于此类数据通过复杂逻辑分析推演出业务价值为强项。

　　大数据时代数据的特点是大量模糊数据。单条数据没有确定的价值和明确的含义。比如，一个网页的点击记录。Hadoop的优势是能对海量模糊数据进行汇总排序比对等操作，把他们变成有意义的数据，再通过海量的样本比对等方式归纳产生业务价值。

　　所以，从本质上说这是两种针对不同场景不同对象的不同技术。如果要采用Hadoop去取代RISC架构的数据库，BI应用。那么必须打破原来企业经典的沿用几十年的数据结构，重新定义数据模型，表结构等等。还是我以前提过的，就是要重新从头练另一门武功。但那样下来效率是否一定就会比以前高，效果是否一定比以前好，从我几个项目试验的结果来看也并不乐观。

　　但是，在某些情况下大数据技术也能比RISC架构更好的解决一些传统的结构化数据问题，比如ETL。在一些行业里，ETL工作往往需要一个很长的处理流程。利用Map/Reduce技术可以大大缩短ETL的工作流程，提高效率，而且随着数据量的不断增长，这种优势会越来越明显。所以说，是否用Hadoop去尝试替代原先的RISC架构，关键还是看数据量是否够大以及数据类型是否多样化。