大数据架构初步

Hadoop技术生态架构

HDFS

Hbase

侧重于结构化的数据，其数据都存在于HDFS上，可以相当于在HDFS的基础上又进行了封装，新版的Hbase支持对数据的增删改操作，而HDFS是不支持数据的修改的。Hbase上的数据是以key-value的形式存储，Hbase是一种非关系型数据库，即NoSql；

MapReduce

是一种计算框架，延时性较高，适合对离线数据进行计算处理；

Storm

Hadoop生态下的计算框架之一，流式数据处理，延时性低，适合实时计算，只负责计算不负责存储，目前Storm并不常用，如今常用的实时计算框架有Flink、Spark。

Hive

Sql语言转换工具，支持Hsql语句，但有一些细节不一样，能够将Hive的sql语句进行翻译，转换成难理解的MapReduce，实质就是MapReduce的一个封装，简化了MapReduce的工作流程；

Mahout

凌驾于计算框架之上的封装，为了解放生产力，封装了数据挖掘算法模型，基于MapReduce运行；

RDBMS

关系型数据库(MySql等)，存储的数据是经过汇总聚合过后的数据，非大数据，可以对数据进行一个实时大屏展示；

Zoopkeeper

进行资源调度，分配，协调Hadoop的生态架构稳定运行；

Online Engine：

大数据生态架构的业务

搜索引擎概述

如今搜索引擎在我们生活中十分常见，比如说百度、搜狐、Bing、Google等。

搜索引擎架构

爬虫：数据收集中心，一个互联网世界的缩影；

索引系统：分析整理爬虫收集的资源，为检索系统提供数据；

检索系统：从预处理好的资源里挑选出用户最满意的结果，最快最好的展现；

补充：倒排索引

# 倒排索引
keyword:数据开发	# 假设在界面上搜索“数据开发”
URL1 -> parse(解析) -> 数据开发， 入门， 精通	# 通过搜索会得到很多URL，对这些URL进行解析得到一些关键字词
URL2 -> parse -> 海量数据， 一站式数据
URL3 -> parse -> 学习， 数据开发
...

数据开发 -> URL1, URL2, URL3, ...	# 针对数据开发关键字进行搜索可以得到相应的URL
入门 -> URL1