网站建设 >

查看其它板块

nosql数据压缩的简单介绍

高性能 NoSQL

关系数据库经过几十年的发展，已经非常成熟，但同时也存在不足：

十载的瓯海网站建设经验，针对设计、前端、开发、售后、文案、推广等六对一服务，响应快，48小时及时工作处理。全网整合营销推广的优势是能够根据用户设备显示端的尺寸不同，自动调整瓯海建站的显示方式，使网站能够适用不同显示终端，在浏览器中调整网站的宽度，无论在任何一种浏览器上浏览网站，都能展现优雅布局与设计，从而大程度地提升浏览体验。创新互联从事“瓯海网站设计”,“瓯海网站推广”以来，每个客户项目都认真落实执行。

表结构是强约束的，业务变更时扩充很麻烦。

如果对大数据量的表进行统计运算，I/O会很高，因为即使只针对某列进行运算，也需要将整行数据读入内存。

全文搜索只能使用 Like 进行整表扫描，性能非常低。

针对这些不足，产生了不同的 NoSQL 解决方案，在某些场景下比关系数据库更有优势，但同时也牺牲了某些特性，所以不能片面的迷信某种方案，应将其作为 SQL 的有利补充。

NoSQL != No SQL，而是：

NoSQL = Not Only SQL

典型的 NoSQL 方案分为4类：

Redis 是典型，其 value 是具体的数据结构，包括 string, hash, list, set, sorted set, bitmap, hyperloglog，常被称为数据结构服务器。

以 list 为例：

LPOP key 是移除并返回队列左边的第一个元素。

如果用关系数据库就比较麻烦了，需要操作：

Redis 的缺点主要体现在不支持完成的ACID事务，只能保证隔离性和一致性，无法保证原子性和持久性。

最大的特点是 no-schema，无需在使用前定义字段，读取一个不存在的字段也不会导致语法错误。

特点：

以电商为例，不同商品的属性差异很大，如冰箱和电脑，这种差异性在关系数据库中会有很大的麻烦，而使用文档数据库则非常方便。

文档数据库的主要缺点：

关系数据库是按行来存储的，列式数据库是按照列来存储数据。

按行存储的优势：

在某些场景下，这些优势就成为劣势了，例如，计算超重人员的数据，只需要读取体重这一列进行统计即可，但行式存储会将整行数据读取到内存中，很浪费。

而列式存储中，只需要读取体重这列的数据即可，I/O 将大大减少。

除了节省I/O，列式存储还有更高的压缩比，可以节省存储空间。普通行式数据库的压缩比在 3:1 到 5:1 左右，列式数据库在 8:1 到 30:1，因为单个列的数据相似度更高。

列式存储的随机写效率远低于行式存储，因为行式存储时同一行多个列都存储在连续空间中，而列式存储将不同列存储在不连续的空间。

一般将列式存储应用在离线大数据分析统计场景，因为这时主要针对部分列进行操作，而且数据写入后无须更新。

关系数据库通过索引进行快速查询，但在全文搜索的情景下，索引就不够了，因为：

假设有一个交友网站，信息表如下：

需要匹配性别、地点、语言列。

需要匹配性别、地点、爱好列。

实际搜索中，各种排列组合非常多，关系数据库很难支持。

全文搜索引擎是使用倒排索引技术，建立单词到文档的索引，例如上面的表信息建立倒排索引：

所以特别适合根据关键词来查询文档内容。

上面介绍了几种典型的NoSQL方案，及各自的适用场景和特点，您可以根据实际需求进行选择。

什么是NoSQL数据库？

“NoSQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称。NoSQL用于超大规模数据的存储。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。”

几种nosql的浅谈

1、性能

都比较高，性能对我们来说应该都不是瓶颈。

总体来讲，TPS 方面 redis 和 memcache 差不多，要大于 mongodb。

2、操作的便利性

memcache 数据结构单一。（key-value）

redis 丰富一些，数据操作方面，redis 更好一些，较少的网络 IO 次数，同时还提供 list，set，

hash 等数据结构的存储。

mongodb 支持丰富的数据表达，索引，最类似关系型数据库，支持的查询语言非常丰富。

3、内存空间的大小和数据量的大小

redis 在 2.0 版本后增加了自己的 VM 特性，突破物理内存的限制；可以对 key value 设置过

期时间（类似 memcache）

memcache 可以修改最大可用内存,采用 LRU 算法。Memcached 代理软件 magent，比如建立

10 台 4G 的 Memcache 集群，就相当于有了 40G。 magent -s 10.1.2.1 -s 10.1.2.2:11211 -b

10.1.2.3:14000 mongoDB 适合大数据量的存储，依赖操作系统 VM 做内存管理，吃内存也比较厉害，服务

不要和别的服务在一起。

4、可用性（单点问题）

对于单点问题，

redis，依赖客户端来实现分布式读写；主从复制时，每次从节点重新连接主节点都要依赖整

个快照,无增量复制，因性能和效率问题，

所以单点问题比较复杂；不支持自动 sharding,需要依赖程序设定一致 hash 机制。

一种替代方案是，不用 redis 本身的复制机制，采用自己做主动复制（多份存储），或者改成

增量复制的方式（需要自己实现），一致性问题和性能的权衡

Memcache 本身没有数据冗余机制，也没必要；对于故障预防，采用依赖成熟的 hash 或者环

状的算法，解决单点故障引起的抖动问题。

mongoDB 支持 master-slave,replicaset（内部采用 paxos 选举算法，自动故障恢复）,auto sharding 机制，对客户端屏蔽了故障转移和切分机制。

5、可靠性（持久化）

对于数据持久化和数据恢复，

redis 支持（快照、AOF）：依赖快照进行持久化，aof 增强了可靠性的同时，对性能有所影

响

memcache 不支持，通常用在做缓存,提升性能；

MongoDB 从 1.8 版本开始采用 binlog 方式支持持久化的可靠性

6、数据一致性（事务支持）

Memcache 在并发场景下，用 cas 保证一致性redis 事务支持比较弱，只能保证事务中的每个操作连续执行

mongoDB 不支持事务

7、数据分析

mongoDB 内置了数据分析的功能(mapreduce),其他不支持

8、应用场景

redis：数据量较小的更性能操作和运算上

memcache：用于在动态系统中减少数据库负载，提升性能;做缓存，提高性能（适合读多写

少，对于数据量比较大，可以采用 sharding）

MongoDB:主要解决海量数据的访问效率问题。

表格比较：

memcache redis 类型内存数据库内存数据库

数据类型在定义 value 时就要固定数据类型不需要

有字符串，链表，集合和有序集合

虚拟内存不支持支持

过期策略支持支持

分布式 magent master-slave，一主一从或一主多从

存储数据安全不支持使用 save 存储到 dump.rdb 中

灾难恢复不支持 append only file(aof)用于数据恢复

性能

1、类型——memcache 和 redis 都是将数据存放在内存，所以是内存数据库。当然，memcache 也可用于缓存其他东西，例如图片等等。

2、数据类型——Memcache 在添加数据时就要指定数据的字节长度,而 redis 不需要。

3、虚拟内存——当物理内存用完时，可以将一些很久没用到的 value 交换到磁盘。

4、过期策略——memcache 在 set 时就指定，例如 set key1 0 0 8,即永不过期。Redis 可以通

过例如 expire 设定，例如 expire name 10。

5、分布式——设定 memcache 集群，利用 magent 做一主多从;redis 可以做一主多从。都可

以一主一从。

6、存储数据安全——memcache 断电就断了，数据没了；redis 可以定期 save 到磁盘。

7、灾难恢复——memcache 同上，redis 丢了后可以通过 aof 恢复。

Memecache 端口 11211

yum -y install memcached

yum -y install php-pecl-memcache

/etc/init.d/memcached start memcached -d -p 11211 -u memcached -m 64 -c 1024 -P /var/run/memcached/memcached.pid

-d 启动一个守护进程

-p 端口

-m 分配的内存是 M

-c 最大运行并发数-P memcache 的 pid

//0 压缩（是否 MEMCACHE_COMPRESSED） 30 秒失效时间

//delete 5 是 timeout

NoSQL自动生成上千万的数据可以有哪些方法

1. CouchDB

所用语言： Erlang

特点：DB一致性，易于使用

使用许可： Apache

协议： HTTP/REST

双向数据复制，

持续进行或临时处理，

处理时带冲突检查，

因此，采用的是master-master复制（见编注2）

MVCC – 写操作不阻塞读操作

可保存文件之前的版本

Crash-only（可靠的）设计

需要不时地进行数据压缩

视图：嵌入式映射/减少

格式化视图：列表显示

支持进行服务器端文档验证

支持认证

根据变化实时更新

支持附件处理

因此， CouchApps（独立的 js应用程序）

需要 jQuery程序库

最佳应用场景：适用于数据变化较少，执行预定义查询，进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。

例如： CRM、CMS系统。 master-master复制对于多站点部署是非常有用的。

（编注2：master-master复制：是一种数据库同步方法，允许数据在一组计算机之间共享数据，并且可以通过小组中任意成员在组内进行数据更新。）

2. Redis

所用语言：C/C++

特点：运行异常快

使用许可： BSD

协议：类 Telnet

有硬盘存储支持的内存数据库，

但自2.0版本以后可以将数据交换到硬盘（注意， 2.4以后版本不支持该特性！）

Master-slave复制（见编注3）

虽然采用简单数据或以键值索引的哈希表，但也支持复杂操作，例如 ZREVRANGEBYSCORE。

INCR co （适合计算极限值或统计数据）

支持 sets（同时也支持 union/diff/inter）

支持列表（同时也支持队列；阻塞式 pop操作）

支持哈希表（带有多个域的对象）

支持排序 sets（高得分表，适用于范围查询）

Redis支持事务

支持将数据设置成过期数据（类似快速缓冲区设计）

Pub/Sub允许用户实现消息机制

最佳应用场景：适用于数据变化快且数据库大小可遇见（适合内存容量）的应用程序。

例如：股票价格、数据分析、实时数据搜集、实时通讯。

（编注3：Master-slave复制：如果同一时刻只有一台服务器处理所有的复制请求，这被称为

Master-slave复制，通常应用在需要提供高可用性的服务器集群。）

3. MongoDB

所用语言：C++

特点：保留了SQL一些友好的特性（查询，索引）。

使用许可： AGPL（发起者： Apache）

协议： Custom, binary（ BSON）

Master/slave复制（支持自动错误恢复，使用 sets 复制）

内建分片机制

支持 javascript表达式查询

可在服务器端执行任意的 javascript函数

update-in-place支持比CouchDB更好

在数据存储时采用内存到文件映射

对性能的关注超过对功能的要求

建议最好打开日志功能（参数 –journal）

在32位操作系统上，数据库大小限制在约2.5Gb

空数据库大约占 192Mb

采用 GridFS存储大数据或元数据（不是真正的文件系统）

最佳应用场景：适用于需要动态查询支持；需要使用索引而不是 map/reduce功能；需要对大数据库有性能要求；需要使用

CouchDB但因为数据改变太频繁而占满内存的应用程序。

例如：你本打算采用 MySQL或 PostgreSQL，但因为它们本身自带的预定义栏让你望而却步。

4. Riak

所用语言：Erlang和C，以及一些Javascript

特点：具备容错能力

使用许可： Apache

协议： HTTP/REST或者 custom binary

可调节的分发及复制(N, R, W)

用 JavaScript or Erlang在操作前或操作后进行验证和安全支持。

使用JavaScript或Erlang进行 Map/reduce

连接及连接遍历：可作为图形数据库使用

索引：输入元数据进行搜索（1.0版本即将支持）

大数据对象支持（ Luwak）

提供“开源”和“企业”两个版本

全文本搜索，索引，通过 Riak搜索服务器查询（ beta版）

支持Masterless多站点复制及商业许可的 SNMP监控

最佳应用场景：适用于想使用类似 Cassandra（类似Dynamo）数据库但无法处理

bloat及复杂性的情况。适用于你打算做多站点复制，但又需要对单个站点的扩展性，可用性及出错处理有要求的情况。

例如：销售数据搜集，工厂控制系统；对宕机时间有严格要求；可以作为易于更新的 web服务器使用。

5. Membase

所用语言： Erlang和C

特点：兼容 Memcache，但同时兼具持久化和支持集群

使用许可： Apache 2.0

协议：分布式缓存及扩展

非常快速（200k+/秒），通过键值索引数据

可持久化存储到硬盘

所有节点都是唯一的（ master-master复制）

在内存中同样支持类似分布式缓存的缓存单元

写数据时通过去除重复数据来减少 IO

提供非常好的集群管理 web界面

更新软件时软无需停止数据库服务

支持连接池和多路复用的连接代理

最佳应用场景：适用于需要低延迟数据访问，高并发支持以及高可用性的应用程序

例如：低延迟数据访问比如以广告为目标的应用，高并发的 web 应用比如网络游戏（例如 Zynga）

6. Neo4j

所用语言： Java

特点：基于关系的图形数据库

使用许可： GPL，其中一些特性使用 AGPL/商业许可

协议： HTTP/REST（或嵌入在 Java中）

可独立使用或嵌入到 Java应用程序

图形的节点和边都可以带有元数据

很好的自带web管理功能

使用多种算法支持路径搜索

使用键值和关系进行索引

为读操作进行优化

支持事务（用 Java api）

使用 Gremlin图形遍历语言

支持 Groovy脚本

支持在线备份，高级监控及高可靠性支持使用 AGPL/商业许可

最佳应用场景：适用于图形一类数据。这是 Neo4j与其他nosql数据库的最显著区别

例如：社会关系，公共交通网络，地图及网络拓谱

7. Cassandra

所用语言： Java

特点：对大型表格和 Dynamo支持得最好

使用许可： Apache

协议： Custom, binary (节约型)

可调节的分发及复制(N, R, W)

支持以某个范围的键值通过列查询

类似大表格的功能：列，某个特性的列集合

写操作比读操作更快

基于 Apache分布式平台尽可能地 Map/reduce

我承认对 Cassandra有偏见，一部分是因为它本身的臃肿和复杂性，也因为 Java的问题（配置，出现异常，等等）

最佳应用场景：当使用写操作多过读操作（记录日志）如果每个系统组建都必须用 Java编写（没有人因为选用

Apache的软件被解雇）

例如：银行业，金融业（虽然对于金融交易不是必须的，但这些产业对数据库的要求会比它们更大）写比读更快，所以一个自然的特性就是实时数据分析

8. HBase

（配合 ghshephard使用）

所用语言： Java

特点：支持数十亿行X上百万列

使用许可： Apache

协议：HTTP/REST （支持 Thrift，见编注4）

在 BigTable之后建模

采用分布式架构 Map/reduce

对实时查询进行优化

高性能 Thrift网关

通过在server端扫描及过滤实现对查询操作预判

支持 XML, Protobuf, 和binary的HTTP

Cascading, hive, and pig source and sink modules

基于 Jruby（ JIRB）的shell

对配置改变和较小的升级都会重新回滚

不会出现单点故障

堪比MySQL的随机访问性能

最佳应用场景：适用于偏好BigTable:)并且需要对大数据进行随机、实时访问的场合。

例如： Facebook消息数据库（更多通用的用例即将出现）

编注4：Thrift

是一种接口定义语言，为多种其他语言提供定义和创建服务，由Facebook开发并开源。

当然，所有的系统都不只具有上面列出的这些特性。这里我仅仅根据自己的观点列出一些我认为的重要特性。与此同时，技术进步是飞速的，所以上述的内容肯定需要不断更新。我会尽我所能地更新这个列表。

网站题目：nosql数据压缩的简单介绍
文章起源：http://cdkjz.cn/article/dsicgsp.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

短视频拍摄 led无边发光字成都400电话申请域名申请成都宣传单设计防护网厂腾讯云虚拟主机成都网络推广成都柴油发电机组企业网站设计

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图