lsm树和b+树,ls lm模型简单的讲解

代表数据库：nessDB、leveldb、hbase等

核心思想的核心是放弃部分读取能力，以换取写入最大化能力。 LSM Tree，这个概念是结构化决策树的意思，其核心思路其实非常简单，假设内存足够大。因此，每次更新数据时都必须将数据写入磁盘，可以将最新的数据保存在内存中，存储到最后，再使用合并排序方式合并内存中的数据并添加到磁盘组的末尾。 (因为所有要排序的树都是有序的，可以通过合并排序方式快速合并) )。

日志结构的合并树(LSM-tree )是基于硬盘的数据结构，与B-tree相比，可以大幅减少硬盘的磁盘臂开销，提供长时间的文件高速插入(删除)。但是，在某些情况下，LSM-tree的性能较差，尤其是在查询需要快速响应时。 LSM-tree通常适用于索引插入频率比搜索频率高的APP应用程序系统。 Bigtable在提供Tablet服务时使用GFS来存储日志和SSTable。 GFS希望通过添加新数据来修改文件，而不是重写旧数据。 LSM-tree通过使用滚动合并和多页块来延迟和批量更新索引，从而充分利用内存来存储最近或经常使用的数据，从而降低搜索成本，并使用硬盘来存储不经常使用的数据

磁盘的技术特性3360要充分发挥磁盘的技术特性，可以一次读取或写入固定大小的块数据，最大限度地减少随机寻道操作的次数。

LSM和Btree差异就要在读性能和写性能进行舍和求。在牺牲的同事，寻找其他方案来弥补。

1、LSM具有批量特性，有记忆延迟。在写入读取的比例大的情况下(写入比读取多)，LSM树的性能比b树好。这是因为随着insert操作，为了保持b树结构，节点会分裂。随机读写磁盘的概率会变高，性能会下降。实现了多次随机写、多次随机写，复用了磁盘寻优时间，大大提高了效率。

2、b树的写入过程：向b树的写入过程主要分为两个部分，首先找到对应的块的位置，然后将新的数据写入刚才找到的数据块，接着将块的对应盘的物理地址写入当然，如果内存足够，b树的一部分将缓存在内存中，因此有一定的概率在内存中完成查找块的过程，但为了清楚起见，我们假设内存很小，只能存储b树的一个块大小的数据上面的模式需要两次随机寻道(一次寻道、一次原位写入)才能完成一次数据写入，可见成本很高。

3、LSM Tree放弃了磁盘的读取性能以换取写入的顺序性，认为读取是大多数系统最应该保证的特性，所以读写交换似乎不是一笔好买卖。

a、内存速度远远超过磁盘，为1000倍以上。读取性能的提高主要取决于内存命中率，而不是磁盘读取次数

b、写入时不占用磁盘I/o，会增加读取时间，获得磁盘I/o使用权，也提高读取效率。例如，LevelDb的SSTable虽然降低了读取性能，但是如果保证数据的读取命中率的话，由于通过读取能得到很多盘I/o的机会，所以读取性能几乎没有降低，反而会提高。写入的性能大幅提高，基本上是5~10倍左右。

下面说说详细例子：

LSM Tree得到了很多小的秩序结构。例如，每m个数据，在内存中排序一次，接下来的100个数据，再排序一次……这样按顺序做下去，我就得到N/m个有序的小有序结构。

在调查的过程中，因为不知道这个数据在哪里，所以从最新的小秩序结构开始进行二分搜索，如果找不到就返回，如果找不到就继续寻找下一个小秩序结构，直到找到为止。

这种模式容易看出读出时间的复杂度为(N/m ) *log2N。读取效率会下降。

这是最本来意义上的LSM tree的想法。那么性能还很慢，需要再做点什么来提高。我该怎么办？

LSM Tree优化方式：

答： Bloom filter:是一个带概率的bitmap，可以快速告诉你是否有被指定为某个小秩序结构的数据。所以，不要用两点找，只需简单的计算几次，就可以知道数据是否在某个小集合里。虽然提高了效率，但是花费了空间的成本。

b、由于compact:小树结合：小树存在性能问题，有一个过程不断将小树结合到大树上，大部分旧数据检索也可以直接采用log2N方式找到，不需要进行(N/m ) log2N的检索

哈希存储引擎是哈希表持久性，支持添加、删除、修改和随机读取操作，但不支持顺序扫描。对应的存储系统是密钥值存储系统。在key-value的插入和查询中，哈希表的复杂度都明显快于o(1)，树的操作o ) n )，如果不需要规则遍历数据，哈希表为your Mr.Right

B树存储引擎是B树(对于B树的由来、数据结构和应用场景可以看到前面的博客)的持久化的实现，不仅进行单一记录的追加、删除、读取、变更操作，还进行依次扫描()

LSM树(日志结构合并树)。

存储引擎和B树存储引擎一样，同样支持增、删、读、改、顺序扫描操作。而且通过批量存储技术规避磁盘随机写入问题。当然凡事有利有弊，LSM树和B+树相比，LSM树牺牲了部分读性能，用来大幅提高写性能。
通过以上的分析，应该知道LSM树的由来了，LSM树的设计思想非常朴素：将对数据的修改增量保持在内存中，达到指定的大小限制后将这些修改操作批量写入磁盘，不过读取的时候稍微麻烦，需要合并磁盘中历史数据和内存中最近修改操作，所以写入性能大大提升，读取时可能需要先看是否命中内存，否则需要访问较多的磁盘文件。极端的说，基于LSM树实现的HBase的写性能比MySQL高了一个数量级，读性能低了一个数量级。

LSM树原理把一棵大树拆分成N棵小树，它首先写入内存中，随着小树越来越大，内存中的小树会flush到磁盘中，磁盘中的树定期可以做merge操作，合并成一棵大树，以优化读性能。

以上这些大概就是HBase存储的设计主要思想，这里分别对应说明下：

因为小树先写到内存中，为了防止内存数据丢失，写内存的同时需要暂时持久化到磁盘，对应了HBase的MemStore和HLog
MemStore上的树达到一定大小之后，需要flush到HRegion磁盘中（一般是Hadoop DataNode），这样MemStore就变成了DataNode上的磁盘文件StoreFile，定期HRegionServer对DataNode的数据做merge操作，彻底删除无效空间，多棵小树在这个时机合并成大树，来增强读性能。

关于LSM Tree，对于最简单的二层LSM Tree而言，内存中的数据和磁盘你中的数据merge操作，如下图

lsm tree，理论上，可以是内存中树的一部分和磁盘中第一层树做merge，对于磁盘中的树直接做update操作有可能会破坏物理block的连续性，但是实际应用中，一般lsm有多层，当磁盘中的小树合并成一个大树的时候，可以重新排好顺序，使得block连续，优化读性能。

hbase在实现中，是把整个内存在一定阈值后，flush到disk中，形成一个file，这个file的存储也就是一个小的B+树，因为hbase一般是部署在hdfs上，hdfs不支持对文件的update操作，所以hbase这么整体内存flush，而不是和磁盘中的小树merge update，这个设计也就能讲通了。内存flush到磁盘上的小树，定期也会合并成一个大树。整体上hbase就是用了lsm tree的思路。

lsm树和b+树,ls lm模型简单的讲解

Published by

风君子

发表回复取消回复

最新文章

标签

书签

Published by

风君子

发表回复 取消回复

最新文章

标签

书签

发表回复取消回复