B- 树和B+-树

Posted on 2012/05/08 by qing

B- 树和B+-树是重要的两个用于数据检索的数据结构，广泛用在文件系统、数据库和数据检索中。

【重申】没有“B’减’树”这样的树，在之前的’-‘ 是个横杠杠

B- 树

类似于二分查找树。但不同于二分查找树，B 树可以有多个孩子节点，这样树的深度就不会太深，其次B 树是平衡树，即所有叶子节点到根节点路径长度一样，所有非叶子节点的孩子节点都满足一定条件（不少于 $\lceil m/2 \rceil$ 、不多于m，m 为阶数），这样查找一个节点就不会便利太深。对B 树有这样的限制：

非叶子节点有至少 $\lceil m/2 \rceil$ 个、至多m 个子节点
根节点可以至少有两个节点
所有叶子节点在同一层
有k 个子节点的非根节点恰好包含k-1 个关键码（key）

满足上面四个要求的树就是B 树。下图是一个m=5阶B 树例子，每个节点最少 $\lceil 4/2 \rceil=3$ 个、最多5 个节点（指针）。关键码是用于区分左右子树（左边子树关键码都比该节点小，右边子树关键码都比该节点大），且非叶子节点和叶子节点关键码内都包含了关键码对应的数据信息（这点和B+ 树不同）。当插入和删除时会发生树的合并和拆分，具体参考【B树和B+ 树】【性能分析】【动态动画演示】。

B 树内没有重复的关键码，且把关键码相近的放在一起，利用了访问的局部性原理。根据第一点B 树有一定比率的非叶子节点是满的（>50%，B* 树可保证>75%），这样就能够提高空间利用率，减少检索和更新磁盘读取次数。但B- 树也有自己的问题：

因为非叶子节点上的关键码也包含了对应的信息，所以非叶子节点也会变得比较大，影响了阶数m 的扩展
当需要获取全部或者某个区段的关键码对应的信息，需要遍历B 树

B+-树

B+ 树针对B 树一些性能上的缺陷进行了改进，所以B+ 树在使用上更加广泛，通过性能分析和实际应用发现B+ 树比B 树更优。B+ 结构是这样定义的：

每个节点（除了根节点）至少有 $\lceil m/2 \rceil$ 个、至多m 个子节点（同B 树）
根节点至少有两个子节点
有k 个子节点的节点必有k 个关键码
每个叶子节点都有指向下一个叶子节点的指针

从结构上看B+ 树减少了一个指向叶子节点的指针，B 树中关键码是左右子树的划分，不与子节点的某个关键码相同，而在B+ 树中关键码可以与右子树最小的关键码相同，这是因为B+ 树中只有非叶子节点才真正保存关键码对应的信息，而非叶子节点只是用来划分叶子节点和保存叶子节点关键码索引而已。这样非叶子节点就变得非常简单阶数m 也可以取得比较大（类似于文件系统中的inode，如果inode 中也保存了一些数据块的话就会变得很大，每次访问inode 就变得慢了）。

第二个变化就是如下图在每个叶子节点上都有连接下一个叶子节点的指针，这样就将所有的叶子节点以线性检索链表的方式连接了起来。在范围查询和做检查点或者备份时会更快。

如果你觉得讲的太简单了，可以参考这里，没见过比那讲的更详细的了！但我个人感觉自己理解了就OK 了，总不至于要自己去写一个B 树的算法~

如何开发一个chrome 插件

Posted on 2012/05/07 by qing

一、新建一个空文件夹，创建manifest.json 文件

新建文件夹名字是应用的名称，manifest.json 是应用的一些信息，我们以插件scholarsea为例，文件夹名为scholarsea，对应的的manifest.json 如下所示，具体内容参考chrome 扩展文档。

   1: {

   2: "name": "Google Scholar \u641c\u7d22",

   3: "version": "0.1",

   4: "description": "use Google Scholar to find the paper you selected",

   5: "icons": { "48": "4848.png" },

   6: "page_action": { "default_icon": "1919.png" },

   7: "background_page": "background.html",

   8: "permissions": [ "contextMenus","tabs" ],

   9: "background_page":"background.html"

  10: }

二、为你的应用找一个好看的图标

在文件夹下放你的图标，和manifest 中属性相同。我是的19×19 和48×48 大小的png，还不错吧！自己PS的哦

这个是右键时显示的图标这个是插件介绍用

三、新建一个html 文件和manifest 中html 属性一致

内容很简单包含一个后面要用的js 文件，这个js 文件名可以随意

   1: <script src="js.js"></script>

四、新建js 文件

这里js 文件名和上面html 内js 文件名一致，用于执行插件的核心工作。scholarsea 将所选的文字作为关键字在Google scholar 进行搜索。内容如下：

   1: //open new tab to search

   2: function searchdblp(info,tab){

   3:     var url="http://scholar.google.com/scholar?hl=en&q=

   4: "+info.selectionText+"&btnG=&hl=en&as_sdt=0%2C5"

   5:     window.open(url);

   6: }

7:

   8: //add right button click

   9: var menutitle="Google Scholar \u5e2e\u4f60\u641c"

  10: var parent= chrome.contextMenus.create({"title": menutitle,

  11: "contexts":["selection"],"onclick":searchdblp,});

chrome.contextMenus.create 在浏览器邮件添加一个选项，名称为“Google Scholar 帮你搜”，当点击后调用函数searchdblp ，info.selectionText 是我们在浏览器所选的内容。

五、发布插件

看看我们这个名为scholarsea 的文件夹下有了哪些内容：

最后只需要在chrome 中发布即可，在chrome 的菜单中选择“工具/扩展程序”，然后打包扩展程序即可。这样会生成一个crx 类型的插件安装文件，和一个pem 的密钥文件（用于管理你的插件）。因为所有插件都是源码开放的，需要确认这个插件是你所有的只有这个密钥了。

六、一点注意

在上面没有提到重要一点是manifest 和js 内都不支持中文，采用的是unicode 编码，如果你需要写中文的话，请用unicode 编码，有个简单的中文转unicode 的编码方法，如果你装了python 的话就好办了，看看我怎么解决的

   1: >>> u"帮我搜"

   2: u'\u5e2e\u6211\u641c'

   3: >>> u"搜索此人"

   4: u'\u641c\u7d22\u6b64\u4eba'

看到了吧，很方便哦~~

最后提供两个插件，用于搜索作者的文章dblpsea，和google scholar 搜索文章的插件：

【dblpsea】【scholarsea】

一致性哈希和分布式哈希表

Posted on 2012/05/07 by qing

一致性哈希（consistent hashing）和分布式哈希表（DHT: Distributed Hash Table）在最近的学习中经常用到，但是两个概念经常纠缠在一起，不容易分清楚。有时候就不明白这里为什么说的是consistent hashing，而不是用DHT。

从字面的意思来区分：consistent hashing 是一种满足特殊需求的哈希；DHT 是通过哈希实现的分布式的表，归根到底是一个分布式系统。consistent hashing 是理论上节点变化最少数据迁移的哈希方法，而DHT 在实现上更加具体，DHT 把传统的单个K-V 表在分布式多个节点中进行划分，既可以采用consistent hashing 实现，也可以采用其他哈希方法。

继续阅读 →

批量下载同类型文件脚本

Posted on 2012/05/06 by qing

有时候想将整个会议的论文下载下来，手动太麻烦，应该浏览器插件完成的，没有去搜，写了个python 脚本来解决。将url 页面的指定类型文件下载下来！

红玫瑰格式：python xx.py url file_type

参数一：url 地址；参数二：文件类型

   1: #!/usr/bin/env python

   2: #encoding=utf-8

3:

   4: import urllib, urllib2

   5: import re

   6: import os,sys

7:

   8: def get_files(ourl,file_type):

   9:     print "The URL is "+ourl

  10:     print "The File Type is "+file_type

  11:     path="E:\\temp\\"

  12:     if os.path.exists(path):

  13:         pass

  14:     else:

  15:         os.mkdir(path)

  16:     print "accessing "+ourl

  17:     print "===>>>href<<<==="

  18:     tempstr='href=\"(\S{3,50}\.'+file_type+'\w{0,2})\"'

  19:     htmldata=urllib2.urlopen(ourl).read()

  20:     fileslist=re.findall(tempstr,htmldata)

  21:     if len(fileslist)==0:

  22:         print "no"+" ."+file_type+" files"

  23:     else:

  24:         for app in fileslist:

  25:             if (ourl[-1]=='/'):

  26:                 pass

  27:             else:

  28:                 ourl=ourl[:ourl.rindex("/")+1]

  29:             if (app[0:7]=='http://'):

  30:                 url=app

  31:             else:

  32:                 url=ourl+app

  33:             filedata=app

  34:             try:

  35:                 print url+"\tdownloading ......"

  36:                 filedata=urllib2.urlopen(url).read()

  37:                 print "read "+url

  38:                 filestr=path+url[url.rindex("/")+1:]

  39:                 print "file is "+filestr

  40:                 fp=open(filestr,'wb')

  41:                 fp.write(filedata)

  42:                 fp.close()

  43:             except:

  44:                 print "cann't get "+url

  45:     print "===>>>src<<<==="

  46:     tempstr='src=\"(\S{3,50}\.'+file_type+'\w{0,2})\"'

  47:     htmldata=urllib2.urlopen(ourl).read()

  48:     fileslist=re.findall(tempstr,htmldata)

  49:     if len(fileslist)==0:

  50:         print "no"+" ."+file_type+" files"

  51:     else:

  52:         for app in fileslist:

  53:             if (app[0:7]=='http://'):

  54:                 url=app

  55:             else:

  56:                 url=ourl+app

  57:             filedata=app

  58:             try:

  59:                 print url+"\tdownloading ......"

  60:                 filedata=urllib2.urlopen(url).read()

  61:                 print "read "+url

  62:                 filestr=path+url[url.rindex("/")+1:]

  63:                 print "file is "+filestr

  64:                 fp=open(filestr,'wb')

  65:                 fp.write(filedata)

  66:                 fp.close()

  67:             except:

  68:                 print "cann't get >> "+url

69:

  70: if __name__ == "__main__":

  71:     ourl=sys.argv[1];

  72:     file_type=sys.argv[2];

  73:     get_files(ourl,file_type)

MSST 2012

Posted on 2012/05/05 by qing

IEEE Conference on Massive Data Storage (MSST 2012) 4 月 16-20 日。实验室曾老师中一篇short paper。

Flash 1

Integrating Flash-based SSDs into the Storage Stack
文章使用一个基于插件的扩展工具插入到Loris 的框架中，在此基础上使用不同workloads 和不同混合存储构建进行比较，并提出了混合系统构建应该在应用和硬件上做权衡。
Active Flash: Out-of-core Data Analytics on Flash Storage
提出了一种主动式Flash 的体系结构。探究了将计算从主机迁移到主动式Flash 上性能和能量的trade-offs，通过典型的嵌入式控制器的分析和任务的减少证明了可行性。并模拟学习了各种主动式Flash 调度策略。
Flashy Prefetching for High-Performance Flash Drives
提出了一种Flash 预取策略，65-70%精度，平均20% 速度提升，对应的workloads 有LFS，web 搜索引擎，BLAST，TPC-H 等等。副作用包括可能会多读70%-90%的数据。所做工作和FAST11 中文章“FAST：Quick Application Launch on Solid-State Drives”很类似。【值得一读】
Mercury: Host-side Flash Caching for the Data Center 使用SSD 做DAS 缓存。

Parallel Object and Failure

On the Role of Burst Buffers in Leadership-Class Storage Systems
高性能计算（HPC）存储系统中缓冲的重要作用，首先学习了当前大规模HPC 系统的应用I/O patterns，然后用CODES 存储模拟缓存。最终说明在这些workloads 下burst buffers 能够促进应用程序吞吐量。
vPFS: Bandwidth Virtualization of Parallel Storage Systems
并行存储系统上的虚拟层，区分不同类型应用请求I/O，以满足QoS。原型PVFS2 实现。
On the Speedup of Single-Disk Failure Recovery in XOR-Coded Storage Systems: Theory and Practice
中科大的一篇文章。加速基于XOR 纠错码的单盘错误恢复。理论方面：提出使用下山法的 replace recovery algorithm 寻找一个快速的恢复方案，为STAR 和CRS 提供了近乎最优的恢复性能。实践方面：在基于网络存储系统中测试了这个方法减少了恢复时间。【值得一读】
An Active Storage Framework for Object Storage Devices 不说了，33 个引用三个老板的！

Short Papers 1

A New High-performance, Energy-efficient Replication Storage System with Reliability Guarantee
谢老板那边出的。一种改良的软RAID：PRERAID，通过合并小写提高写性能、节省能量。（实验室毛博之前有篇Green RAID: GRAID）
HRAID6ML: A Hybrid RAID6 Storage Architecture with Mirrored Loging
曾老师日志结构的RAID6。两块磁盘做奇偶校验盘，发挥其顺序读、写速度快的性能。其余都用SSD 提高读性能。
Write Amplification due to ECC on Flash Memory or Leave those Bit Errors Alone
文章分析了Flash SSD 因为ECC 校验和擦除等操作会造成额外的写，从而造成写放大，减少了SSD 寿命。实验中通过积累一个page 的ECC 错误到一定阈值再处理减少了写放大，提高SSD 寿命40%。
Storage Challenges at Los Alamos National Lab
洛斯-阿拉莫斯国家实验室（造出第一个原子弹）的存储挑战。见鬼！他们需要一个自己的并行文件系统。
Adaptive Pipeline for Deduplication
南开大学的自适应流水线的重复数据删除。审稿不严啊！conclusion 中第一个deduplication 都拼写错了。
Shortcut-JFS: A Write Efficient Journaling File System for Phase Change Memory
基于相变存储器（PCM）的日志文件系统 shortcut-JFS，论文提到了利用PCM 可以写到更小的单位，从而日志仅记录数据的变化—差量日志记录可能有点意思。实验用内存当的PCM 存储器。

Deduplication

Deduplication in SSDs: Model and Quantitative Analysis
在SSD 中使用重复数据删除可以提高写性能，垃圾回收和延长寿命。从建模到数值分析，文章为SSD 量身订做了一个重复数据删除的框架。Conclusion 最后提到的三点future works 可以参考。
Design of an Exact Data Deduplication Cluster
大体意思是chunk index 分片保存在不同节点，使用更小的chunk size 进行重复数据删除。
Estimation of Deduplication Ratios in Large Data Sets
提出一种估计重删率的技术，取样然后扫描。1MB 内存对7TB数据集估算只有1%误差。

Short Papers 2

Jitter-Free Co-Processing on a Prototype Exascale Storage Stack
真心不知道说了什么，难道是为并行文件提供设计、实现了一种存储方案？
Enhancing Shared RAID Performance Through online Profiling
还是谢老板那边的。多个服务器共享一个磁盘阵列性能较低，文章提出方法进行了改进。
Exploiting superpages in a nonvolatile memory file system
SLO-aware Hybrid Store
A QoS Aware Non-work-conserving Disk Scheduler
预测请求的IO 调度器。
Valmar: High-Bandwidth Real-Time Streaming Data Management

Flash 2

ADAPT: Efficient Workload-Sensitive Flash Management Based on Adaptation, Prediction and Aggregation
一个混合映射（hybrid mapping）方案，包括自适应日志空间分区、预测性迁移、集成数据移动。key idea：If performance suffers from insufficient random log blocks, use blocks from sequential area, and vice versa.
NANDFlashSim: Intrinsic Latency Variation Aware NAND Flash Memory System Modeling and Simulation at Microarchitecture Level
SSD 的一个模拟器，和胡杨博士的SSDSim 类似，也引用他在ICS 的文章，可参考这里。
BloomStore: Bloom-Filter based Memory-Efficient Key-Value Store for Indexing of Data Deduplication on Flash
重删环境中的key-value store 需要高的吞吐量，文章使用SSD 和Bloom filter 提高吞吐量，提高get/lookup 操作效率。

快读paper 的几个技巧（欢迎补充）

首先看摘要，知道文章大体背景和概述。
如果Introduction 最后两段如果不是“section 2 将会讲……，section 3 讲……”，那么将会提到文章最核心，最创新的部分。有时候会直接给出“Our contributions/works are：……”
看conclusion ，看看作者通过自己的idea 和实验得出了什么结论。
看图表，简单直接知道实验内容。（有时图表和实验内容联系紧密，看图表看不出什么）。
最后还有时间穿插地瞄瞄Related works 和Our works（如果有的话）。说不定相关工作有你熟悉的内容。
另外能先看论文的PPT 也是非常好的方法。

Dynamo: Amazon’s highly available key-value store

Posted on 2012/05/04 by qing

原文中文翻译参考：Kai – An Open Source Implementation of Amazon’s Dynamo

本文一直为分布式key-value 存储系统以及分布式存储的业内人士所推崇，个人觉得有两个原因：

分布式key-value 存储近年发展迅速。Dynamo 更是集成了近些年最新的技术如：DHT（分布式哈希表）、consistent hashing（一致性哈希）、多版本、副本策略和Merkle tree 等。
文章从设计、实施者的角度分析了分布式key-value 存储在实践中的问题和解决方法，并总结了Dynamo 在实现、配置等方面的经验与教训，对后来者非常有借鉴意义。