再议SILT: A Memory-Efficient, High-Performance Key-Value Store

之前的文章谈到了高效key-value 存储系统SILT,谈的不清楚,昨天和付童鞋谈重复数据删除的时候谈到了SILT ,自己再回顾下。

首先要明白,SILT 融合传统的保存key-value 的三种方式:

  • LogStore 以日志结构方式持久化存储key-value 对,内存保留所有key(来了请求就在内存key 中查找)
  • HashStore 将磁盘或者SSD 上的每条key-value 按照内存中HashTable 的顺序排列,内存只保存了key 的部分哈希结构。
  • SortedStore 按照key 的顺序对内存中原来HashTable 索引进行重新组织。SILT 使用的Tire tree。

HashStore 和SortedStore 都具有比较好的内存效率,但只读不可写。

继续阅读

为什么说DEPSKY 是篇好论文

不考虑内容,我心目中的好的论文应该是让读者明白文章解决了什么问题,做了什么工作。而不是使之复杂化,将“1”写成“sin^{2}x+cos^{2}x”的形式。下面就说说为什么Eurosys11 的这篇文章(DEPSKY:Dependable and Secure Storage Cloud-of-Clouds )是篇好文章。

 

  1. 文章解决的问题明确。文章在Introduction 就很清楚的指出了单个云可能存在的问题,并指出DEPSKY 将解决这些问题。
  2. 相关工作有介绍。接着文章有一段是说已经有的类似工作,并指出这些工作要不就是需要在服务器上执行一些代码,要么就是对连接敏感,而DEPSKY 基础是多个云,所以解决问题有所不同。
  3. 直接给出文章工作。我曾在之前的日志中指出快读论文的几个技巧,其中之一就是如果Introduction 最后一段不是讲文章结构的话,就将是谈文章最大的贡献。此文就是这样做的。
  4. 系统应用场景介绍清楚(section 2)。文章很善用编号和分类,使得更有条理。
  5. DEPSKY 系统介绍清楚。从结构到模型、从原理到具体的算法和协议。
  6. Implementation 和Evaluation 就不谈了,基本套路

通读全文,有的section 比较长,但都避免了第三级编号。

MSST 2012

IEEE Conference on Massive Data Storage (MSST 2012) 4 月 16-20 日。实验室曾老师中一篇short paper。

Flash 1

Parallel Object and Failure

Short Papers 1

Deduplication

Short Papers 2

Flash 2

 

快读paper 的几个技巧(欢迎补充)

  1. 首先看摘要,知道文章大体背景和概述。
  2. 如果Introduction 最后两段如果不是“section 2 将会讲……,section 3 讲……”,那么将会提到文章最核心,最创新的部分。有时候会直接给出“Our contributions/works are:……”
  3. 看conclusion ,看看作者通过自己的idea 和实验得出了什么结论。
  4. 看图表,简单直接知道实验内容。(有时图表和实验内容联系紧密,看图表看不出什么)。
  5. 最后还有时间穿插地瞄瞄Related works 和Our works(如果有的话)。说不定相关工作有你熟悉的内容。
  6. 另外能先看论文的PPT 也是非常好的方法。

Dynamo: Amazon’s highly available key-value store

原文  中文翻译  参考:Kai – An Open Source Implementation of Amazon’s Dynamo

本文一直为分布式key-value 存储系统以及分布式存储的业内人士所推崇,个人觉得有两个原因:

  1. 分布式key-value 存储近年发展迅速。Dynamo 更是集成了近些年最新的技术如:DHT(分布式哈希表)、consistent hashing(一致性哈希)、多版本、副本策略和Merkle tree 等。
  2. 文章从设计、实施者的角度分析了分布式key-value 存储在实践中的问题和解决方法,并总结了Dynamo 在实现、配置等方面的经验与教训,对后来者非常有借鉴意义。

继续阅读