一、首先是一些网上资料
- hadoop源码分析 [ 蔡斌博客 ] [ doc文档 ]——这两个文档也是对hadoop的蔡斌博客内容进行的总结《综合文档一》《综合文档二》
- hadoop 的 wiki(资料非常全面,源码分析结合来看)
- hadoop 资料总结(简介,与KFS 比较,配置,改进等)
- 从 hdfs 看分布式文件系统设计需求
- hadoop 快速入门
- hadoop 集群搭建
- 在ubuntu 上安装 hadoop (实战hadoop)
- hadoop 源码分析(namenode部分)
- hadoop 原理与代码分析
Good judgement comes from experiences,Experience comes from bad judgements.
二、hadoop 分布式文件系统为用户提供怎么样的特性
- Transparency 透明性,在从 hdfs 看分布式文件系统设计需求 中详细介绍了四种透明性,实际上都是为Client 提供像在本地文件系统操作一样的透明性,不必关心副本的保存与存在,也不用关心文件复制是从哪个DataNode 到哪个DataNode(NFS 尚必须手动复制)
- Concurrency 并发性,Clients 和文件的交互是并发和复杂的,某个Client 对文件的读写应该不影响其他其他Client 对文件的读写。
- Replication 副本,hdfs 应对的是块数据,每个块在ChunkServer 有多个块的副本,hdfs 在NameNode 端保存了网络拓扑结构,并合理存放了副本。并在用户读文件时,选择优先的副本。
- Heterogeneity 异构,能够在多平台运行。
- Fault tolerance 容错性,一方面是硬件的故障,这也就是为什么数据要有备份,能够允许部分机器的故障;一方面是数据的失效,当发现数据发生错误,应该能够利用正确的副本恢复错误的副本(这样就要求数据块具有校验码)。
- Consistency 一致性,分布式系统都存在CAP (Consistency,Availability,Partition tolerance)理论,指的是分布式系统只能在Consistency,Availability,Partition tolerance 中任选其二,而不可能同时满足三者
- Security 安全
- Efficiency 高效
三、下面介绍了什么是分布式文件系统和它需要提供怎样的接口服务等
1. What DFS( Distributed File System ) provides?
Personally. I think DFS is a computer storage system which is build on many clusters of PCs, and provides file system interfaces, so users(clients) can use DFS as easy as local file system(as NTFS, ext3…)
个人认为分布式文件系统DFS是建立在大量单机上对外提供文件系统接口的计算机存储系统,这样客户就可以像使用本地文件系统一样简单使用分布式的文件系统,比提供更大容量,更高的可用性,更安全的存储和更高速的存储。
2. Which interfaces DFS provides as local file system?(分布式文件系统接口)
- Open a file, check status of a file, close a file(打开、关闭文件,查看文件状态)
- Read data from a file(读取文件数据)
- Write data from a file(写数据到文件)
- Delete a file, rename a file(删除文件,重命名文件)
- List files in a directory, Create/Delete a directory(创建删目录,列出目录下所有文件)
- append data to a file (optional)(添加数据到文件,可选)
- etc.(等等)
3. File level interfaces and Block level interfaces
- Client: Data are organized in files, which in turn are organized in directories.
- Server: Data are organized in blocks
continue…(未完待续)
简单的理解,hadoop 这类分布式文件系统就如同在一个集群(而不是单机)上实现了一个虚拟的文件系统,这个虚拟的文件系统为上层应用提供大文件存储。
你的博客学术性较强啊!
瞎写的。
Pingback引用通告: HDFS—INode* | 沙鸥冢
Pingback引用通告: [repost ]关于 hadoop (hdfs) » New IT Farmer