2014年7月 – CodeClip

1、引言
“数据同步算法研究”一文研究了在网络上高效同步数据的方法，其中有个前提是文件A和B非常相似，即两者之间存在大量相同的数据。如果两个文件相似性很低，虽然这种方法依然可以正常工作，但数据同步性能却不会得到提高，甚至会有所降低。因为会产生部分元数据和网络通信消耗，这在两个文件完全不相关时尤为明显。因此，同步数据前需要计算种子文件(seed file)与目标文件之间的相似性，如果相似性大于指定阈值(通常应大于50%)则应用该数据同步算法，否则接传输文件即可。如此，可使得数据同步算法则具有较好的自适应性，在数据具有不同相似性的情形下均可进行高性能的数据同步。另外，在数据相似性检测的基础之上，可对于相似性高的数据进行数据编码处理(如Delta编码)，通过一个文件给另一个文件编码的方式进行数据压缩，这是一种基于相似数据检测与编码的重复数据删除技术。继续阅读“数据相似性检测算法 – 刘爱贵的专栏 – 博客频道 – CSDN.NET”

数据同步算法研究 – 刘爱贵的专栏 – 博客频道 – CSDN.NET

1、引言

基于LAN或WAN的网络应用之间进行数据传输或者同步非常普遍，比如远程数据镜像、备份、复制、同步，数据下载、上传、共享等等，最为简单的做法自然就是对数据进行完全复制。然而，数据在网络上来回被复制多次后就会存在大量副本，很多情形下这些文件副本之间仅有很小的差异，很可能是从同一个文件版本演化而来。如果对文件进行完全复制，在文件较大的情况下，会占用大量网络带宽，同步时间也会较长。目前，广域网WAN的带宽与访问延迟仍然是急需解决的问题，完全复制使得很多网络应用无法提供良好的服务质量，比如分布式文件系统(DFS)、云存储(Cloud Storage)。Rsync与RDC(Remote Differential Compression)是两种最为常见的数据同步算法，它们仅传输差异数据，从而节省网络带宽并提高效率。本文基于这两种算法思想并借助重复数据删除(De-duplication)技术，对数据同步算法进行深入研究与分析，并研发了原型系统。首先介绍rsync与RDC算法，然后详细描述算法设计与相应的数据结构，并重点分析文件分块、差异编码、文件同步算法，最后简介推拉两种应用模式。继续阅读“数据同步算法研究 – 刘爱贵的专栏 – 博客频道 – CSDN.NET”

重复数据删除(De-duplication)技术研究 – 刘爱贵的专栏 – 博客频道 – CSDN.NET

1、Dedupe概述

De-duplication，即重复数据删除，它是一种目前主流且非常热门的存储技术，可对存储容量进行有效优化。它通过删除数据集中重复的数据，只保留其中一份，从而消除冗余数据。如下图所示。这种技术可以很大程度上减少对物理存储空间的需求，从而满足日益增长的数据存储需求。Dedupe技术可以带许多实际的利益，主要包括以下诸多方面：继续阅读“重复数据删除(De-duplication)技术研究 – 刘爱贵的专栏 – 博客频道 – CSDN.NET”

月度归档： 2014年7月

DIY自己繁殖干净红线虫简易设备

红线虫养殖_百度文库

TCPIP数据包实例分析_百度文库

IP数据包的分析实例_百度文库

ipv4协议报头 – CButtonST的专栏 – 博客频道 – CSDN.NET

TCP/IP数据报格式 – 曾梦想仗剑走天涯 – 博客频道 – CSDN.NET

家庭是道場

数据相似性检测算法 – 刘爱贵的专栏 – 博客频道 – CSDN.NET

数据同步算法研究 – 刘爱贵的专栏 – 博客频道 – CSDN.NET

重复数据删除(De-duplication)技术研究 – 刘爱贵的专栏 – 博客频道 – CSDN.NET