Mahout – Clustering (聚类篇) | 四号程序员

什么是Mahout?

” Apache Mahout™ project’s goal is to build a scalable machine learning library ”

我来拓展一下:

(1) Mahout 是Apache旗下的开源项目,集成了大量的机器学习算法。

(2) 大部分算法,可以运行在Hadoop上,具有很好的拓展性,使得大数据上的机器学习成为可能。 继续阅读“Mahout – Clustering (聚类篇) | 四号程序员”

▇▇▇mfs权威指南(moosefs)分布式文件系统一站式解决方案(部署,性能测试)不断更新-分布式文件系统(FastDFS)-ChinaUnix.net

1. 我在性能测试中间遇到些问题,因为我时间有限,所以希望大家一起来测试解决,群策群力。有什么问题请大家及时指出来,因为我也处在一个不断摸索的阶段。 继续阅读“▇▇▇mfs权威指南(moosefs)分布式文件系统一站式解决方案(部署,性能测试)不断更新-分布式文件系统(FastDFS)-ChinaUnix.net”

在CentOS 6.4上安装配置GlusterFS的方法-linux-操作系统-壹聚教程网

目目前在文件同步方面采用的是rsync,在尝试用分布式文件系统替换的时候,使用过MooseFS,效果差强人意,在了解到了GlusterFS之后,决定尝试一下,因为它跟MooseFS相比,感觉部署上更加简单一些,同时没有元数据服务器的特点使其没有单点故障的存在,感觉非常不错。 继续阅读“在CentOS 6.4上安装配置GlusterFS的方法-linux-操作系统-壹聚教程网”

专题:回味那些经典的分布式文件系统_51CTO.COM

分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,也就是集群文件系统,可以支持大数量的节点以及PB级的数量存储。让我们一起回味那些经典的分布式文件系统。 继续阅读“专题:回味那些经典的分布式文件系统_51CTO.COM”

文件系统pNFS的由来 – 51CTO.COM

网络文件系统(Network File System,NFS)是大多数局域网(LAN)的重要组成部分。但 NFS 不适用于高性能计算中苛刻的输入输出密集型应用程序,至少以前是这样。NFS 标准的最新修改纳入了 Parallel NFS(pNFS),它是文件共享的并行实现,将传输速率提高了几个数量级。 继续阅读“文件系统pNFS的由来 – 51CTO.COM”

分布式文件系统 – 51CTO.COM

分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。 继续阅读“分布式文件系统 – 51CTO.COM”

Hadoop危机?替代HDFS的8个绝佳方案 – 51CTO.COM

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,坦白说HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点,包括:不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。

Apache软件基金会成立的时候,HDFS就一直在想办法提高它的性能和可用性,坦白说,这也许对试点项目、非常规项目、要求不严格的大环境中比较适用,但是对于某些Hadoop用户来说,他们对于性能、可用性、企业级特性有较高的要求,且注重直接附加存储(DAS)架构,特别是老版本的Hadoop没有高性能的主节点,那么接下来8个产品就是代替HDFS的绝佳方案。 继续阅读“Hadoop危机?替代HDFS的8个绝佳方案 – 51CTO.COM”

Hadoop的十大应用场景 – 51CTO.COM

在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是Hadoop的最大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。也许你会认为,Hadoop平台发挥作用的领域是互联网行业,用来改善分析性能并提高扩展性。其实Hadoop的应用场景远不止这一点,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的作用。 继续阅读“Hadoop的十大应用场景 – 51CTO.COM”

了解关于Hadoop的12个事实 – 51CTO.COM

现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。

继续阅读“了解关于Hadoop的12个事实 – 51CTO.COM”

Hadoop架构中的HDFS和NameNode – 51CTO.COM

到目前为止,我们谈到Hadoop是一个创建分布式集群的框架,能够处理大的、不同的数据集。然而,另一个说法是将Hadoop理解为一个存储设备或存储环境。确实,它是一个能够在其上创建应用的平台,有存储PB级数据的能力。此外,它能够处理并分析数据;提供越来越多的“大数据”应用结果。(不可否认,这正是一个以存储为中心的Hadoop架构观点。) 继续阅读“Hadoop架构中的HDFS和NameNode – 51CTO.COM”

部署分布式文件系统需要注意什么? – 51CTO.COM

分布式文件系统是微软服务器中很重要的一项功能。通过分布式文件系统网络管理员可以将服务器文件分散存储到网络上的多台服务器上,以提高服务器性能并增强服务器的容错性。最重要的是,这对于普通用户来说是透明的,用户只需要从一个地点访问这些文件即可。 继续阅读“部署分布式文件系统需要注意什么? – 51CTO.COM”