用 Hadoop 进行分布式并行编程, 第 1 部分

基本概念与安装部署

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。本文将介绍 MapReduce 计算模型,分布式并行计算等基本概念,以及 Hadoop 的安装部署和基本运行方法。

继续阅读“用 Hadoop 进行分布式并行编程, 第 1 部分”

IBM超级计算机沃森将分析你的个性_IBM_cnBeta.COM

IBM超级计算机沃森现在可以分析人类的个性了。沃森可以根据自己读取的文字片段来分析作者的个性,但是是否真的符合作者实际个性又是另一回事。这是计算机预测和分析的最新例证。沃森掌握的该技术被称为“个性见解”,顾名思义,它通过读取测试者的博文或者推文,试图深入了解一个人的个性。就目前的情况来看,沃森更喜欢一些非正式的文字或者文章,而不是报告或其他书面严肃文字。

继续阅读“IBM超级计算机沃森将分析你的个性_IBM_cnBeta.COM”

能准确感知你情绪的人工智能 IBM初试智能社交_IBM_cnBeta.COM

E-Mail能体会到你的感情吗?IBM说,是的它真的可以。每个人都会有那么一两封让你后悔不迭、恨不得从来没有发出去的邮件,明明想表达的是另一个意思,却由于措辞不当遭受误解,甚至引发争吵。不过,随着IBM这款人工智能分析工具的诞生,这种经历或许要成为历史了。

继续阅读“能准确感知你情绪的人工智能 IBM初试智能社交_IBM_cnBeta.COM”

Hadoop的学习前奏 – 今日头条(TouTiao.com)

笔者目前是在做Android开发,又是在一个信息安全的公司。公司的主要是做在虚拟机上运行的产品,又涉猎云计算,心想是要去搞一下云计算。自我感觉移 动互联网 + 云计算 + 信息安全会是一个很好的方向,于是投身其中。因为是Java出身,所以自然而然选择了Hadoop

继续阅读“Hadoop的学习前奏 – 今日头条(TouTiao.com)”

单身数学家如何通过数据挖掘找真爱

凌晨三点,在加州大学洛杉矶分校(UCLA)数学系大楼五楼的一个拥挤小隔间里,只有一只灯泡和一台计算机的屏幕发出光亮。克里斯·麦金利(Chris McKinlay)正在为他的博士论文《大规模数据处理和并行数值方法》跑程序。计算机发出嘎嚓声,他点击打开第二个窗口,检查了一下他在交友网站OkCupid的收件箱。 继续阅读“单身数学家如何通过数据挖掘找真爱”

腾讯高级工程师赵伟:HIVE在腾讯分布式数据仓库实践-CSDN.NET

【CSDN现场报道】中国IT界技术盛会——Hadoop与大数据技术大会(Hadoop&BigData Technology Conference 2012,HBTC 2012)于2012年11月30日-12月1日在北京新云南皇冠假日酒店隆重召开。本次大会以“大数据共享与开放技术”为主题,聚焦于Hadoop与大 数据,力邀数十位国内外Hadoop及大数据技术应用的产学界人士和实践企业,探讨大数据技术生态系统的现状和发展趋势,并围绕Hadoop与大数据热点 技术和应用实践进行深入解析。 继续阅读“腾讯高级工程师赵伟:HIVE在腾讯分布式数据仓库实践-CSDN.NET”

使用Weka进行数据挖掘-chaoshua-ChinaUnix博客

1.简介

数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。 继续阅读“使用Weka进行数据挖掘-chaoshua-ChinaUnix博客”

使用mahout做海量数据关联规则挖掘 – Mahout数据挖掘-炼数成金-Dataguru专业数据分析社区

weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。 继续阅读“使用mahout做海量数据关联规则挖掘 – Mahout数据挖掘-炼数成金-Dataguru专业数据分析社区”

Weka中BP神经网络的实践(参数调整以及结果分析) – 懒惰啊我 – 博客园

周日讲了下神经网络,本来想的是以理论和实践相结合,前面讲讲神经网络,后面简单讲下在weka中怎么使用BP神经网络,可惜最后时间不够,而且姥姥的兴趣点跑到凸优化那里去了,所以没有讲成实践的部分,有点郁闷的。为了不浪费了,就把这部分讲稿拿出来和大家分享一下,也希望对大家实践神经网络有所帮助。因为是讲稿,讲的要比写的多,所以很多地方口语化和省略比较严重,大家凑合着看吧。 继续阅读“Weka中BP神经网络的实践(参数调整以及结果分析) – 懒惰啊我 – 博客园”

hadoop MapReduce实例解析 – 推酷

1、MapReduce理论简介

 

1.1 MapReduce编程模型

MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是”任务的分解与结果的汇总”。 继续阅读“hadoop MapReduce实例解析 – 推酷”