一文弄懂神经网络中的反向传播法——BackPropagation – Charlotte77 – 博客园

最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果不想看公式,可以直接把数值带进去,实际的计算一下,体会一下这个过程之后再来推导公式,这样就会觉得很容易了。 继续阅读“一文弄懂神经网络中的反向传播法——BackPropagation – Charlotte77 – 博客园”

用Tensorflow让神经网络自动创造音乐 – Charlotte77 – 博客园

前几天看到一个有意思的分享,大意是讲如何用Tensorflow教神经网络自动创造音乐。听起来好好玩有木有!作为一个Coldplay死忠粉,第一想法就是自动生成一个类似Coldplay曲风的音乐,于是,开始跟着Github上的教程(项目的名称:Project Magenta)一步一步做,弄了三天,最后的生成的音乐在这里(如果有人能告诉我怎么在博客里插入音乐请赶快联系我!谢谢!) 继续阅读“用Tensorflow让神经网络自动创造音乐 – Charlotte77 – 博客园”

hbase与Phoenix二级索引Global Local Indexing配置

在HBase中,只有一个单一的按照字典序排序的rowKey索引,当使用rowKey来进行数据查询的时候速度较快,但是如果不使用rowKey来查询 的话就会使用filter来对全表进行扫描,查询速度非常慢,我测试查询8万条简单数据用了268秒。而Phoenix提供了二级索引技术可以解决这种查询速度慢的问题。
Phoenix提供两种类型的索引技术:注重提升读性能的Global Indexing和注重提升写性能的Local Indexing。下面分别对这两种索引技术简单使用一下。
继续阅读“hbase与Phoenix二级索引Global Local Indexing配置”

把Nutch爬虫部署到Hadoop集群上 – 灵魂机器

软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7

前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑。 继续阅读“把Nutch爬虫部署到Hadoop集群上 – 灵魂机器”

搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园

搜索引擎选型调研文档

Elasticsearch简介*

Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。

它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。

Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。

但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。

Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。 继续阅读“搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园”

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发

问题导读:

1.网络爬虫、分布式数据库、搜索引擎之间的关系是什么?

2.本文网络爬虫架构是什么?

3.扩展:基于网络爬虫是否有其它架构?

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 继续阅读“基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发”

Cassandra与HBase的大数据对决 谁是胜者?

众多基于Bigtable技术的开源项目正在通过不同的方式实现高扩展性、高灵活性、分布式及宽列数据存储等功能,Cassandra和HBase就是其中的代表。

在大数据这一全新的领域里,Bigtable数据库技术非常值得我们关注,因为这一技术是由谷歌的工程发明的,而谷歌是一家公认的非常擅长管理海量数据的公司。如果你对此非常了解,那么你一家知道也熟悉Cassandra和HBase这两个Apache数据库项目。 继续阅读“Cassandra与HBase的大数据对决 谁是胜者?”

hbase hmaster启动起来就自动关闭的问题解决成功经验分享

最近对系统进行了升级,yum update,升级之后发现jps命令用不了了,最终找到问题是jps和java的连接全部失效,手动更改位置之后jps能用,但hbase还是调用原来的位置,一个个改太繁琐了,用ln jps /usr/lib/jvm/java/bin/jps重建连接之后发现该问题解决,但另几台机子还是不行,用yum remove java-1.8.0-openjdk*和yum install java-1.8.0-openjdk*重装java之后一切问题解决。还有几台机子yum update升级之后并没有产生这个问题,一切正常,不知道为什么,都是从centos6.5升级到centos6.7。

之后运行hbase发现hbase报一堆错误,大概意思就是zookeeper无法连接主机,在主机上看了下jps,发现没有hmaster这个进程,用xyhadoop/hbase-1.0.1.1/bin/hbase-daemon.sh start master启动hmaster之后,用jps看到hmaster进程,但瞬间再次用jps看的时候hmaster已经自动关闭了。 继续阅读“hbase hmaster启动起来就自动关闭的问题解决成功经验分享”

安装配置 phoenix 到 hbase 遇到的问题和成功经验分享

Phoenix 是一个开源的 SQL 封装,可以用 SQL 语法操作 HBase 这种分布式的 NoSQL 数据库。你也可以使用标准的 JDBC APIs 来取代 HBase client APIs 创建表、插入数据、查询数据等。

本教程包括如何安装 Phoenix 和使用 Phoenix 时遇到的几个问题如何解决。所用平台版本为:hadoop 2.7.1,hbase 1.0.1.1,phoenix-4.7.0-HBase-1.0。因此跟网上搜到的教程不太一样。 继续阅读“安装配置 phoenix 到 hbase 遇到的问题和成功经验分享”

Ambari server 和 Ambari agent 安装经验分享

Ambari 是一个基于浏览器的部署、管理、监控 hadoop 集群的工具,非常强大,使用非常简单。目前 Ambari 只支持 64位 的 linux 操作系统:

  • RHEL (Redhat Enterprise Linux) 6 and 7
  • CentOS 6 and 7
  • OEL (Oracle Enterprise Linux) 6 and 7
  • SLES (SuSE Linux Enterprise Server) 11
  • Ubuntu 12 and 14
  • Debian 7

安装方式有两种:一种是通过 yum apt 之类的工具从仓库安装;一种是通过下载源代码,自行编译安装。这里我们采用第一种方式:从仓库安装。 继续阅读“Ambari server 和 Ambari agent 安装经验分享”

hadoop集群中有一台datanode始终不接受数据的问题,已解决,成功经验分享

最近做hadoop的实验,有一个datanode始终接收不到数据是怎么回事?
我用Got back one command: FinalizeCommand/5、Got finalize command for block pool、Detected pause in JVM or host machine (eg GC): pause of approximately、No GCs detected,这几个关键词去查询,也没有实质进展,最终自己找到原因:端口没开,开了之后一切正常,经验分享出来,避免大家再犯同样错误。

继续阅读“hadoop集群中有一台datanode始终不接受数据的问题,已解决,成功经验分享”

巧用MapReduce+HDFS,海量数据去重的五大策略-CSDN.NET

随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。

重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除对于数据本身并没有改变,只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。 继续阅读“巧用MapReduce+HDFS,海量数据去重的五大策略-CSDN.NET”

Hadoop的thrift server配置_服务器应用_Linux公社-Linux系统门户网站

一.概述

默认的hbase安装包已经有了thrift服务,使用见hbase文档。Hadoop默认包没有thrift服务,即没有网上说的hadoophome/src/contrib/thriftfs/scripts/start_thrift_server.sh,因此需要手动编译,使用的编译工具是Ant。Bin包其实是已经编译过的安装包,所以不具有以上文件夹,无法编译,需要下载非bin的hadoop软件包。 继续阅读“Hadoop的thrift server配置_服务器应用_Linux公社-Linux系统门户网站”

HDFS资源管理器源码发布 – 古道 – 博客园

Hadoop对于从事分布式存储工作的朋友应该并不陌生(如果你还没有听说过请到百度百科http://baike.baidu.com/view/908354.htm看个究竟),本文主要针对Hadoop的分布式文件系统也就是HDFS展开讨论。引用Hadoop官方的一句话:HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。这么好的系统我们没有不用的道理吧,如何用呢?这里我不说如何部署Hadoop,主要讲如何让.net程序员来用。为什么只是.net程序员呢,因为Hadoop本身是Java实现且需要架设在Linux系统上,而这些都是我们习惯了Windows下.net编程的开发人员所不擅长的。下面先展示一下本文标题中所说的HDFS资源的效果,如图: 继续阅读“HDFS资源管理器源码发布 – 古道 – 博客园”

十八款Hadoop工具帮你驯服大数据 – 51CTO.COM

Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持、在托管集群中提供按时租用服务、为这套开源核心开发先进的功能强化或者将自有工具添加到方案组合当中。

在今天的文章中,我们将一同了解当下Hadoop生态系统当中那些最为突出的杰作。总体而言,这是一套由众多工具及代码构成的坚实基础、共同聚集在”Hadoop”这面象征着希望的大旗之下。 继续阅读“十八款Hadoop工具帮你驯服大数据 – 51CTO.COM”

hbase 建的表删除不掉的问题,已成功解决,经验分享

所用平台:hadoop 2.7.1,hbase 1.0.1.1,hbase api 1.0.1.1
发现的问题:之前在eclipse中调用api建表、填充数据、查看数据、删除数据、删除表都已经成功,但有一天同事用api建了一张表city,在hbase shell里删不掉。
我试了下,可以disable,但drop报错ERROR: Retries exhausted, it took too long to wait for the table city to be deleted.,以下是实验操作记录摘要,表名users2,供大家参考: 继续阅读“hbase 建的表删除不掉的问题,已成功解决,经验分享”