CodeClip

爬虫技术浅析 | WooYun知识库

网络爬虫（Web crawler），是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以便程序做下一步的处理。

在WEB2.0时代，动态网页盛行起来。那么爬虫就应该能在页面内爬到这些有javascript生成的链接。当然动态解析页面只是爬虫的一个技术点。下面，我将按照如下顺序分享下面的这些内容的一些个人经验（编程语言为Python）。继续阅读“爬虫技术浅析 | WooYun知识库”

谷歌背后的数学_知识库_博客园

一. 引言

在如今这个互联网时代，有一家公司家喻户晓——它自 1998 年问世以来，在极短的时间内就声誉鹊起，不仅超越了所有竞争对手，而且彻底改观了整个互联网的生态。这家公司就是当今互联网上的第一搜索引擎：谷歌 (Google)。

在这样一家显赫的公司背后，自然有许许多多商战故事，也有许许多多成功因素。但与普通商战故事不同的是，在谷歌的成功背后起着最关键作用的却是一个数学因素。

本文要谈的就是这个数学因素。继续阅读“谷歌背后的数学_知识库_博客园”

隐藏WordPress某一分类文章的三个插件 – 站长之家

Front Page Category

安装这个插件后，会在WordPress控制面板“设置”那里生成一个Front Page Categories选项。默认是所有分类都在首页显示的，你只需把不想显示分类前面的勾选去除即可。继续阅读“隐藏WordPress某一分类文章的三个插件 – 站长之家”

介绍几款wordpress上展示pdf文档的插件

最近找了几个wordpress的pdf插件，大部分都是采用html5+pdf.js，其中pdf.js是mozillia开源的，firefox浏览器自带，当你点开一个pdf链接的时候，默认是会直接在线展示的，但有些服务器或网站会改写http头信息，将pdf强行作为附件下载。这时候就需要以下这些插件来帮忙了。继续阅读“介绍几款wordpress上展示pdf文档的插件”

android HanziToPinyin.java 单文件版

android中高版本的HanziToPinyin.java引用了底层文件，而且底层文件中又要引用另一个文件，暂时还没找到，而且还需要android4.4以上的版本才能用。所以我从4.0中扒了出来，具体路径如下。
android / platform / packages / providers / ContactsProvider / android-4.0.1_r1 / . / src / com / android / providers / contacts / HanziToPinyin.java 继续阅读“android HanziToPinyin.java 单文件版”

Weka 中文版 v0.3 发布基于weka 3.7.12 x64

在第2版weka中文版的基础上制作了第3版，暂定版本v0.3。将 guichooser 汉化完成。考虑到大家还是习惯使用 guichooser 作为默认启动界面，将 RunWeka.ini 中的设置恢复默认。但是为了支持中文，其中的编码选项从 cp1252 改为 utf-8 ，各位同学制作数据文件的时候可以保存为 utf-8 编码。也可以自行去修改根目录下的 RunWeka.ini 。

继续阅读“Weka 中文版 v0.3 发布基于weka 3.7.12 x64”

一块电池用半世纪遨游宇宙就靠它了？_科学探索_cnBeta.COM

40多年前，美国人登月时曾把5块核电池扔在了月球上，至今，这些核电池仍然在发出热。目测下一个登月的地球人估计就是咱们中国人了，开句玩笑话，到时，我国航天员可以把它们捡来暖脚。没错，今天本文要说的就是核电池。它非常毒，但人类已经离不开它，尤其是在太空探索上。为什么呢？咱们从“机遇号”这家伙说起。

继续阅读“一块电池用半世纪遨游宇宙就靠它了？_科学探索_cnBeta.COM”

2015年35+个最好的免费响应式杂志主题 – OPEN资讯

AccessPress Mag

继续阅读“2015年35+个最好的免费响应式杂志主题 – OPEN资讯”

加载图片的开源库com.nostra13.universalimageloader的备忘录1.8.7版本_司马东阁_新浪博客

加载图片的开源库com.nostra13.universalimageloader，非常好用，github上目前最新版应该是1.9.x了。很多android项目都在用。继续阅读“加载图片的开源库com.nostra13.universalimageloader的备忘录1.8.7版本_司马东阁_新浪博客”

Android中用Application类实现全局变量 _技术分享_北大青鸟官方网站

在Java中如果要使用全局变量，一般定义public static类型的变量。但是这种方法不符合Android的框架架构，Android中要使用Application context。

Application是一个基类，这个基类的作用是获取整个App的状态，我们需要自己定义一个类来继承这个基类。代码如下：继续阅读“Android中用Application类实现全局变量 _技术分享_北大青鸟官方网站”

multipart form-data boundary 说明 – ZUDN – 博客园

含义 ENCTYPE=”multipart/form-data” 说明：
通过 http 协议上传文件 rfc1867协议概述，jsp 应用举例，客户端发送内容构造

1、概述在最初的 http 协议中，没有上传文件方面的功能。 rfc1867 (http://www.ietf.org/rfc/rfc1867.txt) 为 http 协议添加了这个功能。客户端的浏览器，如 Microsoft IE, Mozila, Opera 等，按照此规范将用户指定的文件发送到服务器。服务器端的网页程序，如 php, asp, jsp 等，可以按照此规范，解析出用户发送来的文件。Microsoft IE, Mozila, Opera 已经支持此协议，在网页中使用一个特殊的 form 就可以发送文件。绝大部分 http server ，包括 tomcat ，已经支持此协议，可接受发送来的文件。各种网页程序，如 php, asp, jsp 中，对于上传文件已经做了很好的封装。继续阅读“multipart form-data boundary 说明 – ZUDN – 博客园”

Multipart/form-data POST文件上传详解 – JonnyWei的专栏 – 博客频道 – CSDN.NET

理论

简单的HTTP POST

大家通过HTTP向服务器发送POST请求提交数据，都是通过form表单提交的，代码如下：

<inputtype=”text” name=”txt1″>

<inputtype=”text” name=”txt2″>

</form>

提交时会向服务器端发出这样的数据（已经去除部分不相关的头信息），数据如下：继续阅读“Multipart/form-data POST文件上传详解 – JonnyWei的专栏 – 博客频道 – CSDN.NET”

HTTP协议之multipart/form-data请求分析 – 像风一样的自由 – 博客频道 – CSDN.NET

首先来了解什么是multipart/form-data请求：

根据http/1.1 rfc 2616的协议规定，我们的请求方式只有OPTIONS、GET、HEAD、POST、PUT、DELETE、TRACE等，那为为何我们还会有multipart/form-data请求之说呢？这就要从头来说了。继续阅读“HTTP协议之multipart/form-data请求分析 – 像风一样的自由 – 博客频道 – CSDN.NET”

multipart form-data boundary 说明 – yefeng – ITeye技术网站

含义 ENCTYPE=”multipart/form-data” 说明：

通过 http 协议上传文件 rfc1867协议概述，jsp 应用举例，客户端发送内容构造

URL编程：java程序模拟post提交表单_小圣_新浪博客

假设一个地址为:”http://locolhost:8080/test/”,表单提交后的action为”login.action”。

String urlString = “http://locolhost:8080/test/login.action”;

1，首先创建URLConnection对象继续阅读“URL编程：java程序模拟post提交表单_小圣_新浪博客”

Android上传图片（PHP服务器） – Norcy – 博客园

原理

Android客户端模拟一个HTTP的Post请求到服务器端，服务器端接收相应的Post请求后，返回响应信息给给客户端。继续阅读“Android上传图片（PHP服务器） – Norcy – 博客园”