weka使用朴素贝叶斯进行中文文本分类的试验,成功经验分享

网上找了两篇教程,但是有些错误,导致无法继续试验,通过摸索最终解决,将成功经验分享给大家,希望能帮到大家。NaiveBayes = 朴素贝叶斯

试验机器是hp g6 dl380,windows server 2012 R2 64位系统,300G硬盘,16g内存,Intel(R) Xeon(R) CPU E5520 @ 2.27GHz 单路4核8线程。

实验步骤: 继续阅读“weka使用朴素贝叶斯进行中文文本分类的试验,成功经验分享”

weka使用朴素贝叶斯进行中文文本分类遇到几个错误

做中文文本分类实验,按照教程一步一步做的,报错如下: > java weka.filters.supervised.attribute.Discretize -i data_vsm.arff -o data_D_vsm.arff -c firs Unable to determine structure as arff (Reason: java.io.IOException: premature end of line, read Token[EOL], line 5).
大概意思是:无法确定ARFF文件的结构(原因:java.io.IOException,IO异常:行提前结束,查阅第5行的行结束符找找原因)。 继续阅读“weka使用朴素贝叶斯进行中文文本分类遇到几个错误”

Weka 中文版 v0.4 发布 基于weka 3.7.12 x64

第3版weka中文版的 基础上制作了第4版,暂定版本v0.4。在帮助菜单中增加了中英文语言切换。汉化了 weka experimenter (weka实验室)中设置实验环境选项卡和运行实验选项卡中的大量词条,目前还有分析实验结果选项卡的部分没有翻译。 继续阅读“Weka 中文版 v0.4 发布 基于weka 3.7.12 x64”

weka学习资料汇总 – dikar云墨竹 – ITeye技术网站

最近由于工作需要,要将线下的数据挖掘搬到线上来,这样就需要在线上实现各种数据挖掘算法,好在java开源的强大,有个开源的weka数据挖掘套件,里面实现了很多种DM算法,之前的pmml决策树算法已经可以用起来了(等weka搞完了分享下),最近在搞bayes算法的应用,发现遇到一些问题,故go之,才发现其实很多童鞋已经使用并分析了这个东西,在此将找到的一些资料汇总下,为后来人学习使用吧。 继续阅读“weka学习资料汇总 – dikar云墨竹 – ITeye技术网站”

Weka入门教程-fancy-jiang-ITPUB博客

0  Weka 简介

Weka 全名是 Waikato Environment for Knowledge Analysis,是一个已有11年的发展历史的开源数据挖掘软件。很多其它开源数据挖掘软件,包括 KNIME,RapidMiner 等都有借用 Weka 的代码。同时 weka 也是新西兰的一种鸟名,而 Weka 的主要开发者来自新西兰。

Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在交互式界面上的可视化。 继续阅读“Weka入门教程-fancy-jiang-ITPUB博客”

weka!一个兄弟关于weka的介绍-keer7737-ITPUB博客

weka中文站 http://www.codeclip.com/category/weka-china

WEKA( developed at the University of Waikato in New Zealand 新西兰怀卡托大学)http://www.cs.waikato.ac.nz/~ml/weka/index.html

与此开源项目对应的书为《Data Mining Practical Machine Learning Tools and Techniques Second Edition 》,该书下载地址http://www.itpub.net/showthread.php?s=&threadid=731436,另外本书已有中文版《数据挖掘,实用机器学习技术》。 继续阅读“weka!一个兄弟关于weka的介绍-keer7737-ITPUB博客”

Weka 中文版 v0.3 发布 基于weka 3.7.12 x64

第2版weka中文版的 基础上制作了第3版,暂定版本v0.3。将 guichooser 汉化完成。考虑到大家还是习惯使用 guichooser 作为默认启动界面,将 RunWeka.ini 中的设置恢复默认。但是为了支持中文,其中的编码选项从 cp1252 改为 utf-8 ,各位同学制作数据文件的时候可以保存为 utf-8 编码。 也可以自行去修改根目录下的 RunWeka.ini 。

继续阅读“Weka 中文版 v0.3 发布 基于weka 3.7.12 x64”

Weka 中文版 v0.2 发布 基于weka 3.7.12 x64

第一版weka中文版的基础上制作了第二版,暂定版本v0.2。由于 guichooser 和 maingui 有区别(官方源文件使用 guichooser 作为默认启动界面,在 maingui 中没有 package manager ),本次汉化过程中,将 package manager 相关代码从 guichooser 复制到 maingui 中,并对其进行了汉化,个人认为 weka 中的 package manager (包管理器)还是非常重要非常强大的。 继续阅读“Weka 中文版 v0.2 发布 基于weka 3.7.12 x64”

Weka 中文版 v0.1 发布 基于weka 3.7.12 x64

最近工作繁忙,只能抽出业余时间来做国际化并翻译为中文。目前第一版weka中文版已经发布,暂定版本v0.1,汉化了大部分界面,目测需要汉化的内容还很多,先发布出来大家尝尝鲜。

本次只发布了64位的版本,不含jre,需要自行安装。解压缩到任意目录后,运行RunWeka.bat就可以了。当然也有快捷方式可以用,但图标因为路径问题需要你自己重新设定一下。

下载地址(25.8M): 继续阅读“Weka 中文版 v0.1 发布 基于weka 3.7.12 x64”

weka汉化开工

这段时间将weka的源代码大概摸了一下,发现它的界面语言部分没有做国际化处理,语言文字直接写在程序里的,所以第一步就是国际化处理,便于日后翻译成其他国家的语言;第二步就是翻译为中文版。