英文分词,采用nltk工具包进行分词
pip install nltk
中文分词,采用jieba工具包进行分词
pip install jieba
jieba分词
dict 主词典文件
user_dict 用户词典文件,即分词白名单
user_dict为分词白名单
stopwords为停用词
blackwords为过滤词黑名单
writewords为关键词白名单
config文件:
程序文件:
更改分词文件dict user_dict lag 需要事先手动删除datas文件夹
更改训练集 需要事先手动删除all_words_dict和train_datas
更改文件stopwords blackwords writewords fea_dict_size 重新运行程序即可
Ubuntu下numpy scipy matplotlib的安装
sudo apt-get update
sudo apt-get install git g++ gfortran
sudo apt-get install python-dev python-setuptools python-pip
sudo apt-get install libblas-dev liblapack-dev libatlas-base-dev
export BLAS=/usr/lib/libblas/libblas.so
export LAPACK=/usr/lib/lapack/liblapack.so
export ATLAS=/usr/lib/atlas-base/libatlas.so
sudo apt-get install python-numpy
sudo apt-get install python-scipy
sudo apt-get install python-matplotlib
或
sudo pip numpy
sudo pip scipy
sudo pip matplotlib
sudo pip jieba
sudo pip scikit-learn
sudo pip simplejson
sudo pip pymongo