文本特征提取,适用于小说,论文,议论文等文本,提取词语、句子、依存关系等特征。python开发。
APACHE-2.0 License
代码有优化,结果在我的另一个项目中:authorship-identification.
NLP common tools.
pytextclassifier is a toolkit for text classification. 文本分类,LR,Xgboost,TextCNN,FastText,TextRNN,B...
Fake News Detection Competition
基于 agentica 构建了一个微博毒舌AI,疯狂 diss 微博博主
xmnlp:提供中文分词, 词性标注, 命名体识别,情感分析,文本纠错,文本转拼音,文本摘要,偏旁部首,句子表征及文本相似度计算等功能
Chinese(zh) sentence NSW(Non-Standard-Word) Normalization
pke_zh, python keyphrase extraction for chinese(zh). 中文关键词或关键句提取工具,实现了KeyBert、PositionRank、TopicR...
Automatic Speech Recognition(ASR), Text-To-Speech(TTS) engine. 中英语音识别、多角色语音合成,支持多语言,准确率高
pinyintokenizer, 拼音分词器,将连续的拼音切分为单字拼音列表。
自然语言处理(nlp),小姜机器人(闲聊检索式chatbot),BERT句向量-相似度(Sentence Similarity),XLNET句向量-相似度(text xlnet embeddin...
Automatic Text Summarization and Title Generation.
text2vec, text to vector. 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似...
company name parser, extract company name brand. 中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。
RAG for Local LLM, chat with PDF/doc/txt files, ChatPDF. 纯原生实现RAG功能,基于本地LLM、embedding模型、reranker模...