namuwiki-corpus

문장단위로 분절된 나무위키 데이터셋. Releases에서 다운로드 받거나, tfds-korean을 통해 다운로드 받으세요.

Stars

View Code on GitHub Visit Website View on X

Ecosystems: Python

Issue Statistics

Past Year

All Time

Total Pull Requests

Merged Pull Requests

Total Issues

Time to Close Issues

N/A

Related Projects

funNLP

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、...

21 Aug 2018 68,021

GPT2-chitchat

GPT2 for Chinese chitchat/用于中文闲聊的GPT2模型(实现了DialoGPT的MMI思想)

09 Dec 2019 2,978

ailearning

AiLearning：数据分析+机器学习实战+线性代数+PyTorch+NLTK+TF2

25 Feb 2017 38,884

korean-wikipedia-corpus

문장단위로 분절된 한국어 위키피디아 코퍼스. Releases에서 다운로드 받거나 tfds-korean으로 사용해주세요.

15 Jan 2021 17

tta

Transformer-based Text Auto-encoder (T-TA) using TensorFlow 2.

03 Feb 2021 13

CLUEDatasetSearch

搜索所有中文NLP数据集，附常用英文NLP数据集

21 Feb 2020 4,106

pytorch-Korean-NER

09 May 2021 5

GPT2-Chinese

Chinese version of GPT2 training code, using BERT tokenizer.

31 May 2019 7,448

ChineseNLPCorpus

中文自然语言处理数据集，平时做做实验的材料。欢迎补充提交合并。

01 Dec 2018 4,255

keyword_extraction

利用Python实现中文文本关键词抽取，分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。

23 Nov 2017 1,121

GPT2-NewsTitle

Chinese NewsTitle Generation Project by GPT2.带有超级详细注释的中文GPT2新闻标题生成项目。

16 Dec 2020 1,094

korean-spacing-model

한국어 문장 띄어쓰기(삭제/추가) 모델입니다. 데이터 준비 후 직접 학습이 가능하도록 작성하였습니다.

16 Sep 2020 54

speech-to-text-wavenet

Speech-to-Text-WaveNet : End-to-end sentence level English speech recognition based on DeepMind's...

14 Nov 2016 3,945

word2vec-api

Simple web service providing a word embedding model

15 Jul 2014 1,431

two_hot_encoding

17 Jan 2022 6