Contains fine-tuned BERT models and results in the text classification category using Turkish social media data
Bu proje, Türkçe X (eski adıyla twitter) verileri kullanılarak oluşturulan 4 kategorili:
veri seti ile BERT, ConvBERT ve DistilBERT modellerinin fine-tune edilmesini ele alır. Çalışma çok sınıflı metin sınıflandırma projesidir. Çalışmada nanelimon/turkish-social-media-offensive-dataset veri seti kullanılmıştır.
Çalışmada Wikipedia dökümü, çeşitli OPUS korpusları ve Kemal Oflazer tarafından sağlanan özel bir korpus üzerinde eğitilen BERTurk, ConvBERTurk, DistilBERTurk modelleri kullanılmıştır.
Bu projeyi yerel ortamınıza kurmak için aşağıdaki adımları izleyin:
git clone hhttps://github.com/BilgeNurBekar/TurkishCyberbullying.git
cd TurkishCyberbullying
python -m venv ./venv
Windows için:
.\venv\Scripts\activate
Unix veya MacOS için:
source venv/bin/activate
pip install -r requirements.txt
Çalışmada oluşturulan modelleri kullanmak, eğitmek için HuggingFace platformu üzerinden AIZinu profilindeki modelleri inceleyebilirsiniz.
Çalışmanın API' ı için FASTAPI reposunu incelemeyi unutmayın ☄️
Katkıda bulunmak isterseniz, lütfen aşağıdaki adımları takip edin:
Depoyu fork edin.
Yeni bir branch oluşturun: git checkout -b feature/ozellik-adi
Değişikliklerinizi yapın ve commit edin.
Pull request açın.
Çalışmayı beğendiyseniz yıldızlamayı unutmayın ⭐️