Scrapc
Introduction
Scrapc est une application Windows Forms en C# permettant de crawler des sites web et d'en extraire les différents contenus pour les sauvegarder localement. Elle dispose d'une interface utilisateur pour gérer et visualiser les URLs à scraper.
Fonctionnalités
- Crawling de site web : Collecte les URLs récursivement à partir d'une page donnée.
- Limitation des URL : Choissez le nombre maximal d'url à collecter pour le scraping
- Scraping de contenu : Extrait et sauvegarde le contenu des pages trouvées.
- Scraping HTML : Extrait et sauvegarde le code HTML des pages trouvées.
- Scraping Image : Extrait et sauvegarde les images trouvées dans les pages.
- Scraping d'URLs : Affiche et sauvegarde les URLs collectées.
Prérequis
Installation
Clonez le dépôt :
sh
git clone https://github.com/Miiraak/Scrapc.git
Visual Studio
Ouvrez le projet avec Visual Studio.
Ajoutez les dépendances nécessaires (HtmlAgilityPack) via NuGet.
Utilisation
- Lancez l'application.
- Selectionnez la fonction approprié.
- Entrez une URL valide dans le champ texte.
Vous pouvez utiliser ce site : Book to Scrape (Merci à eux 🫀)
- Choississez le nombre d'url que vous souhaitez explorer au maximum.
- Cliquez sur le bouton
Crawl
pour commencer le crawling.
- Utilisez
URLs ?
pour afficher les URLs récupérées. (optionnel)
- Cliquez sur
Scrap
pour extraire et sauvegarder le contenu des pages collectées selon la fonction choisie et les URLs utilisés.
Fonctions
Nom |
État |
Site Crawler |
[🟢] |
Limiter URL |
[🟢] |
Text Scraper |
[🟢] |
HTML Scraper |
[🟢] |
URL Scraper |
[🟢] |
Multi-threading task |
[🟢] |
Images functions |
[🟠] |
Proxy implementation |
[🔴] |
... |
[⚫] |
Contribution
Les contributions sont les bienvenues ! Veuillez ouvrir une issue ou soumettre une pull request pour toute amélioration ou correction de bugs.
Licence
Ce projet est sous licence MIT. Voir le fichier LICENSE pour plus de détails.
Disclaimer
Attention : L'utilisation de cette application doit se faire de manière responsable et légale.
- Respect des Conditions d'Utilisation : Assurez-vous de respecter les conditions d'utilisation des sites web que vous crawlez. De nombreux sites web limitent la fréquence des requêtes, interdisent explicitement le scraping ou l'accès à certaines ressources. (Pardon Wikipedia c'était pas voulu 😅🙏)
- DDoS (Distributed Denial of Service) : L'utilisation incorrecte de cette application peut entraîner un grand nombre de requêtes simultanées, potentiellement provoquant un DDoS involontaire. Limitez le nombre de requêtes simultanées et la fréquence des requêtes pour éviter cela.
- Contenu Interdit : Ne crawlez pas des sites web contenant des contenus illégaux ou des informations sensibles.
L'auteur de ce logiciel n'est pas responsable des dommages ou des conséquences juridiques résultant d'une utilisation inappropriée ou illégale de cette application.
Sinon merci d'utiliser Scrapc ! N'hésitez pas à faire des suggestions ou à signaler des bugs.