brand-scraping

Web scrapping from Korean Brand website - http://kdtj.kipris.or.kr/kdtj/searchLogina.do?method=loginTM#page10

Stacks we use

node.js and puppeteer

Usage

Clone repository from git
npm install to install dependencies
npm run start to run node.js server

Data will be saved as brands/[pagenumber].pdf

Challenge points

Pagination skip every 10 pages
Wait for image downloaded to the browser cache

TODO

Start from specific page
Error handling - extraction failed should stop process and notify to user

Related Projects

scraper

Node Website Scraper

18 Apr 2019 2

Internubel-website-scraping

This repository contains a Puppeteer-based script for scraping product details from Internubel's ...

26 Jun 2024 0

Web-Scraping-with-Node.js-Guide

Node.js Web Scraping Guide repository

19 Aug 2024 1

headless-chrome-crawler

Distributed crawler powered by Headless Chrome

02 Dec 2017 5,519

spider_job

25 Jul 2018 402

puppeteer

Node.js API for Chrome

09 May 2017 86,832

linkedin-jobs-scraper

LinkedIn Jobs Scraper running in Node.js that uses Puppeteer and RxJS to scrape job offers from L...

21 Sep 2023 40

puppeteer-deep

Puppeteer, Headless Chrome；爬取《es6标准入门》、自动推文到掘金、站点性能分析；高级爬虫、自动化UI测试、性能分析；

17 Aug 2017 1,203

headless-crawler

A crawler implemented using a headless browser (Chrome).

26 Dec 2018 14

jcrawler

Asynchronous control flow wrapper to crawl websites

08 Dec 2017 5

rebrowser-puppeteer

A drop-in replacement for puppeteer patched with rebrowser-patches. It allows to pass modern auto...

17 Sep 2024 1

patreon-scraper-puppeteer

Patreon Scraper made with Puppeteer TS

24 Aug 2024 2

goodreads_quotes-scraper

This scraper, developed in Node.js using the Puppeteer library, is designed to scrape 100 pages, ...

10 Aug 2024 2

puppetron

Puppeteer (Headless Chrome Node API)-based rendering solution.

22 Aug 2017 527

puppeteer-service

🎠 Run headless Chrome (aka Puppeteer) as a service.

18 Oct 2017 47