[Data-mining] Sử dụng scrapy để crawl dữ liệu website.

Scrapy là gì?

Scrapy là một framework được viết bằng Python, nó cấp sẵn 1 cấu trúc tương đối hoàn chỉnh để thực hiện việc crawl và extract data từ website một cách nhanh chóng và dễ dàng. Bạn muốn lấy dữ liệu từ các website nhưng dữ liệu đó quá lớn để copy rồi paste vào database của bạn, scrapy hỗ trợ bạn làm điều đó. Việc lấy dữ liệu website hoàn toàn tự động nhanh chóng và việc sử dụng scrapy cũng rất đơn giản giúp bạn tiếp kiệm được nhiều thời gian và công sức.Sau đây tôi xin trình bày cách cài đặt scrapy trên Ubuntu.

Trang chủ scrapy: https://scrapy.org

Tài liệu scrapy: http://doc.scrapy.org/

Hướng dẫn cài đặt Scrapy

Scrapy có thể cài đặt trên nhiều hệ điều hành khác nhau, tôi xin hướng dẫn các bạn cài đặt và sử dụng trên Ubuntu và Windown.

Yêu cầu:

I. Cài đặt scrapy trên Ubuntu

 

1. Cài đặt Python

Mặc định phiên bản ubuntu mới nhất đã có python, nếu chưa có các bạn hãy cài bằng script duới đây:

2. Cài đặt pip

Chúng ta sẽ sử dụng pip để cài đặt scrapy.

Sau khi cài đặt bạn có thể gõ script dưới đây để kiểm tra:

Kết quả:

Tiếp theo chúng ta sử dụng pip để cài đặt scrapy.

Phiên bản scrapy hiện tại là 1.1 .Sau khi cài đặt xong ta kiểm tra kết quả:

Kết quả:

 

II. Cài đặt scrapy trên windows

1. Cài đặt Python 2.7.*

Cài đặt python 2.7.* mới nhất tại https://www.python.org/downloads/. Bạn phải tạo PATH biến môi trường trỏ đến Python:

Update PATH và run command:

Kiểm tra version python sau khi đã cài đặt:

2. Cài đặt Pywin32

Cài đặt pywin32 từ http://sourceforge.net/projects/pywin32/

Lưu ý tải về phiên bản phù hợp với phiên bản của hệ điều hành (win32 hoặc amd64).

3. Cài đặt Pip

Tiếp theo chúng ta cài đặt pip: https://pip.pypa.io/en/latest/installing/

Kiểm tra phiên bản hiện tại của pip:

Cuối cùng cài đặt scrapy:

Kiểm tra phiên bản scrapy:

Chúng ta thử tạo một project scrapy có tên là first_project:

Cấu trúc project thu được như sau:

Như vậy, tôi đã hướng dẫn các bạn cài đặt scrapy trên Ubuntu và Windows, bài viết sau tôi sẽ hướng dẫn các bạn crawl dữ liệu từ ví dụ cụ thể và các vấn đề các bạn sẽ gặp phải trong quá trình crawl dữ liệu.

The following two tabs change content below.

khai nguyen