时间:2023-06-12|浏览:245
用戶喜愛的交易所
已有账号登陆后会弹出下载
要使用Scrapy,您需要先使用pip install scrapy命令进行安装。如果在安装过程中遇到错误:“Microsoft Visual C++ 14.0 必须安装”,您需要前往https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted网站免费下载Twisted-19.2.1-cp37-cp37m-win_amd64,并按照自己的Python版本号和操作系统位数进行选择和安装。
安装完成后,您可以使用pip install Twisted-19.2.1-cp37-cp37m-win_amd64.whl命令,然后再安装Scrapy。安装完成后,您就可以使用Scrapy指令创建新的爬虫项目了。
要创建新项目,请在命令行输入scrapy startproject webtutorial命令,该命令将在桌面上创建名为webtutorial的文件夹。
接下来,请在spiders文件夹中创建一个名为quotes_spider.py的文件,并编写一个爬虫用于抓取http://quotes.toscrape.com网站,将其保存为一个HTML文件。
代码如下:
import scrapy
class QuotesSpider(scrapy.Spider): name = "quotes"
def start_requests(self): urls = ["http://quotes.toscrape.com/page/1/", "http://quotes.toscrape.com/page/2/"] for url in urls: yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response): page = response.url.split("/")[-2] filename = "quotes-%s.html" % page with open(filename, "wb") as f: f.write(response.body) self.log("Saved file %s" % filename)
然后,在命令行中转到webtutorial文件夹,并运行scrapy crawl quotes命令,其中quotes为您创建的爬虫名称。
如果遇到错误“ModuleNotFoundError: No module named 'win32api'”,请运行pip install pypiwin32命令进行安装,然后重新运行scrapy crawl quotes命令。
一旦爬取成功,您将在webtutorial文件夹中看到两个HTML文件。
通过以上步骤,您已成功入门Scrapy的网页爬取,祝您好运!
此外,欢迎关注我的公众号,以获得更多相关技术和知识。