www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 公眾號精選 > 21ic電子網(wǎng)
[導(dǎo)讀]使用Scrapy開發(fā)一個分布式爬蟲?你知道最快的方法是什么嗎?一分鐘真的能 開發(fā)好或者修改出 一個分布式爬蟲嗎? 話不多說,先讓我們看看怎么實踐,再詳細(xì)聊聊細(xì)節(jié)。

1分鐘搞定Scrapy分布式爬蟲、隊列和布隆過濾器


使用Scrapy開發(fā)一個分布式爬蟲?你知道最快的方法是什么嗎?一分鐘真的能 開發(fā)好或者修改出 一個分布式爬蟲嗎?

話不多說,先讓我們看看怎么實踐,再詳細(xì)聊聊細(xì)節(jié)。

快速上手

Step 0:

首先安裝 Scrapy-Distributed :

pip?install?scrapy-distributed

如果你沒有所需要的運(yùn)行條件,你可以啟動兩個 Docker 鏡像進(jìn)行測試 (RabbitMQ 和 RedisBloom):

#?pull?and?run?a?RabbitMQ?container.?
docker?run?-d?--name?rabbitmq?-p?0.0.0.0:15672:15672?-p?0.0.0.0:5672:5672?rabbitmq:3?
#?pull?and?run?a?RedisBloom?container.?
docker?run?-d?--name?redis-redisbloom?-p?0.0.0.0:6379:6379?redislabs/rebloom:latest

Step 1 (非必須):

如果你有一個現(xiàn)成的爬蟲,可以跳過這個 Step,直接到 Step 2。

創(chuàng)建一個爬蟲工程,我這里以一個 sitemap 爬蟲為例:

scrapy?startproject?simple_example

然后修改 spiders 文件夾下的爬蟲程序文件:

from?scrapy_distributed.spiders.sitemap?import?SitemapSpider
from?scrapy_distributed.queues.amqp?import?QueueConfig
from?scrapy_distributed.dupefilters.redis_bloom?import?RedisBloomConfig


class?MySpider(SitemapSpider):
????name?=?"example"
????sitemap_urls?=?["http://www.people.com.cn/robots.txt"]
????queue_conf:?QueueConfig?=?QueueConfig(
????????name="example",?durable=True,?arguments={"x-queue-mode":?"lazy",?"x-max-priority":?255}
????)
????redis_bloom_conf:?RedisBloomConfig?=?RedisBloomConfig(key="example:dupefilter")

????def?parse(self,?response):
????????self.logger.info(f"parse?response,?url:?{response.url}")

Step 2:

只需要修改配置文件?settings.py?下的SCHEDULER,?DUPEFILTER_CLASS?并且添加?RabbitMQ和?Redis?的相關(guān)配置,你就可以馬上獲得一個分布式爬蟲,Scrapy-Distributed 會幫你初始化一個默認(rèn)配置的 RabbitMQ 隊列和一個默認(rèn)配置的 RedisBloom 布隆過濾器。

#?同時集成?RabbitMQ?和?RedisBloom?的?Scheduler
#?如果僅使用?RabbitMQ?的?Scheduler,這里可以填?scrapy_distributed.schedulers.amqp.RabbitScheduler
SCHEDULER?=?"scrapy_distributed.schedulers.DistributedScheduler"
SCHEDULER_QUEUE_CLASS?=?"scrapy_distributed.queues.amqp.RabbitQueue"
RABBITMQ_CONNECTION_PARAMETERS?=?"amqp://guest:guest@localhost:5672/example/?heartbeat=0"
DUPEFILTER_CLASS?=?"scrapy_distributed.dupefilters.redis_bloom.RedisBloomDupeFilter"
BLOOM_DUPEFILTER_REDIS_URL?=?"redis://:@localhost:6379/0"
BLOOM_DUPEFILTER_REDIS_HOST?=?"localhost"
BLOOM_DUPEFILTER_REDIS_PORT?=?6379
#?Redis?Bloom?的客戶端配置,復(fù)制即可
REDIS_BLOOM_PARAMS?=?{
????"redis_cls":?"redisbloom.client.Client"
}
#?布隆過濾器誤判率配置,不寫配置的情況下默認(rèn)為?0.001
BLOOM_DUPEFILTER_ERROR_RATE?=?0.001
#?布隆過濾器容量配置,不寫配置的情況下默認(rèn)為?100_0000
BLOOM_DUPEFILTER_CAPACITY?=?100_0000

你也可以給你的 Spider 類,增加兩個類屬性,來初始化你的 RabbitMQ 隊列或 RedisBloom 布隆過濾器:

class?MySpider(SitemapSpider):
????......
????#?通過?arguments?參數(shù),可以配置更多參數(shù),這里示例配置了?lazy?模式和優(yōu)先級最大值
????queue_conf:?QueueConfig?=?QueueConfig(
????????name="example",?durable=True,?arguments={"x-queue-mode":?"lazy",?"x-max-priority":?255}
????)
????#?通過?key,error_rate,capacity?分別配置布隆過濾器的redis?key,誤判率,和容量
????redis_bloom_conf:?RedisBloomConfig?=?RedisBloomConfig(key="example:dupefilter",?error_rate=0.001,?capacity=100_0000)
????......

Step 3:

scrapy?crawl?example

檢查一下你的 RabbitMQ 隊列 和 RedisBloom 過濾器,是不是已經(jīng)正常運(yùn)行了?

可以看到,Scrapy-Distributed 的加持下,我們只需要修改配置文件,就可以將普通爬蟲修改成支持 RabbitMQ 隊列 和 RedisBloom 布隆過濾器的分布式爬蟲。在擁有 RabbitMQ 和 RedisBloom 環(huán)境的情況下,修改配置的時間也就一分鐘。

關(guān)于Scrapy-Distributed

目前 Scrapy-Distributed 主要參考了Scrapy-Redis 和 scrapy-rabbitmq 這兩個庫。

如果你有過 Scrapy 的相關(guān)經(jīng)驗,可能會知道 Scrapy-Redis 這個庫,可以很快速的做分布式爬蟲,如果你嘗試過使用 RabbitMQ 作為爬蟲的任務(wù)隊列,你可能還見到過 scrapy-rabbitmq 這個項目。誠然 Scrapy-Redis 已經(jīng)很方便了,scrapy-rabbitmq 也能實現(xiàn) RabbitMQ 作為任務(wù)隊列,但是他們存在一些缺陷,我這里簡單提出幾個問題。

  • Scrapy-Redis 使用 Redis 的 set 去重,鏈接數(shù)量越大占用的內(nèi)存就越大,不適合任務(wù)數(shù)量大的分布式爬蟲。

  • Scrapy-Redis 使用 Redis 的 list 作為隊列,很多場景會有任務(wù)積壓,會導(dǎo)致內(nèi)存資源消耗過快,比如我們爬取網(wǎng)站 sitemap 時,鏈接入隊的速度遠(yuǎn)遠(yuǎn)大于出隊。

  • scrapy-rabbitmq 等 RabbitMQ 的 Scrapy 組件,在創(chuàng)建隊列方面,沒有提供 RabbitMQ 支持的各種參數(shù),無法控制隊列的持久化等參數(shù)。

  • scrapy-rabbitmq 等 rabbitmq 框架的 Scheduler 暫未支持分布式的 dupefilter ,需要使用者自行開發(fā)或接入相關(guān)組件。

  • Scrapy-Redis 和 scrapy-rabbitmq 等框架都是侵入式的,如果需要用這些框架開發(fā)分布式的爬蟲,需要我們修改自己的爬蟲代碼,通過繼承框架的 Spider 類,才能實現(xiàn)分布式功能。

于是,Scrapy-Distributed 框架就在這個時候誕生了,在非侵入式設(shè)計下,你只需要通過修改 settings.py 下的配置,框架就可以根據(jù)默認(rèn)配置將你的爬蟲分布式化。

為了解決Scrapy-Redis 和 scrapy-rabbitmq 存在的一些痛點,Scrapy-Distributed 做了下面幾件事:

  • 采用了 RedisBloom 的布隆過濾器,內(nèi)存占用更少。

  • 支持了 RabbitMQ 隊列聲明的所有參數(shù)配置,可以讓 RabbitMQ 隊列支持 lazy-mode 模式,將減少內(nèi)存占用。

  • RabbitMQ 的隊列聲明更加靈活,不同爬蟲可以使用相同隊列配置,也可以使用不同的隊列配置。

  • Scheduler 的設(shè)計上支持多個組件的搭配組合,可以單獨使用 RedisBloom 的DupeFilter,也可以單獨使用 RabbitMQ 的 Scheduler 模塊。

  • 實現(xiàn)了 Scrapy 分布式化的非侵入式設(shè)計,只需要修改配置,就可以將普通爬蟲分布式化。


作者:許臾insutanto
來源:https://insutanto.net/posts/scrapy/

免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

21ic電子網(wǎng)

掃描二維碼,關(guān)注更多精彩內(nèi)容

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉