カテゴリー
Python

Scrapy について

“使ってみた” で申し訳ないのですが、軽く触った感想です。

  • フレームワークなので想定されているモデルに合致しない用途に適用するのは難しい。というか軽くはみ出ただけで途端に面倒になる気がする。
  • twisted ベース。asyncio が標準ライブラリとなった現在では古臭いと感じる。また通信は deferred で行うのが前提なようで、関数内でセッション (cookie) を維持しつつ http request を行う方法が分からなかった。twisted のラップの仕方が透過的?ではない。
  • spider, pipeline, middleware と整理されたモデルだとは思うが、じゃあ使いやすいかと言われると疑問に感じる。

try: … finally: request() のような処理が可能なのかも分からなかったため、requests_html を使うことにしました。こちらは requests の作者 Kenneth Reitz によるライブラリです。pyquery/lxml が中途半端に隠されているのは使いやすいとは思えませんでしたが、requests.Session の拡張のサンプルとしては大変良いと思います。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です