DUICUO

素晴らしいオープンソースの Web サイト変更検出システムをお勧めします。

インターネットサービスは社会のあらゆる側面に浸透しています。ウェブサイトの変更を監視することは、多くのウェブサイト管理者、情報収集者、開発者、運営者、そして一般の人々にとって日常的な作業です。例えば、私は最近、教育庁の「小中学校」に関する方針のウェブサイトを常に監視し、子供の中学校出願を容易にするために、できるだけ早く方針情報を入手しようとしています。また、ある商品の価格をECサイトで追跡し、最安値で購入できるようにしたいという場合もあります。さらに別の例としては、ウェブサイトから公開されている情報を合法的にスクレイピングする必要があるものの、ウェブサイトを頻繁に訪問したり、毎回すべての情報を収集したりしたくない場合があります。そのため、ウェブサイト情報の変更を追跡することは不可欠です。

自動化がなければ、このようなシナリオでコンテンツを表示するには、Web サイトを定期的に繰り返し確認する必要があり、これは明らかに面倒すぎます。

この記事では主に、Changedetection と呼ばれるオープンソースの Web ページ変更検出システムを推奨しています。

Changedetection は GitHub で 16.8K 個のスターを獲得しており、ソースコードは https://github.com/dgtlmoon/changedetection.io で確認できます。

主な機能:

  • 「テキスト トリガー」、「セレクターによるテキストの削除」、「テキストの無視」、「テキストの抽出」などの多くのトリガー フィルターでも正規表現が使用されます。
  • xPath (1.0) と CSS セレクターを使用して要素を見つけ、JSONPath または jq を使用して複雑な JSON を簡単に監視します。
  • 非 JS と Chrome JS ベースの「クローラー」を素早く切り替える
  • PDF ファイルの変更を追跡します (PDF 内の変更されたテキスト、および PDF ファイルのサイズと検証を監視します)。
  • ウェブサイトの検出頻度を簡単に設定
  • テキストを抽出する前に JavaScript を実行します (ログインの場合、UI の例を参照してください)。
  • リクエスト ヘッダーは、POST または GET などのメソッドを指定します。
  • 視覚的なツールを使用して、特定の要素を見つけやすくします。
  • 各監視エージェントを設定できます。
  • Web ページで変更が検出されると、通知とともにスクリーンショットを送信します。

使用例

(1)視覚的なセレクターツールを使用してWebページの特定の部分を見つけることをサポートします。

したがって、単語、行、または個々の文字を調べることで、何が変更されたかを簡単に確認できます。

(2)検出プロセスの設定をサポート

ブラウザのステップ構成を使用すると、Web サイトへのログイン、ショッピング カートに追加する製品の追加、Cookie ログインの受け入れ、日付の入力、検索の最適化など、Web ページの変更検出を実行する前に基本的なステップを追加できます。

(3)素晴らしい再入荷通知と価格変更通知をサポート

「個々の商品ページでの再入荷価格検出」オプションを有効にすると、商品価格を監視するための最適な方法が有効化されます。これにより、HTMLページからメタデータが抽出され、商品価格を追跡するための様々なオプションが利用可能になります。

その後は、ダッシュボードから簡単に商品価格を監視し、商品価格が変更されたときや商品が再入荷したときにアラートや通知を受け取ることができます。

価格変更通知のパラメータ(価格の上限と下限、価格変更の割合など)を設定できます。

アプリケーションシナリオ

  • 製品およびサービスの価格に変更があります。
  • 在庫切れ通知と再入荷通知
  • PDF ファイルの変更を監視および追跡して、テキストの変更がいつ発生したかを確認します。
  • 政府部門の最新情報(変更は通常、その政府の Web サイトにのみ掲載されます)。
  • メーリングリストに登録していない場合でも、新しいソフトウェアのリリースやセキュリティに関するお知らせが届きます。
  • 変化に戸惑う
  • 補充アラートと監視
  • 不動産物件情報の変更
  • お気に入りのウイスキーがいつセールになるか、あるいは他の特別なセールが発表される前に、
  • 政府ウェブサイトからのCOVID関連ニュース
  • 大学/組織のニュースウェブサイトをフォローする
  • JSON APIレスポンスの変更を検出して監視する
  • JSON API 監視とアラート
  • 法律やその他の文書の変更
  • テキストが Web サイトに表示されると、通知を介して API 呼び出しがトリガーされます。
  • JSON フィルターと JSON 通知を使用して API を結合します。
  • Web コンテンツの変更に基づいて RSS フィードを作成します。
  • HTML ソース コードへの予期しない変更を監視することで、PCI コンプライアンスを強化します。
  • 非常に機密性の高いURLのリストを確認する必要がある場合、有料の代替手段は使いたくないでしょう。(忘れないでください、あなた自身が商品なのです。)
  • 特定のキーワードが Twitter 検索結果に表示されたときに通知を受け取ります。
  • 積極的に求人を検索し、企業が採用ページを更新したときに通知を受け取り、求人ポータルでキーワードを検索します。
  • 採用プラットフォームに新しい求人が掲載されたときに通知を受け取ります。
  • ウェブサイトのダメージ監視
  • コンプライアンスと監督

インストールと使用

このプロジェクトは Docker を使用したインストールをサポートしています。

 docker compose up -d

シングルトンモードで Docker を起動します。

 Pip を使用してインストールすることもできます。 docker run -d --restart always -p "127.0.0.1:5000:5000" -v datastore-volume:/datastore --name changedetection.io dgtlmoon/changedetection.io

 pip3 install changedetection.io changedetection.io -d /path/to/empty/data/dir -p 5000

次に、http://127.0.0.1:5000 にアクセスして UI にアクセスします。

このプロジェクトは MIT オープンソース ライセンスを使用しているため、拡張開発、研究、展開に使用できます。