Web画面のスクレイピング:Semaltからの役立つヒント

今日、データはあなたの最も重要な資産になることができます。そのため、競合他社の手に渡らせることは決して良い考えではありません。ただし、画面をこすることにより、これを防ぐのが難しい場合があります。これは、Webページからデータを抽出するために長年使用されてきた手法です。
この方法は、企業に2つの重大な問題を引き起こします。まず、データを使用して、おそらく価格を下げ、製品に関する情報を入手することにより、ビジネスよりも優位に立つことができます。また、持続的に行われる場合、この手法はWebサイトのパフォーマンスを低下させる可能性もあります。
一般に、画面のスクレイピングは、数十年前の初期の端末エミュレーションプログラムによって作成された概念です。これは、主に人間による表示用に設計された画面から情報を抽出するプログラム手法です。このプログラムは人間のふりをしてデータを読み取り、貴重な情報を収集して保存用に処理します。

この手法は、特にWebクローラーの発明により、長年にわたって大幅に進化してきました。それは、たとえば価格比較Webサイトなど、e-リテール画面のスクレイピングの開発によってさらに進化しました。これらのWebサイトでは、特定の製品またはサービスの最新の価格や在庫情報を入手するために、定期的に人気のあるe-リテールにアクセスするプログラムを採用しています。このデータはデータベースに格納され、e小売業界の比較レビューを提供するために使用されます。
競合する画面スクレイピングは、企業のITシステムにさまざまな悪影響を及ぼします。これは、不要なトラフィックのもう1つの例にすぎません。最近の調査では、すべてのトラフィックの少なくとも61%がボットによって生成されていることが証明されています。これらのボットは重要なリソースと本物のWebユーザー向けの帯域幅を消費するため、実際の顧客のレイテンシが増加する可能性があります。
画面のスクレイピングは長い間続いています。しかし、この行動の犠牲者が反応し始めたのは、つい最近のことです。一部の企業は不公正な商慣行と著作権侵害を主張しているが、対照的に、スクレイピングを行っている企業は情報の自由を主張することで自らを守っている。
多くのWebサイト所有者は、積極的なスクレイピングを禁止するWebページに使用ポリシーを記述することに頼ってきました。残念ながら、これらのポリシーを適用することはできないため、問題がすぐになくなることはないようです。

数年前、eBayは優れたスクレイパーがデータにアクセスできるAPIを導入しました。ただし、それは、競争上の優位性のために使用される悪意のある情報収集を阻止するものではありません。人間以外の訪問者をWebサイトにブロックするテクノロジーを利用することで、唯一の真の防御策を得ることができます。これにより、実際のユーザーは、クローラーによる損傷を防ぎながら、Webサイトにアクセスできます。
画面のスクレイピングに対抗できる他の効果的な方法は、IPレピュテーションインテリジェンス、偽装されたIPソースの検出、要求と応答の動作分析、リアルタイムの脅威レベルの評価、地理的位置の強制などの手法を使用することです。