压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

網絡爬蟲

網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

1

隨著網絡的迅速發展,萬維網成為大量的信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰。因為爬蟲技術造成的大量IP訪問網站侵占帶寬資源、以及用戶隱私和知識產權等危害,很多互聯網企業都會花大力氣進行“反爬蟲”。

相比爬蟲技術本身,反爬蟲其實更加復雜,發展歷程也更加有趣。就拿電商網站來說,很多電商網站是愿意被比價網站或者其他購物信息網站爬取信息的,因為這樣能夠給他們的商品帶來更多流量。但他們不愿意被其他電商網站獲取價格信息和商品描述,因為擔心其他電商網站惡意比價或進行抄襲。同時他們又經常去爬其他電商網站的數據,希望能夠看到別人的價格。

2

在90年代開始有搜索引擎網站利用爬蟲技術抓取網站時,一些搜索引擎從業者和網站站長通過郵件討論定下了一項“君子協議”—— robots.txt。即網站有權規定網站中哪些內容可以被爬蟲抓取,哪些內容不可以被爬蟲抓取。這樣既可以保護隱私和敏感信息,又可以被搜索引擎收錄、增加流量。

3

爬蟲技術剛剛誕生時我們的技術還不是很完善,大多數從業者都會默守“君子協定”,畢竟那時候信息和數據都沒什么油水可撈。但很快互聯網上開始充斥著商品信息、機票價格、個人隱私等等,在利益的誘惑下,自然有些人會開始違反爬蟲協議了。可以說爬蟲技術和反爬蟲技術之間爭斗了十幾年,可真正的“戰爭”,卻從現在才剛剛開始。

上一篇:開源工具Infection Monkey擴展ATT&CK測試技術

下一篇:ISC 2020威脅情報驅動的安全能力建設論壇:以威脅情報能力預判、阻斷安全風險