網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
隨著網絡的迅速發展,萬維網成為大量的信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰。因為爬蟲技術造成的大量IP訪問網站侵占帶寬資源、以及用戶隱私和知識產權等危害,很多互聯網企業都會花大力氣進行“反爬蟲”。
相比爬蟲技術本身,反爬蟲其實更加復雜,發展歷程也更加有趣。就拿電商網站來說,很多電商網站是愿意被比價網站或者其他購物信息網站爬取信息的,因為這樣能夠給他們的商品帶來更多流量。但他們不愿意被其他電商網站獲取價格信息和商品描述,因為擔心其他電商網站惡意比價或進行抄襲。同時他們又經常去爬其他電商網站的數據,希望能夠看到別人的價格。
在90年代開始有搜索引擎網站利用爬蟲技術抓取網站時,一些搜索引擎從業者和網站站長通過郵件討論定下了一項“君子協議”—— robots.txt。即網站有權規定網站中哪些內容可以被爬蟲抓取,哪些內容不可以被爬蟲抓取。這樣既可以保護隱私和敏感信息,又可以被搜索引擎收錄、增加流量。
爬蟲技術剛剛誕生時我們的技術還不是很完善,大多數從業者都會默守“君子協定”,畢竟那時候信息和數據都沒什么油水可撈。但很快互聯網上開始充斥著商品信息、機票價格、個人隱私等等,在利益的誘惑下,自然有些人會開始違反爬蟲協議了。可以說爬蟲技術和反爬蟲技術之間爭斗了十幾年,可真正的“戰爭”,卻從現在才剛剛開始。