זחלן רשת

מתוך ויקיפדיה, האנציקלופדיה החופשית

קפיצה אל: ניווט, חיפוש

זחלן רשת (web crawler) או רובוט חיפוש הוא סוג של בוט או תוכנה שסורקת באופן אוטומטי ושיטתי את הרשת הכלל עולמית (WWW). אתרים רבים, בייחוד מנועי חיפוש, משתמשים בזחלנים כדי לקבל תמונה עדכנית של הרשת. במנועי חיפוש, הזחלן שומר העתק של האתרים כדי שיהיה ניתן לעדכן אותם מאוחר יותר באינדקס של מנוע החיפוש. כמו כן, תוכנות זחלן יכולות לאתר קישורים מתים בדפי אינטרנט או לאסוף כתובות דואר אלקטרוני (בדרך כלל לשם שליחת דואר זבל). בדרך כלל הזחלן מתחיל לסרוק דף מתוך רשימה נתונה של דפים (למשל האינדקס של מנוע החיפוש) ומשם הוא מתקדם באופן רקורסיבי דרך הקישורים בדף, לדפים נוספים.

[עריכה] טקטיקות סריקה של זחלני רשת

על מנת לסרוק את הרשת באופן יעיל על המפתח של הזחלן להתמודד עם מספר קשיים:

  1. הגודל העצום של הרשת
  2. קצב העדכון המהיר של דפים ברשת
  3. דפים הנוצרים באופן דינמי (למשל דפים הנוצרים בעקבות הקלדה של שאילתה במנוע חיפוש)

הכלי החשוב ביותר להתמודדות עם הגודל של הרשת וקצב העדכון של הדפים הוא יצירת סדר עדיפויות לסריקה ראשונית ולסריקה חוזרת של דפים ברשת. אלא שכלי זה אינו יעיל בהתמודדות עם דפים הנוצרים באופן דינמי. לדוגמה, נניח שהזחלן סורק גלריית תמונות הכוללת ארבע אפשרויות מיון, שלושה גדלים לתצוגה מקדימה של תמונות, שני פורמטים להצגת קבצים ואפשרות להסתיר את התמונות של המשתמש בגלריה. מכאן שקיימות ארבעים ושמונה כתובות אינטרנט שמציגות את אותו האתר. אך מכיוון שבכל התצוגות של הגלריה מוצג תוכן בעל עדיפות דומה אין אפשרות לדלג על אף אחת מהתצוגות בעת הסריקה של הגלריה.

כלים אישיים