Googlebot

מתוך ויקיפדיה, האנציקלופדיה החופשית
Googlebot
מפתח חברת גוגל עריכת הנתון בוויקינתונים
www.googlebot.com
לעריכה בוויקינתונים שמשמש מקור לחלק מהמידע בתבנית

גוגלבוט (אנגלית: Googlebot) הוא זחלן רשת המיועד לאינטרנט שנבנה על ידי גוגל ומשמש את החברה. הזחלן אוסף מסמכים ומידע מהאינטרנט במטרה לבנות אינדקס נרחב שעליו מתבסס מנוע החיפוש של Google. שם זה משמש למעשה להתייחסות לשני זחלנים שונים של סורקי אינטרנט: האחד "גוגלבוט שולחני" (Googlebot Desktop המדמה משתמשי במחשבים נייחים) והשני "גוגלבוט נייד" (Googlebot Mobile המדמה משתמש ממכשיר נייד).[1]

התנהגות[עריכת קוד מקור | עריכה]

כל אתר אינטרנט ציבורי ככל הנראה יסרק על ידי "גוגלבוט שולחני" ו"גוגלבוט נייד". עם זאת, גוגל הודיעה כי החל מספטמבר 2020 כל האתרים עברו לאינדקס ראשון במובייל, כלומר גוגל סורקת את האינטרנט באמצעות גוגלבוט של סמארטפון.[2] ניתן לזהות את סוג המשנה של הגוגלבוט על ידי הסתכלות על במחרוזת סוכן המשתמש שבבקשה. עם זאת, שני סוגי הסורקים מצייתים לאותו אסימון (token) מוצר ((useent token)) ב־robots.txt, ולכן מפתח אינו יכול למקד באופן סלקטיבי לגוגלבוט ספציפי באמצעות robots.txt.

אם מנהל אתר מעוניין להגביל את המידע באתר שלו הזמין לגוגלבוט, או לזחלן רשת "תקני" אחר, הוא יכול לעשות זאת באמצעות הנחיות מתאימות בקובץ robots.txt[3] או על ידי הוספת meta tag כזה: <meta name="Googlebot" content="nofollow" /> לדף האינטרנט.[4] בקשות גוגלבוט לשרתי HTTP ניתנות בדרך כלל לזיהוי באמצעות מחרוזת סוכן משתמש המכילה "Googlebot" וכתובת מארח המכילה "googlebot.com".

גוגלבוט עוקב אחר קישורי HREF וקישורי SRC.[3] ישנן הוכחות הולכות וגוברות שגוגלבוט יכול לבצע JavaScript ולנתח תוכן שנוצר גם משיחות Ajax.[5] ישנן מספר תיאוריות לגבי מידת ההתקדמות של יכולת הגוגלבוט לעבד JavaScript.[6] זחלן גוגלבוט משתמש בשירות עיבוד אתרים (WRS) המבוסס על מנוע עיבוד כרום.[7] גוגלבוט מגלה דפים על ידי צירוף כל הקישורים בכל דף שהוא מוצא. לאחר מכן הוא עוקב אחר קישורים אלה לדפי אינטרנט אחרים. לדפי אינטרנט חדשים חייבים להיות מקושרים מדפים מוכרים אחרים באינטרנט על מנת שיסרוק אותם ויאנדקס או לשלוח אותם ידנית על ידי מנהל האתר.

בעיה שמנהלי אתרים עם אחסון אתרים ברוחב פס נמוך ציינו בגוגלבוט כי הוא תופס רוחב פס גדול. הדבר יכול לגרום לאתרים לחרוג ממגבלת רוחב הפס שלהם ולהסירם באופן זמני. הדבר בעייתי במיוחד עבור אתרי מראה (mirror site) המאחסנים נתונים רבים. גוגל מספקת קונסולת חיפוש (Search Console) המאפשרת לבעלי אתרים לצמצם את קצב הסריקה.[8]

התדירות שבה גוגלבוט יסרוק אתר תלוי בתקציב הסריקה. תקציב סריקה הוא הערכה של התדירות שבה אתר אינטרנט מתעדכן. מבחינה טכנית, צוות הפיתוח של גוגלבוט (צוות סריקה ואינדקס) משתמש בכמה מונחים מוגדרים באופן פנימי כדי להשתלט על מה ש"תקציב סריקה" מייצג.[9] מאז מאי 2019, גוגלבוט משתמש במנוע העיבוד העדכני ביותר של Chromium, התומך בתכונות ECMAScript 6. זה יהפוך את הבוט לקצת יותר "ירוק עד" ויבטיח שהוא לא מסתמך על מנוע עיבוד מיושן בהשוואה ליכולות הדפדפן.[10]

מדיאבוט[עריכת קוד מקור | עריכה]

מדיאבוט (Mediabot) הוא סורק אינטרנט בו משתמשת גוגל לניתוח תוכן, כך ש־Google AdSense תוכל להציג פרסום רלוונטי מבחינת הקשר לדף אינטרנט. מדיאבוט מזדהה עם מחרוזת סוכן המשתמש "Mediapartners-Google/2.1".

שלא כמו זחלנים אחרים, מדיאבוט אינו עוקב אחר קישורים לגלות כתובות אתרים חדשות הניתנות לסריקה, אלא רק ביקור בכתובות אתרים שכללו את קוד AdSense. כאשר התוכן שוכן מאחורי התחברות, ניתן לתת לסורק כניסה כך שיוכל לסרוק תוכן מוגן.

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ "Googlebot". Google. 2019-03-11. נבדק ב-2019-03-11.
  2. ^ "Announcing mobile first indexing for the whole web". Google Developers. נבדק ב-2021-03-17.
  3. ^ 1 2 "Google Search Console". Google.com.
  4. ^ "Google Search Console". search.google.com. נבדק ב-2019-03-11.
  5. ^ "Understand the JavaScript SEO basics | Search for Developers". Google Developers (באנגלית). נבדק ב-2020-07-26.
  6. ^ Splitt, Martin. "How Google Search indexes JavaScript sites - JavaScript SEO". YouTube.
  7. ^ "The new evergreen Googlebot". Official Google Webmaster Central Blog (באנגלית). נבדק ב-2019-06-07.
  8. ^ "Google - Webmasters". נבדק ב-2012-12-15.
  9. ^ "What Crawl Budget Means for Googlebot". Official Google Webmaster Central Blog (באנגלית אמריקאית). נבדק ב-2018-07-04.
  10. ^ "The new evergreen Googlebot". Official Google Webmaster Central Blog (באנגלית). נבדק ב-2019-06-17.