Googlebot

מתוך ויקיפדיה, האנציקלופדיה החופשית
Googlebot
Google 2015 logo.svg
מפתח חברת גוגל עריכת הנתון בוויקינתונים
האתר הרשמי
לעריכה בוויקינתונים שמשמש מקור לחלק מהמידע בתבנית OOjs UI icon info big.svg

Googlebot הוא זחלן רשת המיועד לאינטרנט שנבנה על ידי גוגל ומשמש אותה. הזחלן אוסף מסמכים ומידע מהאינטרנט בכדי לבנות אינדקס נרחב שעליו מתבסס מנוע החיפוש של Google. שם זה משמש למעשה להתייחסות לשני זחלנים שונים של סורקי אינטרנט: האחד "סורק שולחני" (מדמה משתמשי שולחן עבודה) והשני "סורק נייד" (מדמה משתמש ממכשיר נייד).[1]

התנהגות[עריכת קוד מקור | עריכה]

כל אתר אינטרנט ציבורי ככל הנראה יסרק על ידי Googlebot Desktop ו-Googlebot Mobile. עם זאת, גוגל הודיעה כי החל מספטמבר 2020 כל האתרים עברו לאינדקס ראשון במובייל, כלומר גוגל סורקת את האינטרנט באמצעות Googlebot של סמארטפון.[2] ניתן לזהות את סוג המשנה של Googlebot על ידי הסתכלות על במחרוזת סוכן המשתמש שבבקשה. עם זאת, שני סוגי הסורקים מצייתים לאותו אסימון (token) מוצר ((useent token)) ב-robots.txt, ולכן מפתח אינו יכול למקד באופן סלקטיבי ל Googlebot ספציפי באמצעות robots.txt.

אם מנהל אתר מעוניין להגביל את המידע באתר שלו הזמין ל-Googlebot, או לזחלן רשת "תקני" אחר, הוא יכול לעשות זאת באמצעות הנחיות מתאימות בקובץ robots.txt[3] או על ידי הוספת meta tag כזה: <meta name="Googlebot" content="nofollow" /> לדף האינטרנט.[4] בקשות Googlebot לשרתי HTTP ניתנות בדרך כלל לזיהוי באמצעות מחרוזת סוכן משתמש המכילה "Googlebot" וכתובת מארח המכילה "googlebot.com".

Googlebot עוקב אחר קישורי HREF וקישורי SRC.[3] ישנן הוכחות הולכות וגוברות ש-Googlebot יכול לבצע JavaScript ולנתח תוכן שנוצר גם משיחות Ajax.[5] ישנן מספר תיאוריות לגבי מידת ההתקדמות של יכולת Googlebot לעבד JavaScript.[6] זחלן Googlebot משתמש בשירות עיבוד אתרים (WRS) המבוסס על מנוע עיבוד כרום.[7] Googlebot מגלה דפים על ידי צירוף כל הקישורים בכל דף שהוא מוצא. לאחר מכן הוא עוקב אחר קישורים אלה לדפי אינטרנט אחרים. לדפי אינטרנט חדשים חייבים להיות מקושרים מדפים מוכרים אחרים באינטרנט על מנת שיסרוק אותם ויאנדקס או לשלוח אותם ידנית על ידי מנהל האתר.

בעיה שמנהלי אתרים עם אחסון אתרים ברוחב פס נמוך ציינו ב-Googlebot כי הוא תופס רוחב פס גדול. הדבר יכול לגרום לאתרים לחרוג ממגבלת רוחב הפס שלהם ולהסירם באופן זמני. הדבר בעייתי במיוחד עבור אתרי מראה (mirror site) המאחסנים נתונים רבים. Google מספקת "Search Console" המאפשרת לבעלי אתרים לצמצם את קצב הסריקה.[8]

התדירות שבה Googlebot יסרוק אתר תלוי בתקציב הסריקה. תקציב סריקה הוא הערכה של התדירות שבה אתר אינטרנט מתעדכן. מבחינה טכנית, צוות הפיתוח של Googlebot (צוות סריקה ואינדקס) משתמש בכמה מונחים מוגדרים באופן פנימי כדי להשתלט על מה ש"תקציב סריקה" מייצג.[9] מאז מאי 2019, Googlebot משתמש במנוע העיבוד העדכני ביותר של Chromium, התומך בתכונות ECMAScript 6. זה יהפוך את הבוט לקצת יותר "ירוק עד" ויבטיח שהוא לא מסתמך על מנוע עיבוד מיושן בהשוואה ליכולות הדפדפן.[10]

מדיאבוט[עריכת קוד מקור | עריכה]

Mediabot הוא סורק אינטרנט בו משתמשת Google לניתוח תוכן, כך ש-Google AdSense תוכל להציג פרסום רלוונטי מבחינת הקשר לדף אינטרנט. Mediabot מזדהה עם מחרוזת סוכן המשתמש "Mediapartners-Google/2.1".

שלא כמו זחלנים אחרים, Media bot אינו עוקב אחר קישורים לגלות כתובות אתרים חדשות הניתנות לסריקה, אלא רק ביקור בכתובות אתרים שכללו את קוד AdSense. כאשר התוכן שוכן מאחורי התחברות, ניתן לתת לסורק כניסה כך שיוכל לסרוק תוכן מוגן.

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ "Googlebot". Google. 2019-03-11. נבדק ב-2019-03-11.
  2. ^ "Announcing mobile first indexing for the whole web". Google Developers. נבדק ב-2021-03-17.
  3. ^ 1 2 "Google Search Console". Google.com.
  4. ^ "Google Search Console". search.google.com. נבדק ב-2019-03-11.
  5. ^ "Understand the JavaScript SEO basics | Search for Developers". Google Developers (באנגלית). נבדק ב-2020-07-26.
  6. ^ Splitt, Martin. "How Google Search indexes JavaScript sites - JavaScript SEO". YouTube.
  7. ^ "The new evergreen Googlebot". Official Google Webmaster Central Blog (באנגלית). נבדק ב-2019-06-07.
  8. ^ "Google - Webmasters". נבדק ב-2012-12-15.
  9. ^ "What Crawl Budget Means for Googlebot". Official Google Webmaster Central Blog (בAmerican English). נבדק ב-2018-07-04.
  10. ^ "The new evergreen Googlebot". Official Google Webmaster Central Blog (באנגלית). נבדק ב-2019-06-17.