לדלג לתוכן

גרידת נתונים

מתוך ויקיפדיה, האנציקלופדיה החופשית

גרידת נתונים (לעיתים נקרא: קציר מידע או גירוד נתונים או גרידת מידע, באנגלית: Data scraping) הוא פעולת חילוץ נתונים ממאגר מידע מסוים מצד הלקוח בעזרת בוט או תוכנת מחשב[1].

לרוב המידע בצד הלקוח מוצג בצורה שקריאה לבני אדם, אך לא בצורה שמחשב יכול להבחין בין מידע רלוונטי ללא רלוונטי, ופעולה זו לוקחת את המידע הרצוי ושומרת אותו.

הנתונים הנאספים בפעולה זו בדרך כלל מאוגדים למאגר מידע חדש, ויכולים לשמש לניתוח מידע בצורה אוטומטית, חרף העובדה שאין בהכרח למקור המידע ממשק תכנות יישומים.

המוכר מסוגי גרידות הנתונים הוא גרידת דפי אינטרנט, המבוצעת לרוב על ידי תוכנה שקוראת את קובץ הHTML של אתר ומחלצת מידע בעזרת שימוש בתגיות. תוכנות אוטומטיות לגרידה כללית של האינטרנת נקראות ווב קרולר או זחלן. הזחלן מתחיל את פעולתו ברשימת אתרים אותם עליו לבקר, אשר נקראים "זרעים" (seeds), כאשר הזחלן "מבקר באתרים אלו" (מבצע עליהם גרידת נתונים) הוא מזהה קישורים שיש בדפים[2] ומצרף אותם לרשימת האתרים שבהם עליו לבקר.

לאחרונה קיימת עליה משמעותית בגרידת נתונים בעזרת בינה מלאכותית וגם באופן כללי לשם אימון בינה מלאכותית[3].

שימושים ודוגמאות

[עריכת קוד מקור | עריכה]

להלן דוגמאות לגרידות נתונים:

  • דרופשיפינג ומסחר – בכדי למצוא את המחירים הנמוכים ביותר או לגלות מבצעים, לדוגמה תוכנות מסחר אשר זקוקות למחיר השוק הנוכחי בשווקים שונים יכולות למצוא את המידע באופן אוטומטי
  • מידע לאימון בינה מלאכותית – לדוגמה השגת מידע ממאגרי מידע ברחבי המרשתת על מנת ליצור מודל שפה איכותי וקוהרנטי
  • סטטיסטיקות – יכול לשמש ארגונים וממשלות לניתוח מידע בקנה מידע רחב על לקוחות או אזרחים
  • פרצת נתונים – עלול לשמש גורמים זדוניים לחילוץ מידע שלא היה אמור להיות פומבי בקנה מידע רחב

דרכי מניעה

[עריכת קוד מקור | עריכה]
  • הגבלת כמות בקשות – לפי כמות בקשות IP וחסימת כתובות חשודות (כגון כתובות של שירותי פרוקסי ידועים)
  • רנדומיזציה של הקוד בצד הלקוח – שינוי דפוסי הצגת המידע למשתמש בצורה שתקשה על ניתוח המידע
  • שימוש ב-CAPTCHA – לאחר מספר בקשות מסוים
  • הגבלה לפי ניתוח בינה מלאכותית – ניתוח נתונים כגון טביעת האצבע הדיגיטלית של הגולש, וקביעה האם הוא לגיטימי או לא[4][5]

סטטוס משפטי

[עריכת קוד מקור | עריכה]

לקציר המידע שתי השלכות משפטיות מרכזיות: היחס שבין נושאי המידע למגרדי הנתונים, והיחס שבין האחרונים לפלטפורמות מהן נקצר המידע.[6]

ביחס לממשק הראשון, הדין האירופי משתמש בעקרון צמידות המטרה, לפיו, בהקשר דיני הפרטיות, אין להשתמש במידע אלא בצמוד למטרת איסופו הראשונית. כך, נפסק בקוריאה, כי גרידת כעשרה מיליארד הודעות משירות שיחות לשם יצירת צ'אט בינה מלאכותית, מפרה את העיקרון. בארצות הברית, חוקיות גרידת המידע תתברר דרך מבחן הציפיות הסבירות של המשתמשים. כך, ציפייה לפרטיות של משתמש פרטי הממעט להשתמש בפלטפורמה מצפה ליותר פרטיות מאושיית רשת בעל עוקבים רבים.[6]

ביחס להשלכה השנייה, בארצות הברית, המשפטי בנוגע לאיסור גרידת מידע, עמום.[7][8] בין היתר, בתי המשפט חלוקים בנוגע לתוקף של החוק הפדרלי שנועד למנוע חדירה בלתי מורשית למחשבים (CFAA (אנ')) בהקשר של גרידת מידע,[9] או ברלוונטיות של עבירות השגת הגבול,[10] ועשיית עושר ולא במשפט בעצם הגרידה.[8]

בניסיון לאזן בין הגנה על פרטיות ועל זכויות בעלי האתר לבין האינטרס הציבורי למידע חופשי, הוצעו מספר פתרונות משפטיים, ביניהם חקיקת דיני פרטיות מותאמים, עוולה של שימוש מסחרי לא מורשה במידע ציבורי או פיתוח עילה חדשה בתחום דיני החוזים: הפרת תנאי שימוש בחוסר תום לב, שתאפשר לפרטים שנפגעו מהגרידה לתבוע את מפרי תנאי הפלטפורמה.[9][7]

הערות שוליים

[עריכת קוד מקור | עריכה]
  1. ^ cloudflare, What is data scraping?, cloudflare.com
  2. ^ למשל על ידי השימוש בתגית הHTML לקישורים <=a reff>
  3. ^ "From Googlebot to GPTBot: Who's crawling your site in 2025". The Cloudflare Blog (באנגלית אמריקאית). נבדק ב-2025-07-23.
  4. ^ Blocking AI Crawlers from Your Site | Help Center | Wix.com, support.wix.com (באנגלית)
  5. ^ Maxwell Zeff, Cloudflare launches a marketplace that lets websites charge AI bots for scraping, TechCrunch, ‏2025-07-01 (באנגלית אמריקאית)
  6. ^ 1 2 מיכאל בירנהק, פרטיות ובינה מלאכותית, משפט חברה ותרבות ח, 2025, עמ' 165-163
  7. ^ 1 2 Jeffrey Hirschey, Symbiotic Relationships: Pragmatic Acceptance of Data Scraping, Berkeley Technology Law Journal 29, 2014, עמ' 928-897 (באנגלית)
  8. ^ 1 2 OCLC, Inc. v. Anna’s Archive, No. 2:24-cv-144, 2025 WL (S.D. Ohio Mar. 21, 2025) (Watson, J.).
  9. ^ 1 2 A New Common Law of Web Scraping, 25 Lewis & Clark L. Rev. 147 (2021).
  10. ^ Laura Quilter, The Continuing Expansion of Cyberspace Trespass to Chattels, 17 BERKELEY TECH. L.J. 421 (2002).