גרידת נתונים
מראה
גרידת נתונים (לעיתים נקרא: גירוד נתונים או גרידת מידע, באנגלית: Data scraping) הוא פעולת חילוץ נתונים ממאגר מידע מסוים מצד הלקוח בעזרת תוכנת מחשב[1].
לרוב המידע בצד הלקוח מוצג בצורה שקריאה לבני אדם, אך לא בצורה שמחשב יכול להבחין בין מידע רלוונטי ללא רלוונטי, ופעולה זו לוקחת את המידע הרצוי ושומרת אותו.
הנתונים הנאספים בפעולה זו בדרך כלל מאוגדים למאגר מידע חדש, ויכולים לשמש לניתוח מידע בצורה אוטומטית, חרף העובדה שאין בהכרח למקור המידע ממשק תכנות יישומים.
המוכר מסוגי גרידות הנתונים הוא גרידת דפי רשת.
שימושים ודוגמאות
[עריכת קוד מקור | עריכה]להלן דוגמאות לגרידות נתונים:
- דרופשיפינג ומסחר – בכדי למצוא את המחירים הנמוכים ביותר או לגלות מבצעים, לדוגמה תוכנות מסחר אשר זקוקות למחיר השוק הנוכחי בשווקים שונים יכולות למצוא את המידע באופן אוטומטי.
- מידע לאימון רשתות נוירונים – לדוגמה השגת מידע ממאגרי מידע ברחבי המרשתת על מנת ליצור מודל שפה איכותי וקוהרנטי.
- סטטיסטיקות – יכול לשמש ארגונים וממשלות לניתוח מידע בקנה מידע רחב על לקוחות או אזרחים.
- פרצת נתונים – עלול לשמש גורמים זדוניים לחילוץ מידע שלא היה אמור להיות פומבי בקנה מידע רחב.
דרכי מניעה
[עריכת קוד מקור | עריכה]- הגבלת כמות בקשות – לפי כמות בקשות IP וחסימת כתובות חשודות (כגון כתובות של שירותי פרוקסי ידועים).
- רנדומיזציה של הקוד בצד הלקוח – שינוי דפוסי הצגת המידע למשתמש בצורה שתקשה על ניתוח המידע.
- שימוש ב-CAPTCHA – לאחר מספר בקשות מסוים.
ראו גם
[עריכת קוד מקור | עריכה]הערות שוליים
[עריכת קוד מקור | עריכה]- ^ cloudflare, What is data scraping?, cloudflare.com