הרשת העמוקה

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

הרשת העמוקה (נקראת גם הרשת הבלתי נראית, הרשת התחתית או הרשת החבויה), מתייחסת לתוכן אינטרנטי שאינו חלק מהרשת שעל פני השטח, שאינו ניתן למיפוי על ידי מנועי חיפוש סטנדרטיים. אין לערב בין המושג הזה לבין הרשת האפלה, מחשבים שלא ניתן לגשת אליהם עוד דרך האינטרנט, או עם רשתות דארקנט, שיכולות להיות מסווגות כחלק קטן מן הרשת העמוקה.

מייק ברגמן, מייסד BrightPlanet‏[1], טבע את המושג[2], ואמר כי חיפוש באינטרנט כיום ניתן להשוואה לגרירת רשת דייגים על פני מי האוקיינוס: ניתן לתפוס לא מעט ברשת, אבל ישנו מידע רב שנמצא עמוק ולכן מתפספס. רוב המידע ברשת קבור עמוק באתרים דינמיים, ומנועי חיפוש סטנדרטיים לא מוצאים אותו. מנועי חיפוש מסורתיים לא יכולים "לראות" או לאחזר תוכן ברשת העמוקה- הדפים האלה לא קיימים עד שהם נוצרים באופן דינמי כתוצאה מחיפוש מסוים. הרשת העמוקה גדולה פי כמה מן הרשת שעל פני השטח.[3]

גודל[עריכת קוד מקור | עריכה]

הערכות ממחקר שנערך באוניברסיטת קליפורניה בברקלי, בשנת 2001[3], משערות כי הרשת העמוקה מורכבת מכ-7,500 טרה בייט. הערכות יותר מדויקות זמינות עבור מספר המשאבים ברשת העמוקה. ד"ר שסטקוב ואחרים זיהו בשנת 2004[4] כ-300,000 אתרי רשת עמוקה באינטרנט בכללותה. לפי שסטקוב, כ-14,000 אתרים מרוסיה הרכיבו את הרשת העמוקה ב-2006.[5]

מקור השם[עריכת קוד מקור | עריכה]

ברגמן, במאמר שפרסם אודות הרשת העמוקה ב-Journal of Electronic Publishing, ציין כי ג'יל אלסוורת' השתמשה במושג הרשת הבלתי נראית ב-1994 כדי להתייחס לאתרים שלא היו רשומים במנוע חיפוש כלשהו. ברגמן ציטט מאמר של פרנק גרסיה מינואר 1996:

"זה יהיה אתר שסביר להניח שעוצב כהלכה, אך בעליו לא טרחו לרשום אותו באף מנוע חיפוש. אז, אף אחד לא יכול למצוא אותו! אתר חבוי. אני קורא לזה, הרשת הבלתי נראית".

שימוש מוקדם נוסף במונח הרשת הבלתי נראית היה על ידי ברוס מאונט ומתיו ב. קול מ-Personal Library Software, בתיאור של כלי הרשת עמוקה שנמצא בפרסום לעיתונות מדצמבר 1996.[6]

השימוש הראשון במונח רשת עמוקה, שכעת מוסכם על הכל, הופיע במאמר המוזכר לעיל של ברגמן, משנת 2001.[3]

משאבים עמוקים[עריכת קוד מקור | עריכה]

ניתן לסווג את משאבי הרשת העמוקה לאחת או יותר מהקטגוריות הבאות:

  • תוכן דינמי: דפים דינמיים המוחזרים כתשובה לשאילתה שנשלחה, או שניתן לגשת אליהם רק דרך טופס, במיוחד אם משתמשים באלמנטים של קלט של שרת פתוח (כמו שדות טקסט); קשה לנווט בשדות כאלו ללא ידע בשרת.
  • תוכן לא מקושר: דפים שלא מקושרים מאף דף אחר, מה שעשוי למנוע גישה לתוכן לתוכנות זחלן רשת. מתייחסים לתוכן הזה כדפים ללא קישורים מפנים (או קישורים תומכים).
  • רשת פרטית: אתרים שדורשים רישום וכניסה (משאבים מוגנים בסיסמה).
  • רשת לפי הקשר: דפים עם תוכן המשתנה לפי הקשרי גישה שונים (לדוגמה, טווחים של כתובות IP, או רצף ניווט קודם).
  • תוכן מוגבל גישה: אתרים שמגבילים את הגישה לדפים שלהם בדרך טכנית (לדוגמה, משתמשים בסטנדרט המונע גישה לרובוטים, ב-CAPTCHA, או ב-HTTP headers מונעי מטמון, שמונעים ממנועי חיפוש לגלוש בהם וליצור עותקי מטמון[7]).
  • תוכן סקריפטים: דפים שניתן לגשת אליהם רק דרך קישורים המיוצרים על ידי JavaScript, כמו גם תוכן המורד בדינמיות משרתי רשת דרך פתרונות פלאש או Ajax.
  • תוכן טקסט המשתמש בפרוטוקול גופר וקבצים המאוחסנים על שרת FTP שאינם מאונדקסים על ידי רוב מנועי החיפוש. מנועים כגון גוגל לא מאנדקסים דפים מלבד HTTP או HTTPS‏[8].

גישה[עריכת קוד מקור | עריכה]

כדי לגלות תוכן על הרשת, מנועי חיפוש משתמשים בזחלני רשת שעוקבים אחרי היפר-קישורים דרך פרוטוקול מספרי פורטים וירטואליים ידועים. השיטה הזו אידאלית לגילוי משאבים ברשת שעל פני השטח, אולם לרוב לא אפקטיבית במציאת משאבי רשת עמוקה. לדוגמה, הזחלנים לא מנסים למצוא דפים דינמיים שהם תוצאה של שאילתות מסדי נתונים עקב המספר האינסופי של שאילתות אפשריות[2]. ניתן לפתור זאת חלקית על ידי מתן קישורים לתוצאות השאילתה, אבל הדבר יכול לנפח באופן בלתי מכוון את הפופולריות של אתר ברשת העמוקה.

ב-2005, יאהו! הפכה חלק קטן מהרשת העמוקה לאפשרי לחיפוש על ידי שירות Yahoo! Subscriptions. מנוע החיפוש הזה מחפש בכמה אתרים הדורשים רישום כמנוי בלבד. חלק מאתרי המנוי מציגים את התוכן המלא שלהם לרובוטי מנוע החיפוש כך שהם יוצגו בחיפושי המשתמש, אולם אז מציגים למשתמשים דף כניסה או רישום כשהם לוחצים על דף בתוצאות החיפוש.

זחילה ברשת העמוקה[עריכת קוד מקור | עריכה]

חוקרים בדקו כיצד ניתן לזחול ברשת העמוקה בדרך אוטומטית. ב-2001, סריראם רגהאבאן והקטור גרסיה-מולינה[9][10] הציגו מודל אדריכלי לזחלן של הרשת הנסתרת שמשתמש במושגי מפתח המסופקים על ידי המשתמשים או נאספים מממשקי השאילתה כדי לתשאל טופס אינטרנט ולזחול במשאבי הרשת העמוקה. אלכסנדרוס נטולס, פטרוס זרפוס, וג'ונגו צ'ו מאוניברסיטת קליפורניה, לוס אנג'לס, יצרו זחלן רשת עמוקה שיצר באופן אוטומטי שאילתות בעלות משמעות עבור טפסי חיפוש[11]. ניסיון נוסף היה DeepPeep, פרויקט של אוניברסיטת יוטה, שמומן על ידי קרן המדע הלאומית בארצות הברית, שאסף משאבי רשת חבויה (טפסי רשת) בשרתים שונים בהתבסס על שיטות זחלן ממוקדות ‏[12][13].

מנועי חיפוש מסחריים החלו לחקור שיטות אלטרנטיביות לזחול ברשת העמוקה. פרוטוקול Sitemap (שפותח לראשונה על ידי גוגל) ו-mod oai הם מנגנונים המאפשרים למנועי חיפוש ולגופים מעוניינים אחרים לגלות משאבי רשת עמוקה על שרתי רשת מסוימים. שני המנגנונים מאפשרים לשרתי אינטרנט לפרסם את כתובות ה-URL הנגישות בהם, ובכך לאפשר גילוי אוטומטי של משאבים שאינם מקושרים אוטומטית לרשת שעל פני השטח. מערכת ה"הגחה" של הרשת העמוקה של גוגל מחשבת מראש שאילתות לכל טופס HTML ומוסיפה את דפי ה-HTML הנוצרים לאינדקס של מנוע החיפוש. התוצאות ה"מגיחות" מוערכות באלף שאילתות לשנייה של תוכן רשת עמוקה[14]. במערכת הזו, החישוב המקדים של שאילתות מבוצע על ידי שלושה אלגוריתמים: (1) בחירת ערכי קלט עבור קלט המקבל מילות מפתח, (2) זיהוי קלטים שמקבל רק ערכים מסוג מסוים (לדוגמה, תאריך), ו (3) בחירה של מספר קטן של קומבינציות קלט שמייצרות כתובות URL המתאימות להיכלל באינדקס החיפוש.

סיווג משאבים[עריכת קוד מקור | עריכה]

קשה לקבוע אוטומטית האם משאב רשת הוא חלק מהרשת שעל פני השטח או מהרשת העמוקה. אם משאב מאונדקס על ידי מנוע חיפוש, הוא לא בהכרח חלק מהרשת שעל פני השטח, מפני שייתכן שהמשאב נמצא על ידי שיטה אחרת (לדוגמה, פרוטוקול Sitemap, mod oai, OAlster) במקום זחילה מסורתית. אם מנוע חיפוש מספק קישור מפנה למשאב, ניתן להניח שהוא ברשת שעל פני השטח. לרוע המזל, מנועי חיפוש לא תמיד מספקים קישורים מפנים למשאבים. אפילו אם קישור מפנה קיים, אין דרך לקבוע אם המשאב המספק את הקישור הוא בעצמו ברשת שעל פני השטח, ללא זחילה על פני כל הרשת. זאת ועוד, משאב עשוי להימצא ברשת שעל פני השטח, אבל הוא טרם נמצא על ידי מנוע חיפוש. לכן, אם יש לנו משאב שרירותי, לא נוכל לדעת באופן מלא אם המשאב נמצא ברשת שעל פני השטח או בזו העמוקה ללא זחילה מלאה של הרשת.

רוב עבודת סיווג תוצאות החיפוש היא קטלוג הרשת שעל פני השטח לפי נושאים. לשם קטלוג משאבי הרשת העמוקה, איפיירוטיס ואחרים[15]. הציגו אלגוריתם שמסווג אתר רשת עמוקה לקטגוריה שמייצרת את המספר הגדול ביותר של בחירות של שאילתות שנבחרו בקפידה לפי נושאים. תיקיות רשת עמוקה תחת פיתוח כוללות את OAlster באוניברסיטת מישיגן, Intute באוניברסיטת מנצ'סטר, Infomine‏[16] באוניברסיטת קליפורניה בריברסייד, ו-DirectSearch (ע"י Gary price). הסיווג הזה מציב אתגר בסריקת הרשת העמוקה, בו נדרשות שתי רמות של קטלוג. הרמה הראשונה היא קטלוג אתרים לנושאים אנכיים (לדוגמה, בריאות, נסיעות, רכבים) ותתי-נושאים לפי טבע התוכן הנמצא במסדי הנתונים שלהם.

האתגר המסובך יותר הוא לקטלג ולמפות את המידע שנלקח ממספר משאבי רשת עמוקה לפי צרכי משתמש הקצה. דוחות חיפוש ברשת העמוקה לא יכולים להציג כתובות URL כמו דוחות חיפוש מסורתיים. משתמשי הקצה מצפים שכלי החיפוש שלהם לא רק ימצאו את מה שהם מחפשים במהירות, אבל גם יהיו אינטואיטיביים וידידותיים למשתמש. כדי להיות בעלי משמעות, דוחות החיפוש חייבים להציע עומק לטבע התוכן הנמצא במשאבים הללו, אחרת משתמש הקצה יילך לאיבוד בתוך אינסוף כתובות URL שלא מצביעות על התוכן הנמצא בהן. המבנה בו תוצאות חיפוש מוצגות משתנה לפי נושא החיפוש ולפי סוג המידע המוצג. האתגר הוא למצוא ולמפות פרטי מידע דומים ממשאבים מרובים שונים, כך שתוצאות החיפוש יוצגו במבנה אחיד בדו"ח החיפוש, ללא קשר למקור שלהם.

עתיד ופתרונות[עריכת קוד מקור | עריכה]

ספקיות החיפוש הגדולות, כמו גם חברות מתמחות בנושא כמו BrightPlanet של ברגמן המוזכר לעיל, מנסות כל הזמן להפוך כמה שיותר מן התוכן של הרשת העמוקה לגלוי ואפשרי לחיפוש עבור גולשי האינטרנט. צעדים רבים בנושא נעשו בשנים האחרונות. חלק מן הפתרונות הם כלהלן:

  • חיפוש בקבצים ומסמכים המאוחסנים על גבי שרתי רשת. אם בעבר מסמכים כגון קובצי Word, מצגות PowerPoint או מסמכי PDF היו בלתי נראים למנועי החיפוש ולגולש הנעזר בהם, כיום מנועי החיפוש מסוגלים לחפש בתוכן שלהם ולהציג אותו לצד תוצאות החיפוש הרגילות.
  • חיפוש בתמונות מתוך אתרי אינטרנט. מנועי חיפוש כיום מסוגלים לחפש תמונות רלוונטיות לפי הטקסט הקשור אליהן, וטכנולוגיה נוספת שמתפתחת היא חיפוש לפי תמונה, ואף זיהוי פנים בתמונה. האפשרויות הללו הופכות את התמונות המאוחסנות על גבי שרתי רשת לנגישות יותר מבעבר.
  • חיפוש במנועי חיפוש ייעודיים, המתמחים בנושא מסוים (חיפוש אנכי). גולש המודע לעובדה שמנוע חיפוש כללי לא מסוגל לאתר חומרים מן הרשת העמוקה, בין היתר כאלו המוגנים בסיסמה או נוצרים על ידי שאילתה דינמית, עליו להיעזר במנוע חיפוש ייעודי, המחפש אך ורק בתוכן אותו הוא מחפש. לדוגמה, מנוע חיפוש של מאמרים אקדמיים, מנוע חיפוש של חנות מקוונת, וכן הלאה.

אם כן, הגבולות בין תוכן מנוע החיפוש והרשת העמוקה החלו להיטשטש, כאשר שירותי חיפוש מתחילים לספק גישה לחלק או כל התוכן שפעם היה מוגבל. חלק הולך וגדל של תוכן הרשת העמוקה נפתח לחיפוש חופשי, כאשר מוציאים לאור וספריות חותמים על הסכמים עם מנועי חיפוש גדולים. בעתיד, תוכן הרשת העמוקה עשוי להיות מוגדר פחות על ידי האפשרות לחפש בו, ויותר על ידי דמי גישה או סוגים אחרים של זיהוי.

רבים קושרים את נושא הרשת העמוקה לפער הדיגיטלי. הטענה היא, כי גם גולש מיומן היודע להשתמש במנוע חיפוש באופן מתקדם, עדיין עלול שלא להצליח להגיע למידע אותו הוא מבקש, עקב החסמים המוזכרים לעיל. כיוון שהפער הדיגיטלי מורכב מכמה רמות, כאשר הבסיסית היא נגישות לטכנולוגיה והשנייה היא יכולת שימוש בה, נניח כי לגולש יש נגישות, אולם כל עוד מנועי החיפוש, המהווים את הדלת שלנו לעולם האינטרנט, לא מציגים את מירב המידע, הפער עתיד להישמר. אך, האם כאשר יצליחו לאנדקס את מירב המידע, האם לא יהיה עוד פער דיגיטלי? שאלה זו, אם התנאים לה יתרחשו בעתיד, מעסיקה את השואפים לביטול הפער ההולך וגדל בין כמות המידע לבין האנשים המסוגלים לגשת אליו.

קישורים חיצוניים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Bergman, Michael K (July 2000). The Deep Web: Surfacing Hidden Value. BrightPlanet LLC. 
  2. ^ 2.0 2.1 Wright, Alex (2009-02-22). "Exploring a 'Deep Web' That Google Can’t Grasp", The New York Times. אוחזר ב־ 2009-02-23. 
  3. ^ 3.0 3.1 3.2 Bergman, Michael K (August 2001). "The Deep Web: Surfacing Hidden Value". The Journal of Electronic Publishing 7 (1). doi:10.3998/3336451.0007.104. 
  4. ^ He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (May 2007). "Accessing the Deep Web: A Survey". Communications of the ACM (CACM) 50 (2): 94–101. doi:10.1145/1230819.1241670. 
  5. ^ Shestakov, Denis, (2001). Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA). Springer. pp. 331-340. Retrieved on June 23, 2012
  6. ^ @1 started with 5.7 terabytes of content, estimated to be 30 times the size of the nascent World Wide Web; PLS was acquired by AOL in 1998 and @1 was abandoned. PLS introduces AT1, the first 'second generation' Internet search service. Personal Library Software, December 1996. Retrieved on June 23, 2012.
  7. ^ pragma:no-cache/cache-control:no-cache HTTP 1.1: Header Field Definitions (14.32 Pragma). HTTP — Hypertext Transfer Protocol. World Wide Web Consortium (1999). אוחזר ב־2009-02-24.
  8. ^ Gopher — DeepGeek. www.talkgeektome.us (29 November 2009). אוחסן מהמקור ב־25 July 2011. אוחזר ב־25 Juli 2011.
  9. ^ Sriram Raghavan; Hector Garcia-Molina. "Crawling the Hidden Web" (PDF). Stanford Digital Libraries Technical Report. Retrieved on 2008-12-27.
  10. ^ Raghavan, Sriram, & Garcia-Molina, Hector, (2001). Proceedings of the 27th International Conference on Very Large Data Bases (VLDB). pp 129-138. Retrieved on June 23, 2012.
  11. ^ Alexandros, Ntoulas; Petros Zerfos, and Junghoo Cho. "Downloading Hidden Web Content" (PDF). UCLA Computer Science. Retrieved on 2009-02-24.
  12. ^ Barbosa, Luciano; Juliana Freire. "An Adaptive Crawler for Locating Hidden-Web Entry Points" (PDF). WWW Conference 2007. Retrieved on 2009-03-20.
  13. ^ Barbosa, Luciano; Juliana Freire. "Searching for Hidden-Web Databases.". WebDB 2005. Retrieved on 2009-03-20.
  14. ^ Madhavan, Jayant; David Ko, Łucja Kot, Vignesh Ganapathy, Alex Rasmussen, Alon Halevy. "Google’s Deep-Web Crawl" (PDF). VLDB Endowment, ACM. Retrieved on 2009-04-17.
  15. ^ Ipeirotis, Panagiotis G.; Gravano, Luis; Sahami, Mehran, (2001). Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data. pp. 67-78. Retrieved on June 23, 2012
  16. ^ UCR.edu