קישור שבור
קישור שבור הוא מונח המתייחס לתופעה של קישורים הנוטים עם הזמן להפסיק להצביע על דף האינטרנט, הקובץ או השרת אליו הצביעו במקור, בגלל שהאובייקט הזה (למשל דף אינטרנט) הועבר לכתובת חדשה או הפך לא זמין לצמיתות.
שיעור הקישורים השבורים הוא נושא ללימוד ומחקר בשל משמעותו ליכולת האינטרנט לשמר מידע. ההערכות לגבי שיעור זה משתנות באופן דרמטי בין המחקרים. מומחי מידע הזהירו כי תופעת הקישורים השבורים עלולה לגרום לנתוני ארכיון חשובים להיעלם, מה שעלול להשפיע על מערכת המשפט ועל נגישות ידע בעולם האקדמי.
שכיחות
[עריכת קוד מקור | עריכה]מספר מחקרים בחנו את השכיחות של קישורים שבורים ברשת הכלל עולמית (ה-World Wide Web), בספרות אקדמית המשתמשת בכתובות URL כדי לצטט תוכן אינטרנט, ובתוך ספריות דיגיטליות.
מחקר משנת 2002 העלה כי התפתחות קישורים שבורים בספריות דיגיטליות היא איטית במידה ניכרת מאשר באינטרנט, ומצא שכ-3% מהאובייקטים כבר לא היו נגישים לאחר שנה אחת.[1]
מחקר משנת 2003 מצא שברשת האינטרנט, נשבר בערך קישור אחד מכל 200 קישורים מדי שבוע.[2] שיעור זה אושש במידה רבה על ידי מחקר שנערך בשנים 2016–2017 על קישורים ב-Yahoo! Directory (שהפסיקה להתעדכן ב-2014 לאחר 21 שנות פיתוח).[3]
מחקר משנת 2004 הראה שבקבוצות ספציפיות של קישורי אינטרנט (כגון אלה המכוונים לסוגי קבצים ספציפיים או אלה המתארחים בשרתים של מוסדות אקדמיים) שיעור התפתחות הקישורים השבורים עשוי להיות שונה באופן דרמטי.[4] נראה שקישורים שנבחרו לפרסום נהנים מחיים ארוכים יותר מאשר קישורים לאתרים אחרים.
מחקרים אחרים מצאו שיעורים גבוהים יותר של הישברות קישורים בספרות אקדמית.[5][6]
במחקר משנת 2021 על קישורים חיצוניים במאמרי ניו יורק טיימס שפורסמו בין 1996 ל-2019 מצא יציבות טובה יחסית של הקישורים (עם שונות משמעותית בין נושאי התוכן), אך ציין כי 13% מהקישורים הפונקציונליים אינם מובילים עוד לתוכן המקורי - תופעה הנקראת סחף תוכן (content drift).[7]
מחקר משנת 2013 מצא ש-49% מהקישורים באתר פרסומי דעה של בית המשפט העליון בארצות הברית הם קישורים שבורים.[8]
מחקר משנת 2023, שבחן לוחות מחוונים (Dashboard) של COVID-19 בארצות הברית, מצא ש-23% מלוחות המחוונים של מדינות ארצות הברית שהיו זמינים בפברואר 2021 כבר לא היו זמינים בקישורים המקוריים שלהם באפריל 2023 (כלומר - הקישורים אליהם היו שבורים).[9]
סיבות
[עריכת קוד מקור | עריכה]קישור שבור יכול להיגרם עקב מספר סיבות. ייתכן שדף אינטרנט שאליו הצביע הקישור הוסר. ייתכן שיש תקלה בשרת שמארח את דף היעד, או שהשרת הוסר מהשירות או הועבר לשם דומיין חדש. עוד בשנת 1999, צוין כי עם כמות החומר שניתן לאחסן בכונן קשיח, "כשל בדיסק בודד יכול להיות דומה לשריפת הספרייה באלכסנדריה."[10] הרישום של שם דומיין עלול לפוג או לעבור לידי גורם אחר. סיבות מסוימות עלולות לגרום לכך שהקישור לא יוביל ליעד כלשהו ויחזיר שגיאה כגון HTTP 404. סיבות אחרות עלולות לגרום לקישור להצביע לתוכן שונה מזה שההקישור הצביע אליו במקור.
סיבות נוספות לקישורים שבורים כוללות:
- ארגון מחדש של אתרים שגורם לשינויים בכתובות URL (למשל, domain.net/pine_tree עלול לעבור ל-domain.net/tree/pine)
- העברה של תוכן שהיה חינמי בעבר אל מאחורי חומת תשלום[9]
- שינוי בארכיטקטורת השרת שגורם לכך שקוד (למשל PHP) פועל בצורה שונה
- תוכן דף דינמי כגון תוצאות חיפוש עשוי להשתנות בהתאם לכוונת מתכנני האתר
- מחיקת עמוד היעד ו/או תוכנו
- נוכחות של מידע ספציפי למשתמש (כגון שם התחברות) בתוך הקישור
- חסימה מכוונת על ידי מסנני תוכן או חומות אש (Firewalls)
- פקיעת רישום שם דומיין
מניעה וגילוי
[עריכת קוד מקור | עריכה]אסטרטגיות למניעת קישורים שבורים יכולות להתמקד בהצבת תוכן במקומות שבהם הסבירות שלו לשרוד גבוהה יותר, יצירת קישורים באופן שיקטין את הסיכוי שהם יישברו, נקיטת צעדים לשימור קישורים קיימים או תיקון קישורים שהאובייקטים שלהם הועברו או הוסרו.
יצירת כתובות URL שלא ישתנו עם הזמן היא השיטה הבסיסית למניעת קישורים שבורים. טים ברנרס-לי וחלוצי רשת אחרים קידמו את הרעיון של תכנון מניעתי לצמצום הישברות קישורים.[11]
אסטרטגיות ליצירת קישורים יציבים כוללות
[עריכת קוד מקור | עריכה]- קישור למקורות ראשוניים ולא משניים, ותעדוף אתרים יציבים[4]
- הימנעות מקישורים המפנים לאובייקטים בדפים האישיים של חוקרים[12]
- שימוש בכתובות URL נקיות או שימוש אחר בנורמליזציה של כתובות אתרים או קנוניזציה של כתובות אתרים[13]
- שימוש ב-permalinks או persistent identifiers כגון ARKs, DOIs, Handle System references, PURLs, או content addressing.[14]
- הימנעות מקישור למסמכים שאינם דפי אינטרנט[13]
- הימנעות מקישורים עמוקים[15]
- קישור לארכיוני אינטרנט כגון Internet Archive,[16]WebCite, archive.today,[17]Perma.cc,[18] או Arweave.[19]
אסטרטגיות הנוגעות להגנה על קישורים קיימים כוללות
[עריכת קוד מקור | עריכה]- שימוש במנגנוני ניתוב מחדש כגון HTTP 301 כדי להפנות אוטומטית דפדפנים וסורקים לתוכן שהועבר למקום אחר.
- שימוש במערכות ניהול תוכן, שיכולות לעדכן קישורים באופן אוטומטי כאשר תוכן בתוך אותו אתר מועבר למיקום אחר, או להחליף באופן אוטומטי קישורים בכתובות URL קנוניות[20]
- שילוב משאבי חיפוש בדפי HTTP 404[21]
זיהוי קישורים שבורים עשוי להתבצע באופן ידני או אוטומטי. שיטות אוטומטיות כוללות תוספות עבור מערכות ניהול תוכן וכן בודקים עצמאיים של קישורים שבורים כמו למשל Link Sleuth של Xenu. ייתכן שבדיקה אוטומטית לא תזהה קישורים שמחזירים soft 404 או קישורים שמחזירים 200 OK[22] אך מצביעים על תוכן שהשתנה בפועל.[23]
ראו גם
[עריכת קוד מקור | עריכה]לקריאה נוספת
[עריכת קוד מקור | עריכה]- Markwell, John; Brooks, David W. (2002). "Broken Links: The Ephemeral Nature of Educational WWW Hyperlinks". Journal of Science Education and Technology. 11 (2): 105–108. doi:10.1023/A:1014627511641. S2CID 60802264. (באנגלית)
- Gomes, Daniel; Silva, Mário J. (2006). "Modelling Information Persistence on the Web" (PDF). Proceedings of the 6th International Conference on Web Engineering. ICWE'06. אורכב מ-המקור (PDF) ב-2011-07-16. נבדק ב-14 בספטמבר 2010.
{{cite conference}}
: (עזרה)(באנגלית) - Dellavalle, Robert P.; Hester, Eric J.; Heilig, Lauren F.; Drake, Amanda L.; Kuntzman, Jeff W.; Graber, Marla; Schilling, Lisa M. (2003). "Going, Going, Gone: Lost Internet References". Science. 302 (5646): 787–788. doi:10.1126/science.1088234. PMID 14593153. S2CID 154604929. (באנגלית)
- Koehler, Wallace (1999). "An Analysis of Web Page and Web Site Constancy and Permanence". Journal of the American Society for Information Science. 50 (2): 162–180. doi:10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B. (באנגלית)
- Sellitto, Carmine (2005). "The impact of impermanent Web-located citations: A study of 123 scholarly conference publications" (PDF). Journal of the American Society for Information Science and Technology. 56 (7): 695–703. CiteSeerX 10.1.1.473.2732. doi:10.1002/asi.20159. (באנגלית)
קישורים חיצוניים
[עריכת קוד מקור | עריכה]הערות שוליים
[עריכת קוד מקור | עריכה]- ^ Nelson, Michael L.; Allen, B. Danette, "Object Persistence and Availability in Digital Libraries", D-Lib Magazine, 2002
- ^ A Large-Scale Study of the Evolution of Web Pages, www2003.org
- ^ ZOMDir, The half-life of a link is two year
- ^ 1 2 Wallace Koehler, A longitudinal study of Web pages continued: a consideration of document persistence, www.informationr.net (באנגלית)
- ^ S. Lawrence, D.M. Pennock, G.W. Flake, R. Krovetz, F.M. Coetzee, E. Glover, F.A. Nielsen, A. Kruger, C.L. Giles, Persistence of Web references in scientific research, Computer 34, 2001-03, עמ' 26–31 doi: 10.1109/2.901164
- ^ The Decay and Failures of Web References, www.spinellis.gr
- ^ John Bowers, Clare Stanton, Jonathan Zittrain, What the ephemerality of the Web means for your hyperlinks, Columbia Journalism Review (באנגלית)
- ^ Megan Garber, 49% of the Links Cited in Supreme Court Decisions Are Broken, The Atlantic, 2013-09-23 (באנגלית)
- ^ 1 2 Aaron M. Adams, Xiang Chen, Weidong Li, Chuanrong Zhang, Normalizing the pandemic: exploring the cartographic issues in state government COVID-19 dashboards, Journal of Maps 19, 2023-12-31, עמ' 1–9 doi: 10.1080/17445647.2023.2235385
- ^ Matthew McGranaghan, The Web, Cartography and Trust, Cartographic Perspectives, 1999-03-01, עמ' 3–5 doi: 10.14714/CP32.624
- ^ Berners-Lee, Tim, "Cool URIs Don't Change", 1998
- ^ http://www.iwaw.net/05/papers/iwaw05-mccown1.pdf, web.archive.org, 2012-07-17
- ^ 1 2 Leighton Walter Kille, The Journalist's Resource October 9, 2015, The growing problem of Internet “link rot” and best practices for media and online publishers, The Journalist's Resource, 2015-10-09 (באנגלית אמריקאית)
- ^ Miguel-AngelSicilia,ElenaGarc´ıa-Barriocanal,SalvadorS´ anchez-Alonso,Juan-JoseCuadrado, Decentralized Persistent Identifiers: a basic model for immutable handlers, Science Direct, 2019, עמ' 123-130
- ^ Authoring Webpages/Preventing link rot - Wikibooks, open books for an open world, en.wikibooks.org (באנגלית)
- ^ Gunther Eysenbach, Mathieu Trudel, Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages, Journal of Medical Internet Research 7, 2005-12-30, עמ' e60 doi: 10.2196/jmir.7.5.e60
- ^ Jonathan Zittrain, Kendra Albert, Lawrence Lessig, Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations, Legal Information Management 14, 2014-06, עמ' 88–99 doi: 10.1017/S1472669614000255
- ^ Internet Archive: Digital Library of Free & Borrowable Books, Movies, Music & Wayback Machine, archive.org
- ^ Arweave - A community-driven ecosystem, arweave.org
- ^ justaddwater.dk | Software Eliminates User Errors And Linkrot (באנגלית אמריקאית)
- ^ FYI on Google Toolbar's latest features, Official Google Webmaster Central Blog (באנגלית)
- ^ Crawl Errors now reports soft 404s | Google Search Central Blog, Google for Developers (באנגלית)
- ^ Ziv Bar-Yossef, Andrei Z. Broder, Ravi Kumar, Andrew Tomkins, Sic transit gloria telae: towards an understanding of the web's decay, ACM, 2004-05-17, עמ' 328–337 doi: 10.1145/988672.988716