מנוע חיפוש – הבדלי גרסאות

מתוך ויקיפדיה, האנציקלופדיה החופשית
תוכן שנמחק תוכן שנוסף
אחידות קישורים
קישור פנימי לאלגוריתם חיפוש, והוספתו גם תחת פסקת "ראו גם".
שורה 22: שורה 22:
* '''מנוע איחזור''' - רכיב שמקבל שאילתא מהמשתמש, מאתר את התוצאות, ומאחזר קטעי מידע למשתמש
* '''מנוע איחזור''' - רכיב שמקבל שאילתא מהמשתמש, מאתר את התוצאות, ומאחזר קטעי מידע למשתמש


מנועי החיפוש נבדלים ומשתנים זה מזה בכל אחד מן הרכיבים: ב[[אלגוריתם]] של איתור הקבצים, בניית האינדקס, ואיחזור הנתונים.
מנועי החיפוש נבדלים ומשתנים זה מזה בכל אחד מן הרכיבים: ב[[אלגוריתם חיפוש|אלגוריתם החיפוש]] של איתור הקבצים, בניית האינדקס, ואיחזור הנתונים.


בשלב איתור הקבצים ישנם מנועי חיפוש שמאגרי המידע שלהם נבנים באופן אוטומטי, באמצעות סריקה של האינטרנט על ידי [[רובוט]], וישנם כאלו שה[[אינדקס אתרים|אינדקס]] שבו מקוטלג המידע אצלם נעשה בידי [[בן אדם|בני אדם]]. לעתים ישנם מקרים שבהם האיתור הוא חצי אוטומטי, וישנה מעורבת אנושית בחלק מהמקרים כמו למשל ב[[גוגל (מנוע חיפוש)|מנוע החיפוש גוגל]].
בשלב איתור הקבצים ישנם מנועי חיפוש שמאגרי המידע שלהם נבנים באופן אוטומטי, באמצעות סריקה של האינטרנט על ידי [[רובוט]], וישנם כאלו שה[[אינדקס אתרים|אינדקס]] שבו מקוטלג המידע אצלם נעשה בידי [[בן אדם|בני אדם]]. לעתים ישנם מקרים שבהם האיתור הוא חצי אוטומטי, וישנה מעורבת אנושית בחלק מהמקרים כמו למשל ב[[גוגל (מנוע חיפוש)|מנוע החיפוש גוגל]].
שורה 76: שורה 76:


==ראו גם ==
==ראו גם ==
* [[אלגוריתם חיפוש]]
* [[מאגר תורני]]
* [[מאגר תורני]]
* [[פרויקט השו"ת]]
* [[פרויקט השו"ת]]

גרסה מ־07:17, 28 במאי 2015

חיפוש מבוסס אינדקס

מנוע חיפוש הוא מערכת אחזור מידע המעוצבת כדי לאתר מידע דיגיטלי (קבצים או תוכן) המאוחסן במערכת המחשב. צורת החיפוש הנפוצה והגלויה ביותר כיום היא מנועי חיפוש אינטרנטיים, אך היא שימושית גם במחשבים מקומיים, למשל: באיתור קובץ במחשב האישי, או בשימוש במאגרי מידע מקומיים, כמו מאגרי פסקי דין או ספרי יהדות הנמצאים על גבי תקליטור.

מנוע חיפוש מנגיש מידע למחפש, עוזר לצמצם את הזמן הנדרש כדי למצוא מידע, ועוזר להתגבר על הצפת המידע הקיימת כיום במדיה הדיגיטלית. בעזרת מנוע חיפוש ניתן למצוא מידע רב: ממסמכים ותמונות העוסקים בנושא מסוים, ועד מוצרים וזמני נסיעה בתחבורה הציבורית. עקרון הפעולה הבסיסי של מנוע חיפוש הוא שהלקוח ממלא שאילתא המציגה את המידע הנחוץ לו ושולח אותה לשרת, השרת מקבל את השאילתא ומפעיל יישום לביצוע הפעולה, תוך הפעלת אלגוריתמים שנועדו לסנן את התוצאות כך שיהיו רק בנושא שהלקוח מחפש. לסיום פעולתו מציג השרת את התשובה בפני המשתמש, בדרך כלל ברשימה.

היסטוריה

מנוע החיפוש הראשון נקרא "ארצ'י". הוא פותח בשנת 1990 על ידי אלן אמטאג, סטודנט באוניברסיטת מקגיל שבמונטריאול. מנוע החיפוש איפשר לחפש קבצים על שרתי FTP, שהיוו את פרוטוקול העברת הקבצים המרכזי באינטרנט באותה תקופה. בשנת 1991 פותח פרוטוקול "גופר" על ידי מארק מקהיל מאוניברסיטת מינסוטה. גופר סרק מסמכי טקסט שהיו מאוחסנים על שרתי FTP ויצר רשימות קונקורדנציה של המילים המופיעות בהן, החיפוש ברשימות אלה התבצע באמצעות התוכנות "ורוניקה" ו"ג'ארהד" (ששמותיהן היוו מחווה לשם ארצ'י - ורוניקה וג'ארהד הן דמויות בסדרת הקומיקס ארצ'י).

מנוע החיפוש הראשון שסרק את רשת המידע העולמית באמצעות זחלן (Crawler) היה Wandex. מנוע חיפוש זה, שאינו פועל כיום, פותח על ידי מתיו גריי מאוניברסיטת MIT בשנת 1993 ומטרתו הייתה למדוד את קצב הגידול של הרשת. באותה שנה פותח גם Aliweb, המנוע הוותיק ביותר שעדיין קיים. בשנת 1994 יצא לשוק WebCrawler, שהיה מנוע החיפוש הראשון ששילב חיפוש בטקסט שבגוף האתרים ולא רק בכותרות האתרים.

מנוע החיפוש המסחרי הגדול של התקופה היה לייקוס שפותח על ידי מייקל מלודין מאוניברסיטת קרנגי מלון. בעקבות הצלחתו של לייקוס פותחו מנועי חיפוש נוספים שהתחרו בשירותי הספריות שהיו נהוגים באותה תקופה לצורך חיפוש מידע.

מנועי חיפוש באינטרנט נבחנים על ידי הגולשים בעיקר לפי איכות התוצאות שהם מספקים [דרוש מקור: מה עם לחץ חברתי, פירסום, מיתוג, וכדו'?]. מאז שנת 2001 שולט מנוע החיפוש Google בשוק מנועי החיפוש.

מרכיבי מנוע החיפוש

מנוע חיפוש שולחני AutoFocus, שמשוחרר תחת רישוי של קוד פתוח. אחת המגבלות הבולטות של התוכנה, היא היעדר תצוגה מקדימה של התוכן המבוקש.

מנוע חיפוש מודרני יורכב בדרך כלל משלשה חלקים:

  • ספיידר - רכיב שמאתר את הקבצים הנמצאים במחשב האישי או במרחב האינטרנט ומחלץ את תוכנם
  • מנוע אינדקס - רכיב שמפרק את תכני המסמכים ויוצר מהם אינדקס לפי מילים
  • מנוע איחזור - רכיב שמקבל שאילתא מהמשתמש, מאתר את התוצאות, ומאחזר קטעי מידע למשתמש

מנועי החיפוש נבדלים ומשתנים זה מזה בכל אחד מן הרכיבים: באלגוריתם החיפוש של איתור הקבצים, בניית האינדקס, ואיחזור הנתונים.

בשלב איתור הקבצים ישנם מנועי חיפוש שמאגרי המידע שלהם נבנים באופן אוטומטי, באמצעות סריקה של האינטרנט על ידי רובוט, וישנם כאלו שהאינדקס שבו מקוטלג המידע אצלם נעשה בידי בני אדם. לעתים ישנם מקרים שבהם האיתור הוא חצי אוטומטי, וישנה מעורבת אנושית בחלק מהמקרים כמו למשל במנוע החיפוש גוגל.

בשלב של האינדקס, משתרע תחום רחב של ביצוע מטלה זו, החל ממנועי חיפוש שאין להם מנוע אינדקס כלל, והם מבצעים חיפוש ישיר בקבצים, ועד למנועי חיפוש, שיוצרים אינדקס מפורט, עד לשמירת התכנים בשלמותם פעם נוספת אצלם.

בשלב של איחזור המידע, יש מנועי חיפוש שמאחזרים תצוגה מקדימה של שורה או מספר שורות לכל תוצאה שהם מוצאים, ויש כאלו שמאחזרים שמות של קבצים או אתרים, שבהם נמצא התוכן, ללא כל תצוגה מקדימה. בדרך כלל השלב הראשון של איתור הקבצים ויצירת האינדקס נעלמים מעיני המשתמש, שמקבל רק את החלק של איחזור המידע.

מנועי חיפוש אינטרנטים

באינטרנט קיימים סוגים שונים של מנועי חיפוש. לצד מנועי החיפוש הכללים ישנם מנועי חיפוש בעלי התמחות מיוחדת. מנועי החיפוש האינטרנטים שואפים להנגיש את החיפוש באמצעות ממשק ידידותי ביחד עם שליפת התוצאות המקוות ביותר מצד המחפש. בצד חיפוש טקסטואלי יש למנועי חיפוש אלו יכולת לחפש תמונות, וליאהו קיימת אף חיפוש קטעי וידאו וניגונם מתוך מסך החיפוש. מנוע חיפוש ייחודי נוסף, לדוגמה, הוא טכנורטי, המתמחה בחיפוש דרך בלוגים. כיום אפשרות גישה למנועי חיפוש באינטרנט משולבת בדפדפנים האינטרנט, ואין צורך לגלוש לאתר כדי להפעיל את החיפוש. לעתים בדפדפנים משולבת אפשרות של חיפוש בהצבעה על מילה, ולחיצה על תפריט של עכבר ימני.

היסטוריית חיפוש

מנועי חיפוש מנסים לזהות את המשתמש שמבצע את החיפוש (למשל בעזרת עוגייה בדפדפן), ולהציע לו תוצאות יותר רלוונטיות, לפי חיפושים קודמים של אותו משתמש, או לפי מידע אחר שנצבר במנוע החיפוש אודות המשתמש. משתמשים שנרשמים במנוע החיפוש (למשל בעזרת "סרגל כלים" מיוחד לחיפוש), מזוהים גם בחיפושים שמבוצעים על פני דפדפנים שונים, והתאמת התוצאות יכולה להיות הדוקה יותר, משום שמנוע החיפוש יודע יותר על המשתמש. בגלל הפגיעה בפרטיות, מציעות חלק מהחברות דרכים להסרת ההיסטוריה.[1]

דף תוצאות החיפוש

בדף תוצאות החיפוש, מציג מנוע החיפוש למחפש את תמצית התוצאות שהניב החיפוש. על פי רוב מכיל דף זה כותרת שהיא קישור לדף האינטרנט או למסמך שנמצא וכן חלקי טקסט ובהם משפט או שניים שאמורים להסביר למחפש מדוע נבחר הדף או המסמך להכלל בין התשובות שקיבל (בדר"כ מודגש).

במנועי חיפוש שונים ניתן למצוא לעתים מידע נוסף על המסמך כגון גודל המסמך, כתובת המסמך וכן "מטמון" שהוא תמצית המסמך כפי שהיא נרשמה על ידי הבוט בפעם האחרונה שביקר בדף.

במנוע חיפוש המתקיים מפרסומת שהוא מציג, מוצגים בדרך כלל שלושה סוגים של תוצאות:

  • Pay-Per-Click advertising - פרסומות משולבות בראש התוצאות.
  • תוצאות החיפוש – שהן התוצאות ה-"טבעיות" שהחזיר המנוע בתגובה למילות החיפוש שהוזנו על ידי המחפש.
  • פרסומות בצד העמוד.

בעלי אתרים מייחסים חשיבות רבה למיקום האתר שלהם בתוצאות החיפוש שכן למיקום בדף החיפוש יש השפעה מכרעת על כמות הגולשים שיגיעו לאתר ממנוע החיפוש. מאחר שאפקטיביות של האתר (פרסום, ביצוע מכירה וכדומה) תלויה בכמות המבקרים בו, נוצרת תחרות עזה בין האתרים השונים על המיקום בדף התוצאות. הפעילות של חברות העוסקות בקידום אתרים במנועי חיפוש באה לשפר את מיקומו של האתר בדף התוצאות.

מצד שני מנועי החיפוש פועלים כל הזמן לשפר את תוצאות החיפוש ומנסים לאתר ניסיונות התערבות לא "טבעית" בתוצאות. לעתים קורה שמנועי החיפוש אף "מענישים" אתר שבו הם חושדים שמתקיימת פעילות קידום לא הוגנת בכך שהם מרחיקים את האתר מקדמת תוצאות החיפוש אף מעבר למקום שהיה זוכה לו בלי כל התערבות.

מחקרים רבים עוסקים בנושא ההטייה במנועי החיפוש, ביניהם מחקרים של החוקר הישראלי ד"ר אלעד שגב מאוניברסיטת תל אביב.

גמישות לשונית

אחת התכונות הבסיסיות שעל מנוע חיפוש לספק היא גמישות לשונית, אם כי מנועי חיפוש רבים עדיין אינם מצוידים בתכונה זו. גמישות לשונית היא יכולתו של מנגנון החיפוש להתגבר על בעיות הקשורות בשפה הטבעית, כגון כתיב מלא וכתיב חסר, יחיד ורבים, טעויות כתיב קלות וכדומה.

רוב מנועי החיפוש לא מאפשרים גמישות במילות החיפוש. משמעות הדבר היא שמנוע החיפוש מוצא רק דפים בהם מופיעות כל המילים הזהות למילות החיפוש. Google באנגלית - ובעברית, הוא בעל יכולת כזו במידה מסוימת. חיפוש wikipedya, למשל, גורם ל-Google לשאול "Did you mean: wikipedia". בעברית, לדוגמה, אם נקליד "מילחמה", גוגל ישאל אותנו אם התכוונו ל"מלחמה".

נאמנות למנוע חיפוש ספציפי

אחת השאלות המרכזיות ביחס למנועי החיפוש היא מה גורם לאדם לפתח נאמנות למנוע חיפוש ספציפי זה או אחר. מחקרים שנערכו לאחרונה מלמדים שגולשי אינטרנט מפתחים נאמנות למנוע חיפוש ספציפי, בעיקר בשל שירותים נוספים שהוא מספק ואשר מסונכרנים עם יכולת החיפוש.[2] לדוגמה, מנוע החיפוש גוגל מספק שורה ארוכה של שירותים מסונכרנים לחיפוש כמו: שירותי התראות, דואר אלקטרוני, העלאת קבצים לרשת, פתיחה וניהול של בלוגים ועוד. הרציונל שבני אדם מפתחים נאמנות למנוע חיפוש בשל השירותים הנוספים שהוא מספק, מסביר היטב מדוע גוגל רכשה את אתר האינטרנט youtube. למעשה, באמצעות רכישה זאת, גוגל מצפה לחזק ולפתח את נאמנות גולשי האינטרנט למנוע החיפוש שלה, וזאת על ידי הענקת שירות חדש של סרטי וידאו המסונכרנים לחיפוש בגוגל.

מנוע על

מנוע על (meta-search engine) הוא מנגנון שלוקח שאילתה ממשתמש קצה, שולח אותה במקביל למספר מנועי חיפוש ומחזיר תוצאות מכל אחד ממנועי החיפוש. בהתחשב בכך שאין מנוע חיפוש שמסוגל לקטלג את כל האתרים ברשת האינטרנט, היתרון של מנוע העל הוא ביכולתו להחזיר תוצאות רבות יותר מאשר מנוע חיפוש יחיד. החיסרון של מנועי העל הוא במספר הגדול של תוצאות לא-רלוונטיות שהוא מחזיר לעומת מנוע חיפוש בודד - בעיה אשר איתה ניתן להתמודד דרך ניסוח של שאילתות ממוקדות ושימוש באלגוריתם שיסנן את התוצאות הלא רלוונטיות או ידחוק אותן לסוף רשימת התוצאות.

מנועי על הם מנועים טפיליים - הם לא מכילים בסיס נתונים משל עצמם, אלא משתמשים בבסיסי נתונים של מנועים אחרים. הקושי בבניית אלגוריתם למנוע על הוא בסידור תוצאות החיפוש של המנועים השונים לפי רלוונטיות, כאשר לכל מנוע יש שיטה שונה לדרוג האתרים. בנוסף לכך, מכיוון שלכל מנוע חיפוש יש שיטה שונה במקצת לניסוח שאילתות, האלגוריתם של מנוע העל צריך 'לתרגם' את השאילתה של המשתמש כך שתתאים לכל אחד ממנועי החיפוש. כתוצאה מכך, מנוע העל לא יכול לנצל את כל אפשרויות החיפוש של המנועים השונים (לדוגמה, כאשר במנוע חיפוש אחד יש אפשרות שלא קיימת בשאר המנועים).

מנועי חיפוש שולחניים

תפקידם של מנועי החיפוש השולחניים לגרום להאצה ומידיות בחיפוש של קבצים ותכנים במחשב האישי. בשוק קיימים מספר רב של תוכנות אלו, בין מנועי החיפוש העיקריים כיום: גוגל דסקטופ, יאהו דסקטופ סרץ, חלונות דסקטופ סרץ, קופרניק דסקטופ סרץ, ISYS דסקטופ סרץ, dtSearch ואוטופוקוס (שהוא היחיד ביניהם שמשוחרר ברישיון של קוד פתוח). כל מנועי חיפוש אלו, סורקים את הקבצים השונים הנמצאים בדיסק הקשיח (או בחלקו) ויוצרים להם אינדקס, שבו נרשמים וממויינים התכנים, כך שהם נעשים נגישים לחיפוש.

ההבדלים בין תוכנות החיפוש הם רבים, ונוגעים לצורת הממשק, קלות השימוש, הנגשה של המידע (באמצעות תצוגה מקדימה של המשפטים שבהם קיימת מחרוזת החיפוש), גמישות של החיפוש (חיפוש בוליאני מתקדם, חיפוש לפי שורשים), סוגי הקבצים שהן יודעות לקרוא ומתייחסות אליהם, שליטה על מנגנון האינדקסים וגמישות בתפעולו, מהירות יצירת האינדקסים, העמסה על משאבי המחשב, בטיחות המידע (יש ביניהן שמצפינות את האינדקס), תימחור של התוכנות (יש ביניהן בחינם), תמיכה בשפות זרות (כולל עברית) ועוד פרמטרים רבים.

כמו כן, קיימים מנועי חיפוש שולחניים שמחפשים ישירות בקבצים ללא יצירת אינדקס. תוכנות אלו בדרך כלל אינן יעילות בחיפוש במסות גדולות של חומר או בכל המחשב האישי, ועיקר שימושן הוא בחיפוש ממוקד בספריה מסוימת, כאשר התוכן אינו רב מדי.

ראו גם

לקריאה נוספת

  • ג'ון בטל, החיפוש – כיצד גוגל ומתחרותיה שינו את פני התרבות וכתבו מחדש את חוקי עולם העסקים, הוצאת "עברית" ו"כתר", 2006.
  • Allan Hanson, From classification to indexing: How automation transforms the way we think, in: Social Epistemology, Volume 18, Number 4, October-December 2004 , pp. 333-356. (באנגלית) (אבסטרקט)

קישורים חיצוניים

הערות שוליים