רב-מנוע

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה לניווט קפיצה לחיפוש

רב-מנוע, המכונה גם "מנוע על" הוא מנגנון שלוקח שאילתה ממשתמש קצה, שולח אותה במקביל למספר מנועי חיפוש ומחזיר תוצאות מכל אחד ממנועי החיפוש.[1][2] כל המידע והנתונים שנאספים מוצגים למשתמש על פי המדרגים שלהם. בגלל ריבוי אתרי האינטרנט ומנועי חיפוש השונים זה מזה, תוצאות החיפוש עלולות לכלול מסמכים לא רלוונטיים. בעיות נוספות כוללות דואר זבל, שגורם לחוסר דיוק משמעותי בתוצאות החיפוש[3] תהליך ההיתוך שואף להתמודד עם בעיה זו ולשפר את המנוע.[4] ישנם סוגים רבים של מנועי על, ביניהם Savvysearch ומנוע Metaseek.

היסטוריה[עריכת קוד מקור | עריכה]

דניאל דרלינגר מאוניברסיטת קולורדו, הגה את רעיון הרב-מנוע. הוא השיק מנוע בשם SearchSavvy, המאפשר למשתמשים לחפש מידע בו-זמנית ב-20 מנועי חיפוש וספריות שונות. החיפוש היה מהיר אך הוגבל לכדי חיפושים פשוטים בלבד, ולכן ניתן לו שם של מנוע חיפוש לא אמין. אריק סלברג מאוניברסיטת וושינגטון, בנה גרסה מעודכנת יותר למנוע, בשם "זחלן על" – Metacrawler. מנוע החיפוש הוסיף תחביר משל עצמו כך שזה שיפר את דיוקו. החיבור בין התחביר לבין התוצאה שהתקבלה במנועי החיפוש הפכה את התוצאות למדויקות. סלברג צמצם את כמות מנועי החיפוש ל-6 מנועים בלבד, ועל אף שהתקבלו תוצאות מדויקות יותר, המנוע לא נחשב למדויק כמו חיפוש שאליתות במנועים בודדים או פרטיים.[5]

מנוע על נוסף בשם HotBot נוצר ב-1996. תוצאות החיפוש של המנוע שבזמנו היה בבעלות Wired הגיעו מ-Inktomi וממסד הנתונים של Direct Hit. החיפוש היה מהיר ובנוסף המנוי היה מסוגל לבצע חיפוש בתוך תוצאות החיפוש שכבר נעשו בו. Lycos קנו את המנוע בשנת 1998 אך פיתוח המנוע נכשל ונתח השוק שלו ירד בצורה דרסטית. לאחר שעבר כמה שינויים עוצב HotBot מחדש, עם ממשק חיפוש פשוט, כשהתכונות שלו שולבו מחדש בתוך האתר של lycos.[6]

lxquick הוא מנוע חיפוש הידוע עקב מדיניות הפרטיות שלו. המנוע פותח ושוחרר בשנת 1998 על ידי דויד בודניק. החל משנת 2000 עבר המנוע לידי בעלותה של Surfboard Holdin BV . ב-2006 החל המנוע למחוק את נתוני הפרטיות של משתמשיו, בדומה לתהליך שבוצע ב-Scroogle (תוסף פרטיות לחיפוש בגוגל שנסגר ב-2012). מדיניות הפרטיות של lxquick כוללת חוסר תיעוד של כתובות ה-IP של משתמשיו, אי שימוש ב-cookies אשר מזהים את המשתמשים, והימנעות מאיסוף ושיתוף המידע האישי עם גורמי צד שלישי. במנוע זה צורת דירוג האתרים נעשית בשיטת הכוכבים, כלומר המשתמשים מדרגים את האתרים, ככל שאתר מקבל מספר כוכבים גבוה יותר זה מראה שהגולשים מצאו אותו כאמין ואיכותי יותר, ובגלל זה הדירוג שלו גבוה יותר.[7]

התרבות מקורות המידע מרשתות חברתיות הביא להתפתחות מנועי חיפוש ייעודים המאפשרים חיפוש בהם. אחד ממנועי חיפוש אלה הוא Social Searcher שמחפש בו-זמנית בכמה וכמה רשתות חברתיות ומציג את הממצאים בלוח תצוגה מאוחד. המידע שהמנועים האלו מקבלים ממשתמשים נעשים תוך כדי זה שהם שולחים שאילתות שונות לצד שלישי, בשביל לקבל תוצאות מספקים שונים.

יתרונות[עריכת קוד מקור | עריכה]

בהתחשב בכך שאין מנוע חיפוש שמסוגל לקטלג את כל האתרים ברשת האינטרנט, יתרונו של מנוע העל הוא ביכולתו להחזיר תוצאות רבות יותר מאשר מנוע חיפוש יחיד. על ידי שליחת שאילתות למספר מנועי חיפוש, אפשר להרחיב את פריסת החיפוש, דבר התורם במציאת מידע רב יותר. המנוע משתמש במדדים שפותחו על ידי מנועי חיפוש אחרים. הוא מכנס, ולעיתים קרובות גם מעבד תוצאות בדרכים ייחודיות. מנוע העל מאחזר יותר תוצאות עם אותה כמות של מאמץ ביחס למנוע חיפוש יחיד.[2] נוסף על כך, המנוע חוסך את המאמץ של חיפוש במנועים שונים ואחרים כדי לאחזר מקורות שונים וכך מפחית את העבודה של המשתמש[2]. אם המטרה של המשתמש היא לקבל סקירה כללית של הנושא או לאחזר תשובות במהירות, אז הרב-מנוע עונה על גישה זאת. במקום להשתמש במנועי חיפוש מרובים כמו יאהו או גוגל ולהשוות תוצאות, מנועי העל מסוגלים לאסוף את כל המידע ולשלב תוצאות במהירות. הם יכולים לעשות את זה גם על ידי רישום תוצאות של כל שאילתה של המנוע ללא עיבוד נוסף, או על ידי ניתוח תוצאות ודירוגם לפי הכללים שלהם (IxQuick, Metacrawler, ו-Vivismo).[8]

חסרונות[עריכת קוד מקור | עריכה]

חסרונם העיקרי של מנועי-העל הוא במספר הגדול של תוצאות לא-רלוונטיות שהם מחזירים לעומת מנוע חיפוש בודד. ניתן להתמודד עם בעיה זו על ידי ניסוח של שאילתות ממוקדות ושימוש באלגוריתם שיסנן את התוצאות הלא-רלוונטיות או ידחק אותן לסוף רשימת התוצאות.

מנועי העל אינם מסוגלים לפענח טפסי שאילתה או לתרגם תחביר שאילתה מלא. מספר הקישורים שנוצרו על ידי מנועי העל מוגבלים, ולכן הם אינם מספקים למשתמש את התוצאות המלאות של השאילתה.[דרוש מקור] חיסרון נוסף הוא שרוב מנועי העל אינם מספקים יותר מעשרה קבצים מקושרים ממנוע חיפוש אחד, ואינם נעזרים במנועי חיפוש גדולים יותר לקבלת תוצאות. בנוסף, ניתנת קדימות לדפי אינטרנט ממומנים המוצגים ראשונים.[9]

חיפוש ברב-מנוע יוצר אשליה של כיסוי רב יותר של נושא השאילתה, בייחוד אם המידע אותו מחפש המשתמש הוא מידע פופולרי. ישנה שכיחות בקבלת תוצאות זהות רבות ממנועי השאילתה. בנוסף, למשתמשים יש קושי וחוסר ידע בביצוע חיפוש מתקדם, כך שלרוב יתבצע \חיפוש ברב-מנוע, וכתוצאה מכך התוצאות שמתקבלות הן לא מדויקות כמו בחיפוש מתקדם שנעשה במנוע חיפוש יחיד.

צורת הפעלה[עריכת קוד מקור | עריכה]

הרב-מנוע מקבל בקשת חיפוש יחידה מהמשתמש. בקשת החיפוש עוברת אל מאגרי מידע של מנועי חיפוש נוספים. הרב-מנוע אינו יוצר מסד נתונים לדפי אינטרנט, כי אם מסד נתונים וירטואלי כדי לשלב נתונים ממספר מקורות.[10][11][12] מאחר שכל מנוע חיפוש הוא ייחודי ובעל אלגוריתמים שונים המאפשרים לו ליצור מידע מדורג ייווצרו ערכים כפולים. ובכדי להסיר כפילויות "מנוע העל" מעבד את המידע ומפתח אלגוריתם משלו, כך בעצם נוצרת רשימה מעודכנת נטולת כפילויות עבור המשתמש.[13][14]

מנועי החיפוש יגיבו בשלוש דרכים, כאשר "מנוע על" יוצר קשר עם מנועי חיפוש אחרים:

  1. הם ישמשו כממשק ל"מנוע העל" וישתפו פעולה ביניהם, כמו גם גישה פרטית אל מסד הנתונים של האינדקס ושליחת עדכונים אל "מנוע העל" אם יבוצעו שינויים כלשהם באותו מסד נתונים.
  2. מנועי החיפוש עשויים לעבוד ללא שיתוף פעולה, הם לא ימנעו גישה או יספקו גישה כלשהי לממשקים.
  3. מנועי החיפוש יכולים להיות עוינים לחלוטין ולמנוע מ"מנוע העל" את הגישה למסד הנתונים שלהם. בנסיבות חמורות יעשו זאת על ידי שימוש בשיטות משפטיות.[14]

ארכיטקטורת הדירוג[עריכת קוד מקור | עריכה]

כאשר דף אינטרנט מקבל דירוג גבוה ממשתתפים במנועי חיפוש רבים, כך המידע שנמצא בו יותר רלוונטי ומשמעותי למשתמש. אולם, לכל מנוע חיפוש יש שיטה שונה לדרוג האתרים האחד מהשני, לכן אתר מסוים עשוי לקבל דירוג גבוה במנוע חיפוש אחד ודירוג נמוך באחר. בנוסף לכך, מכיוון שלכל מנוע חיפוש יש שיטה שונה בשביל לנסח שאילתות, האלגוריתם של מנוע-העל צריך 'לתרגם' את השאילתה של המשתמש כך שיצליח להתאים לכל אחד ממנועי החיפוש. כתוצאה מכך, מנוע-העל לא יכול לנצל את כל אפשרויות החיפוש של המנועים השונים (לדוגמה, כאשר במנוע חיפוש אחד יש אפשרות שלא קיימת בשאר המנועים. בנוסף, כל מנוע חיפוש אוסף מקורות דירוג שונים לכל אתר וברוב הפעמים מקורות המידע אינם זהים. מדובר בבעיה משום ש"מנועי העל" מסתמכים על עקביות המידע של הדירוג על מנת ליצור חשבונות אמינים.

ספאמדקסינג[עריכת קוד מקור | עריכה]

ספאמדקסינג היא מניפולציה מכוונת המתבצעת על ידי המפתח (האינדקס) של מנועי החיפוש, המשתמשת בכמה שיטות בשביל לתמרן את התוצאות הרלוונטיות או התוצאות הבולטות ביותר מקישורי המפתח, והתוצאות אינן מסודרות על פי הנוסח הרצוי. ספאמדקסינג יכול להיות מאוד מתסכל עבור המשתמשים ובעייתי למנועי החיפוש והסיבה היא שהתוכן המאוחזר של החיפוש מספק תוצאות לא מדויקות או לא רלוונטיות לחלוטין.[15] בסופו של דבר מנוע חיפוש כזה יהיה חסר תועלת ולא אמין למשתמש. על מנת לטפל בבעיה הופכים את האלגוריתמים של מנועי החיפוש למורכבים יותר ודואגים לשנות אותם בתדירות יומית.[16] מדובר באחת הבעיות המרכזיות עבור "מנועי על" מכיוון שהמניפולציה מחבלת במילות המפתח העיקריות של מנועי החיפוש השונים, אשר מסתמכים על פורמט רשימות דירוג. ספאמדקסינג מתמרן את מערכת הדירוג הטבעית של מנועי החיפוש, כך שאתרים מסוימים מקבלים דירוג גבוה יותר מהדירוג האמיתי שלהם בפועל.[17]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

ויקישיתוף מדיה וקבצים בנושא רב-מנוע בוויקישיתוף

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Sandy Berger, Great Age Guide to the Internet, Que Publishing, 2005
  2. ^ 2.0 2.1 2.2 Eric J. Glover, Steve Lawrence, William P. Birmingham, C. Lee Giles, Architecture of a Metasearch Engine that Supports User Information Needs, Proceedings of the Eighth International Conference on Information Knowledge Management, 1999
  3. ^ Stephen R. Lawrence, C. Lee Giles, Meta search engine, בדיקה אחרונה ב-10 במאי 2017 
  4. ^ E. M. Voorhees, Narendra K. Gupta, and Ben Johnson-Laird, The collection fusion problem, NIST SPECIAL PUBLICATION SP, 1995
  5. ^ The Meta-search, אתרשיווק
  6. ^ HotBot: A brief history of the HotBot search engine
  7. ^ ABOUT US - Our history, classic.startpage.com
  8. ^ Chris Sherman, Metacrawlers and Metasearch Engines, Search Engine Watch, ‏23 מרץ 2005
  9. ^ Intelligence Exploitation of the Internet, ‏אוקטובר 2002
  10. ^ WEIYI MENG, Metasearch Engines, ‏2008
  11. ^ Erik Selberg, Oren Etzioni, The MetaCrawler Architecture for Resource Aggregation on the Web, ‏1997
  12. ^ Manoj M. and Elizabeth Jacob, Design and Development of a Programmable Meta Search Engine, International Journal of Computer Applications, 2013
  13. ^ Biraj Patel, Dipti Shah, RANKING ALGORITHM FOR META SEARCH ENGINE, International Journal of Advanced Engineering Research and Studies, 2012
  14. ^ 14.0 14.1 Manoj, M. and Elizabeth, Jacob, Information retrieval on Internet using meta-search engines: A review, CSIR, 2008
  15. ^ Al-Kabi, M., Wahsheh, H. and Alsmadi, I., An Online Arabic Web Spam Detection System, International Journal of Advanced Computer Science and Applications, 2014
  16. ^ Marc Najork, Web Spam Detection, Encyclopedia of Database Systems, 2009
  17. ^ Vandendriessche, G., A FEW LEGAL COMMENTS ON SPAMDEXING, ‏2009