reCAPTCHA

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
סמליל מערכת reCAPTCHA

reCAPTCHA היא מערכת שפותחה לראשונה באוניברסיטת קרנגי מלון, אשר מטרתה היא לסייע בהמרת טקסטים מודפסים לפורמט דיגיטלי, תוך שימוש ב-CAPTCHA (מנגנון המשמש להגנה על אתרי אינטרנט מפני בוטים). בספטמבר 2009 נרכשה reCAPTCHA על ידי גוגל. נכון לשנת 2012, הפרויקט אותו מובילה reCAPTCHA הוא המרת כל גיליונות העיתון "ניו יורק טיימס" לפורמט דיגיטלי. בנוסף, היא מסייעת לפענח מילים מספרים שנסרקו במסגרת פרויקט גוגל ספרים.

רקע[עריכת קוד מקור | עריכה]

אחת הבעיות בהמרת טקסטים לפורמט דיגיטלי באמצעות תוכנות לזיהוי תווים אופטי (OCR), היא שלעתים קרובות, תוכנות אלה אינן מצליחות לזהות מילים מסוימות בטקסט אותו הן סורקות, למשל, בשל דהייה או "מריחה" של המילה המודפסת (במקרים רבים הטקסט הנסרק הוא ישן מאוד. לדוגמה: גיליונות העיתון "ניו יורק טיימס" הראשונים יצאו לאור ב-1851).

כדי להתגבר על הבעיה, יש צורך בזיהוי המילה על ידי גורם אנושי. לצורך כך, מערכת reCAPTCHA מספקת לאתרים הרשומים לפרויקט (הרישום לפרויקט הוא חופשי), תמונות של מילים סרוקות אשר לא זוהו על ידי התוכנה. אתרים אלה מציגים את התמונה לגולשיהם כחלק ממנגנון ה-CAPTCHA הרגיל שלהם. הגולשים מזהים את המילים הסרוקות, והתוצאות מועברות בחזרה למערכת reCAPTCHA.

נכון לשנת 2011, המערכת מסייעת בזיהוי של כ-100 מיליון מילים מדי יום. בין האתרים הגדולים העושים שימוש במערכת ניתן למצוא את פייסבוק, טוויטר ו-TicketMaster.

שיטת העבודה[עריכת קוד מקור | עריכה]

בסריקת טקסט מודפס והמרתו לטקסט דיגיטלי, נהוג להשתמש בשתי תוכנות שונות לזיהוי תווים אופטי. במקרה ובו אין התאמה בין תוצאות הזיהוי של שתי התוכנות, מומרת המילה הסרוקה ל-CAPTCHA. המילה הסרוקה מוצגת לגולש בצמוד למילת בקרה, אשר זהותה ידועה. המערכת מניחה כי אם זיהה הגולש נכונה את מילת הבקרה, הרי שהוא זיהה נכונה גם את המילה שבמחלוקת.

זיהוי שבוצע על ידי כל אחת מתוכנות זיהוי התווים, מקנה למילה חצי נקודה, וזיהוי על ידי גורם אנושי מעניק למילה נקודה אחת. כאשר מילה מסוימת צוברת 2.5 נקודות, המערכת רואה בה מילה שפוענחה. מילים שצברו מספר רב של נקודות זיהוי, "ממוחזרות" ומשמשות כמילות בקרה.

לקריאה נוספת[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

ויקישיתוף מדיה וקבצים בנושא ReCAPTCHA בוויקישיתוף