גוגל ספרים

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
גוגל ספרים
U8888Kntitled.jpg
Google Books Hamlet.png

הצגה של ספר ב"תצוגה מלאה"
סוג: ספרייה מקוונת
הקמה: דצמבר 2004
מייסדים: לארי פייג' וסרגיי ברין
בעלות: גוגל (חברה)
הרשמה: אופציונלי
books.google.co.il

גוגל ספריםאנגלית: Google Books)‏[1] הוא שירות רב-לשוני של גוגל לעריכת חיפושי טקסט בספרים שגוגל סרקה, המירה לטקסט באמצעות זיהוי תווים אופטי ואחסנה במסד הנתונים הדיגיטלי שלה. השירות נודע בעברו כ-Google Print (דפוס גוגל), השם בו הוצג ביריד הספרים בפרנקפורט באוקטובר 2004. את שמו הנוכחי, Google Book Search, קיבל עת הוכרז רשמית בדצמבר 2004. בדצמבר 2010 השיק האתר את חנות הספרים האלקטרוניים Google eBookstore.

רקע[עריכת קוד מקור | עריכה]

היוזמה זכתה לתשבחות רבות בזכות הפוטנציאל הגלום במתן גישה חסרת תקדים למה שיכול להפוך לקורפוס המקוון הגדול ביותר של הידע האנושי,‏[2][3] ובקידום הדמוקרטיזציה של הידע[4]. אולם האתר אינו חף גם מביקורת על פוטנציאל הפרות זכויות יוצרים הקיים בו‏[4][5]

תוצאות מ"גוגל חיפוש ספרים" מופיעות בחיפוש כללי באינטרנט הן בכתובת google.com והן דרך אתר ייעודי של גוגל ספרים: (books.google.com). בחיפוש כללי באתר גוגל עשויות להופיע עד שלוש תוצאות מהאינדקס של גוגל ספרים, ובמקרים רלוונטיים, הן יופיעו מעל תוצאות החיפוש האחרות.

לחיצה של משתמשי השירות על תוצאה ב"גוגל ספרים" תפתח בפניהם ממשק בו יכול המשתמש לעיין בדפים מתוך הספר, כאשר חוקי זכויות יוצרים או בעל זכויות היוצרים מאפשרים זאת. ספרים הנמצאים ברשות הציבור (בארצות הברית) זמינים ל"תצוגה מלאה" ולהורדה בחינם. גוגל מגבילה את מספר העמודים הניתנים לצפייה עבור ספרים שעדיין מודפסים, באמצעות מגוון רחב של מגבלות גישה ואמצעי אבטחה, שחלקם מבוססים על מעקב אחר המשתמש‏[6] מספרים שבעליהם לא זוהו והעשויים להיות מוגנים בזכויות יוצרים, ניתן לצפות רק בקטע מזערי של כ-2-3 שורות, אך הטקסט המלא של הספר זמין לחיפוש.

לצד תוצאות החיפוש מופיעות פרסומות הקשורות לתוכן החיפוש, אך הן לא מופיעות ליד ספרים הנצפים בתצוגה מקדימה. האתר מספק קישורים לאתר האינטרנט של המוציא לאור ומוכרי ספרים.

מסד הנתונים של "גוגל ספרים" מוסיף להתרחב, אך היות שגוגל חייבת לוודא שהיצירות מעוגנות בחוקי הזכויות יוצרים המקומיים, הוא אינו נגיש במלואו עבור משתמשים מחוץ לארצות הברית. לדברי איש צוות התמיכה של האתר, "מאחר שהשאלה אם ספר מסוים נמצא ברשות הציבור היא לעתים קרובות שאלה משפטית סבוכה, אנו נוקטים במשנה זהירות ומציגים לכל היותר מספר קטעי טקסט עד אשר נקבע כי הספר יצא לנחלת הכלל"‏[7] עם זאת, משתמשים מחוץ לארצות הברית יכולים לגשת למספר גדול של ספרים הנמצאים ברשות הציבור ונסרקו על ידי גוגל, באמצעות עותקים המאוחסנים בארכיון האינטרנט[8].

בשנת 2010 העריכה גוגל שמספר הספרים בעולם כולו עומד על כ-130 מיליון ספרים ייחודיים (129,864,880 ליתר דיוק, כ-20 אחוז מתוכם נמצאים ברשות הציבור). מנהל הנדסה בפרויקט מסר כי גוגל מתכוונת לסרוק את כולם בתוך עשור, והם יסתכמו בלמעלה מ-4 מיליארד דפים דיגיטליים ו-4 טריליון מילים. ב-14 באוקטובר 2010 הוצגו באתר מעל 15 מיליון ספרים סרוקים‏[9] רובם הגדול ספרים שאינם מודפסים יותר או שאזלו מחנויות הספרים (בארצות הברית, בריטניה או אוסטרליה)‏[10]. למרות זאת, משתמשי השירות מעיינים בלא פחות מ-80 אחוז מתוך 15 מיליון הספרים הדיגיטליים הללו לפחות פעם חודש‏[11].

בארכיון האתר זמינים בתצוגה מלאה או חלקית מספר רב של חיבורים בשפה העברית, חלקם ספרי קודש מהמאה ה-12 ואילך.

אופן הסריקה[עריכת קוד מקור | עריכה]

חלק גדול מהספרים נסרקים באמצעות מנגנון סריקה המורכב משתי מצלמות מהירות המצלמות את תוכן הדף, וממצלמת אינפרא אדום המצלמת את ממדי הדף, על מנת שהמחשב המצורף למערכת יוכל לחשב היכן הדף עקום (בדרך כלל באזור הכריכה) ולתקן בהתאם. כדי למנוע תופעות של דילוג על דפים בטעות במהלך תהליך הדפדוף המייגע, גוגל פיתחה מערכת המשמיעה צליל במרווחי זמן קבועים שאמורים להעניק למפעיל המערכת תחושת קצב בעלעול הדפים. המערכת עשויה גם להשמיע צליל שגיאה במקרה דילוג או כשידו של המפעיל נמצאת בתוך התמונה‏[12].

חלק מהמצלמות הנמצאות בשימוש בגוגל סורקות בתדירות של 1,000 עמודים לשעה, ובאיכות של 11 מגה פיקסל לכל עמוד‏[13] באוניברסיטת סטנפורד, אחת משותפותיה של גוגל בפרויקט הסריקה, נעשה שימוש במפעיל אנושי המניח את הספר על משטח יציב, כאשר רובוט פנאומטי הופך את הדפים - בעדינות מספקת כדי לטפל בספרים נדירים - תחת עיניה הסורקת של המצלמה הדיגיטלית.

בספטמבר 2009 רכשה גוגל את reCAPTCHA, שעושה שימוש במנגנון אנושי, CAPTCHA, כדי לזהות מילים שתוכנת זיהוי התווים לא הצליחה לזהות בבירור.

פרויקטים דומים[עריכת קוד מקור | עריכה]

בעוד ש"גוגל ספרים" סרקה מספר רב של כתבי עת, סריקות אלו אינן כוללות את המידע הנדרש לזיהוי מאמרים ספציפיים בנושאים מוגדרים. נושא זה הוביל לתוכנית נפרדת בשם Google Scholar, המספרתת (מבצעת דיגיטציה) ומאחסנת גם מאמרים מכתבי עת ישנים (בהסכם עם המו"לים שלהם).

הפרויקט עורר טענות בקרב חוגים אינטלקטואליים ופוליטיים באירופה, שהביעו חשש מ"אימפריאליזם של השפה האנגלית". לטענתם, היות שהרוב המכריע של הספרים מוצגים בשפה זו, הדבר גורם לייצוג לא פרופורציונלי של השפות הטבעיות בעולם המקוון. גרמנית, רוסית, וצרפתית לדוגמה, הן שפות נפוצות בעולם הידע והספרות; הדגש הבלתי-מידתי על אנגלית עלול לעצב את אופן הגישה לידע ומחקר היסטורי, ובסופו של דבר, גם את אופיה וכיוונה בעתיד. בין המבקרים הללו נמנה ז'אן נואל, נשיא ה"ביבליוטק נשיונל דה פראנס"‏[14]

בהקשר זה וכדי לתת מענה אירופי למיזם הספרים של גוגל, נפתח בנובמבר 2008 ביוזמת האיחוד האירופי אתר אירופיאנה. נכון לסוף שנת 2010 מקשר האתר לכ-14.6 מיליון אובייקטים דיגיטליים‏[15], למעלה מ-3.4 מיליון מתוכם הם ספרים‏[16] והוא כולל גם פריטי וידאו, תמונות, ציורים, אודיו, מפות, כתבי יד, ספרים מודפסים, ועיתונים, המתעדים 2000 שנות היסטוריה אירופית ושנאספו מלמעלה מ-1,500 ארכיוני האיחוד האירופי‏[17]

טענה נוספת שהועלתה כנגד הפרויקט הייתה שהוא מוביל למונופוליזציה וריכוז של הידע בידי גוף מסחרי יחיד. על כך השיבה גוגל שאין דבר המונע מכל גוף שהוא לערוך פרויקט דומה לשלה.

בין האתרים המציעים או הציעו שירות דומה:

  • מיקרוסופט החלה בפרויקט דומה בשם "לייב סרצ' בוקס" (Live Search Books) שהושק בסוף 2006. השירות פעל עד לנטישתו במאי 2008.‏‏[18] לאתר נסרקו 750.000 ספרים ו-80,000,000 כתבות עיתונות. כל הספרים שהועלו לאתר זמינים בארכיון האינטרנט, שהוא ארגון ללא כוונת רווח, והפרויקט השני בגודלו אחרי גוגל בתחום סריקת הספרים. נכון לאוקטובר 2010, האתר מכיל יותר מ-2.5 מיליון ספרים סרוקים. חברת קירטאס (Kirtas) טכנולוגיות הייתה ספקית הדיגיטציה הגדולה ביותר שנבחרה על ידי מיקרוסופט עבור הפרויקט Live Search. בחודש יוני 2009 השיקה החברה את האתר KirtasBooks.com, שמכיל כמיליון כותרים מספריות המשתתפות בפרויקט כדי לספק הדפסה באיכות גבוהה והורדה דיגיטלית.
  • אתר גאליקה של הספרייה הלאומית של צרפת מקשר לכ-800,000 ספרים דיגיטליים, עיתונים, כתבי יד, מפות וציורים, וכו'. הספרייה הדיגיטלית מוסיפה להתרחב מאז שנת היווסדה ב-1997, בקצב של כ-5000 מסמכים חדשים לחודש. חלק הארי מהמסמכים הסרוקים, הכתובים רובם בצרפתית, זמינים לעיון בפורמט של תמונה וטקסט מאז סוף 2008.
  • HathiTrust מחזיקה את הספרייה הדיגיטלית HathiTrust מאז 13 אוקטובר 2008‏[19], המשמרת ומספקת גישה לחומר שנסרק על ידי גוגל, ארכיון האינטרנט, וארגונים מקומיים על ידי מוסדות משותפים. נכון למאי 2010, הספרייה כוללת כ-6 מיליון כרכים, למעלה מ-1 מיליון מתוכם נמצאים ברשות הציבור.

ציוני דרך משמעותיים[עריכת קוד מקור | עריכה]

  • 2004: גוגל הרחיבה את שירות Google Print, המכונה גם Google Print Library Project, ומבססת שותפויות עם אוניברסיטאות וספריות ציבוריות מובילות, תוך שהיא מצהירה על כוונתה לספרת ולהפוך לזמין כ-15 מיליון ספרים באמצעות שירות גוגל ספרים בתוך עשור.
  • 2005: גילדת הסופרים ואיגוד ההוצאות לאור בארצות הברית תובעות את גוגל בגין אי כיבוד זכויות יוצרים ואי מתן פיצוי ראוי לסופרים ומוציאים לאור. בחודש יוני שינתה גוגל את שם השירות מ-Google Print ל-Google Book Search.
  • 2007-2006: אוניברסיטאות וספריות רבות בעולם מוסיפות להצטרף לפרויקט ומעמידות עשרות רבות של מיליוני ספרים לרשות גוגל.
  • 2008: תעשיית ההוצאה לאור וגוגל הגיעו להסכם לאחר שנתיים של משא ומתן, גוגל תפצה סופרים ומוציאים לאור תמורת הוצאת מיליוני ספרים לרשות הציבור. בחודש דצמבר הודיעה גוגל על הכללת מגזינים בפרויקט.
  • 2009: גוגל מודיעה בוועידה השנתית BookExpo בניו יורק על תוכנית שתאפשר למוציאים לאור למכור את ספריהם החדשים דרך גוגל. גוגל נוחלת הפסד משפטי משמעותי ראשון לפרויקט, כאשר בדצמבר מפסיק בית משפט צרפתי את הסריקה של ספרים מוגנים היוצאים לאור בצרפת.
  • 2010: בסוף חודש יולי הושק הפרויקט רשמית בגרסה עברית מלאה. גוגל הודיעה שחתמה על הסכמים עם מספר הוצאות לאור ישראליות, לרבות הוצאת כתר, ובכוונתה לחתום עם כל ההוצאות. בחודש דצמבר השיקה גוגל את Google eBookstore - חנות ספרים מקוונת המתחרה עם אמזון ואפל. החנות מציעה (בינתיים לתושבי ארצות הברית בלבד) מבחר ראשוני של 3 מיליון ספרים, אותם ניתן לקרוא בקוראי ספרים אלקטרוניים רבים, למעט קינדל. באוקטובר עברה גוגל את רף ה-15 מיליון ספרים סרוקים.

שותפים[עריכת קוד מקור | עריכה]

גוגל חתמה על הסכמי דיגיטציה עם כ-22,000 חברות הוצאה לאור, ועם כארבעים ספריות. (נכון לשנת 2010)‏[20]

שותפים בפרויקט מראשיתו:

שותפים נוספים:


זכויות יוצרים, שימוש הוגן[עריכת קוד מקור | עריכה]

בתעשיית ההוצאה לאור ובאיגודי סופרים מתחו ביקורת על הכללת גזירי טקסט של יצירות מוגנות בזכויות יוצרים, וראו בכך הפרת זכויות. איגוד המו"לים האמריקאי וגילדת הסופרים (כל אחד בנפרד) תבעו בסוף שנת 2005 את גוגל על "הפרת זכויות יוצרים מסיבית". בתגובה טענה גוגל שהפרויקט הינו המקביל הדיגטלי לכרטסת קיטלוג מסורתית, והוא מעוגן בשימוש הוגן, משום שהציטוט המוצג בגזירי הטקסט הוא קצר ודומה באורכו לתוצאות החיפוש שמפנה לאתרים, או לציטוט המופיע בביקורת ספרותית. על אף האמצעים שנקטה גוגל, בכך שסיפקה טקסט מלא רק לספרים הנמצאים ברשות הציבור, תוך הגבלת העיון בספרים מוגנים לקטעי טקסט בני מספר שורות בלבד, המול"ים טענו שאין לגוגל זכות להעתיק ספרים מוגנים שלמים, ולאחסן אותם בכמויות גדולות במסד הנתונים שלה תמורת רווח כספי.

לאחר שנתיים וחצי של משא ומתן, גוגל חתמה בשנת 2008 על הסדר עם תעשיית המולי"ם ואיגוד הסופרים בארצות הברית, בו היא הסכימה לשלם סך של 125,000,000 דולר לבעלי הזכויות של הספרים שסרקה. גוגל התחייבה לכסות את הוצאות המשפט, ונדרשה ליצור פנקס רישום של בעלי הזכויות. עם זאת, הסדר הפשרה לא אושר לאחר שמשרד המשפטים האמריקאי סבר שההסכם מפר את חוק ההגבלים העסקיים. לאחר דיונים משפטיים שארכו 13 חודשים, דחה שופט פדרלי את ההסדר בנימוק שהוא העניק לגוגל מונופול, הפר חוקי זכויות יוצרים וחוק ההגבלים העסקיים, ואפשר לגוגל להרוויח מספרים ללא השגת רשות מיוצריהם‏[21].

בנוסף, ההסדר עורר התנגדות בקרב מספר ארגונים אמריקאיים שלא היו חלק מהתביעה וההסדר, ביניהם ארגון הסופרים והעיתונאים האמריקאי ואיגוד האמנים החזותיים, שמתחו ביקורת גורפת על ההסדר והגישו תביעות נוספות. ספריית הווארד התריעה בעקבות ההסדר שתיסוג מהפרויקט אם גוגל לא תחדל לסרוק ספרים מוגנים.

כמתחייב מההסדר, השיקה גוגל בפברואר 2009 אתר אינטרנט המאפשר לסופרים להגיש טפסי תביעה מקוונים, ולקבל בתמורה 60 $ עבור ספר שלם, או 5 עד 15 דולר על תוספות חלקיות לספר. בתמורה, גוגל יכולה לאנדקס את הספרים ולהציג קטעים קצרים ממנו בתוצאות החיפוש, כמו גם להציג 20% מכל ספר במצב תצוגה מקדימה. גוגל יכולה גם להציג בדפים אלה מודעות פרסום ולמכור גרסאות אלקטרוניות של כל ספר. המחברים ובעלי זכויות היוצרים יקבלו 63 אחוזים מכלל הכנסות הפרסום והמסחר האלקטרוני הקשורים ביצירותיהם. סופרים שאינם מעוניינים להיכלל בהסדר זכאים למסור הודעת סירוב ולצאת מהמאגר.

בשנת 2009 נקנסה גוגל בסך 300,000 € על ידי בית משפט אזרחי בפריז, שהורה לגוגל לשלם 10,000 € ליום עד להסרת ספרי המו"ל התובע ממסד הנתונים שלה. בית המשפט כתב כי "גוגל הפרה את זכויות היוצרים של המחברים בכך שסרקה ואפשרה גישה לספרים שבבעלות המו"ל ללא אישורה" גוגל ערערה על הפסק בערכאה גבוהה יותר. הסופרת הסינית מיאן מיאן הגישה באותה שנה תביעה אזרחית נגד גוגל על סך 8,900 $, בגין סריקת הרומן שלה "אוהבי חומצה". זוהי התביעה הראשונה נגד גוגל בסין.

גוגל הגיבה לביקורת המתמשכת בציינה שסריקת הספרים ואחסונם באינטרנט מגנה על המורשת התרבותית של העולם; סרגיי ברין, אחד ממייסדי גוגל אמר כי "הספרייה המפורסמת של אלכסנדריה נשרפה שלוש פעמים, בשנת 48 לפנה"ס, 273 לספירה ו-640 לספירה, כמו גם ספריית הקונגרס, שם החריבה האש בשנת 1851 שני שלישים מהארכיון. אני מקווה שלא יקרה שוב הרס כזה, אולם ההיסטוריה מצביעה אחרת"‏[22].

מומחים למשפט בארצות הברית טענו כי הפרויקט מסכן את דוקטרינת השימוש הוגן, כיוון שבפרויקט נעשה שימוש בטענת השימוש הוגן בממדים כה אדירים שהוא עלול לגרום להגבלה משפטית של זכות זו. מאחר שאיגוד המולי"ם הגיעה בסוף להסדר עם גוגל, המחלוקת על הגבלות השימוש הוגן נותרה בינתיים בלתי פתורה.

ביקורת על השירות[עריכת קוד מקור | עריכה]

מספר גופים הצביעו על בעיות איכות שהתגלו בסריקות ובתהליך ההמרה לטקסט. המגזין דר שפיגל מבקר תכופות את החוסר במטה-דטה ואת איכות הסריקה - שלמרות שנעשית בתהליך ידני התגלו בה טעויות גדולות, כמו כיתוב שגוי של שמות מחברים או שמות ההוצאה לאור, דפים חסרים מתוך הספר או דפים בלתי קריאים‏[23]. ממחקר שנערך על ידי פרופסור בבית הספר למידע באוניברסיטת ברקלי בשנת 2007, עולה ש"איכות הסריקה (ובעקבותיה איכות החיפוש) היא לעתים לקויה ביותר. הגרסאות המוצגות הן, במקרה הטוב, מאכזבות"‏[24]. כמו כן נמצאו בעיות של קיטלוג שגוי בגרסה העברית של האתר‏[25].

קישורים חיצוניים[עריכת קוד מקור | עריכה]

ויקישיתוף מדיה וקבצים בנושא גוגל ספרים בוויקישיתוף

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ נקרא בעבר גם Google Book Search ו-Google Print
  2. ^ Bergquist, Kevin (2006-02-13). "Google project promotes public good", The University Record, University of Michigan. אוחזר ב־ 2007-04-11. 
  3. ^ Pace, Andrew K. (January 2006). Is This the Renaissance or the Dark Ages?. American Libraries. American Library Association. אוחזר ב־2007-04-11.
  4. ^ 4.0 4.1 Malte Herwig, "Google's Total Library", Spiegel Online International, Mar. 28, 2007.
  5. ^ Cohen, Noam (February 1, 2009). "Some Fear Google's Power in Digital Books", New York Times. אוחזר ב־ 2009-02-02. .
  6. ^ Greg Duffy (March 2005). Google's Cookie and Hacking Google Print. Kuro5hin..
  7. ^ Ryan Sands (November 9, 2006). From the mail bag: Public domain books and downloads (blog). Inside Google Book Search..
  8. ^ Archive.org
  9. ^ On the Future of Books. Google. אוחזר ב־2010-10-16.,
  10. ^ "In Google Book Settlement, Business Trumps Ideals", PC World (October 28, 2008). אוחזר ב־ 2008-10-31. .
  11. ^ The best online culture archives, באתר הטלגרף, פברואר 2011
  12. ^ Google’s Book Scanning Technology Revealed
  13. ^ Kelly, Kevin (May 14, 2006). "Scan This Book!", New York Times Magazine. אוחזר ב־ 2008-03-07. .
  14. ^ Jean-Noël Jeanneney (2006-10-23). Google and the Myth of Universal Knowledge: A View from Europe (book abstract; Foreword by Ian Wilson). ISBN 0-226-39577-4. אוחזר ב־2007-02-21. .
  15. ^ על פי עמוד האודות באתר המיזם
  16. ^ "Highlights of Europeana v1.0, pg 5" (EN), European Commission. ,
  17. ^ "Europe's Answer to Google Book Search Crashes on Day 1", Wired. אוחזר ב־ 2008-11-24. .
  18. ^ "Microsoft starts online library in challenge to Google Books", AFP (Melbourne) (2006-12-08). אוחזר ב־ 2008-11-24. 
  19. ^ Languagehat.com
  20. ^ רשימה באתר גוגל
  21. ^ מיה סלע, העתיד המעורפל של גוגל ספרים, באתר הארץ, 27 במרץ 2011
  22. ^ BBC: Google hits back at book critics, BBC, 9 October 2009
  23. ^ Malte Herwig: Die entleibte Bibliothek. In: Der Spiegel, 12/2007, S. 186 f.
  24. ^ Inheritance and loss? A brief survey of Google Books by Paul Duguid,
  25. ^ אורי ברייטמן, גוגל ספרים בעברית - בעיות קיטלוג, בבלוג חופש החיפוש