GPT

מתוך ויקיפדיה, האנציקלופדיה החופשית
דגם GPT מקורי

GPT (ראשי תיבות: Generative pre-trained transformers; בעברית: טרנספורמר מאומן מראש בעל יכולת יצירה) הוא סוג של מודל שפה גדול (LLM)[1] ואחד מכלי הבינה המלאכותית היוצרת (Generative AI) הבולטים.

ה-GPT הראשון הוצג בשנת 2018 על ידי חברת הבינה המלאכותית האמריקאית OpenAI.[2] המודלים של GPT הם רשתות עצביות מלאכותיות המבוססות על ארכיטקטורת הטרנספורמרים, מאומנות מראש על קבוצות נתונים גדולות של טקסט לא מתוייג, ומסוגלות ליצור תוכן טקסטואלי בדומה לתוכן המיוצר על ידי אדם.[3] נכון לשנת 2023, לרוב ה-LLMs יש את המאפיינים הללו[4] ולעיתים הם מכונים באופן נרחב כ-GPTs.[5]

OpenAI פרסמה מודלים של GPT שמוספרו ברצף, כדי להרכיב את סדרת ה-"GPT-n" שלה.[6] כל גרסה הייתה בעלת יכולות גבוהות מקודמתה, בשל גודל (מספר פרמטרים שניתנים לאימון) והאימונים המשופרים. האחרון שבהם, GPT-4, שוחרר במרץ 2023. מודלים אלו מהווים בסיס למערכות מתקדמות המשתמשות בשירותיהם למשימות ספציפיות, כולל שירות הצ'אטבוט ChatGPT.[7]

המונח "GPT" משמש גם בשמות ובתיאורים של מודלים כאלה שפותחו על ידי חברות אחרות. לדוגמה, מודלים אחרים של בסיס GPT כוללים סדרה של דגמים שנוצרו על ידי EleutherAI,[8] ולאחרונה שבעה דגמים שנוצרו על ידי Cerebras. כמו כן, חברות בתעשיות שונות פיתחו מערכות GPT ספציפיות למשימה בתחומיהן, כגון "EinsteinGPT" של Salesforce (עבור CRM)[9] ו-"BloombergGPT" של בלומברג (לפיננסים).[10]

היסטוריה[עריכת קוד מקור | עריכה]

אימון מראש לטובת יצירה (GP) היה מושג ותיק ביישומי למידת מכונה,[11][12] אך ארכיטקטורת הטרנספורמרים לא הייתה זמינה עד 2017, אז הומצאה על ידי עובדים בגוגל.[13] התפתחות זו הובילה להופעתם של מודלים גדולים של שפה כמו BERT ב-2018[14] ו-XLNet ב-2019,[15]

בשנת 2018, פרסמה OpenAI את המאמר שלה שכותרתו "שיפור הבנת השפה באמצעות אימון קדם גנרי", שבו הציגה את מערכת הGPT הראשונה.[16]

לפני ארכיטקטורות מבוססות טרנספורמרים, מודלים של NLP עצביים (עיבוד שפה טבעית) בעלי הביצועים הטובים ביותר השתמשו בדרך כלל בלמידה מפוקחת מכמויות גדולות של נתונים מסומנים ידנית. ההסתמכות על למידה מפוקחת הגבילה את השימוש שלהם במערכי נתונים שלא היו מבוארים היטב, וגם הפכה את ההכשרה של מודלים של שפות גדולים במיוחד ליקר וגוזל זמן רב.[16]

הגישה המפוקחת למחצה שבה השתמשה OpenAI כדי ליצור מערכת מחוללת בקנה מידה גדול – שהייתה הראשונה לעשות עם מודל GPT – כללה שני שלבים: שלב " אימון מקדים" מחולל ללא פיקוח לקביעת פרמטרים ראשוניים תוך שימוש במטרת מודלים של שפה, ופיקוח בשלב "כוונון עדין" להתאמת פרמטרים אלו למשימת יעד.[16]

מודלים בסיסיים[עריכת קוד מקור | עריכה]

מודל בסיסי הוא מודל בינה מלאכותית שהוכשר על נתונים רחבים בקנה מידה כך שניתן להתאים אותו למגוון רחב של משימות.[17]

עד כה, דגמי הבסיס הבולטים ביותר של GPT היו מסדרת GPT-n של OpenAI. העדכני ביותר מזה הוא GPT-4, שעבורו OpenAI סירבה לפרסם את פרטי הגודל או ההכשרה.[18]

סדרת "GPT-n" של OpenAI
דֶגֶם ארכיטקטורה ספירת פרמטרים נתוני אימון תאריך הוצאה עלות הדרכה
GPT-1 מפענח טרנספורמר בעל 12 רמות, 12 ראשים (ללא מקודד), ואחריו ליניארי-softmax. 117 מיליון BookCorpus : 4.5 ג'יגה-בייט של טקסט, מתוך 7000 ספרים שלא פורסמו מז'אנרים שונים. 11 ביוני 2018
GPT-2 GPT-1, אבל עם נורמליזציה שונה 1.5 ביליון WebText: 40 ג'יגה-בייט של טקסט, 8 מיליון מסמכים, מ-45 מיליון דפי אינטרנט שהצביעו בעדיט ב-Reddit. 14 בפברואר 2019
GPT-3 GPT-2, אך עם שינוי כדי לאפשר קנה מידה גדול יותר 175 מיליארד 499 מיליארד אסימונים המורכבים מ-CommonCrawl (570 ג'יגה-בייט), WebText, ויקיפדיה באנגלית ושני ספרי קורפוס (Books1 ו-Books2). 28 במאי 2020
GPT-3.5 לא נמסר 175 מיליארד לא נמסר 15 במרץ 2022 לא נמסר
GPT-4 מאומן גם עם חיזוי טקסט וגם עם RLHF ; מקבל גם טקסט וגם תמונות כקלט. פרטים נוספים אינם פומביים. לא נמסר לא נמסר 14 במרץ 2023

מודלים נוספים מסוג זה כוללים את ה-PaLM של גוגל, מודל שהושווה ל-GPT-3 וזמין למפתחים באמצעות ממשק API,[19][20] ו-GPT-JT של Together, אשר דווח כ- חלופת הקוד הפתוח בעלת הביצועים הקרובים ביותר ל-GPT-3 (ונגזרת מ-GPTs קודם לכן בקוד פתוח).[21] ל- Meta AI (לשעבר פייסבוק) יש גם מודל שפה יסודי גדול המבוסס על טרנספורמרים, המכונה LLaMA.[22]

ה-GPT הבסיסיים יכולים גם להשתמש בשיטות אחרות מלבד טקסט, לקלט או פלט. GPT-4 הוא LLM רב-מודלי המסוגל לעבד קלט טקסט ותמונה (אם כי הפלט שלו מוגבל לטקסט).[23] לגבי פלט רב-מודאלי, חלק מהמודלים המבוססים על טרנספורמרים מחוללים המשמשים לטכנולוגיות טקסט לתמונה כגון דיפוזיה[24] ופענוח מקביל.[25] סוגים כאלה של מודלים יכולים לשמש כמודלי יסוד חזותיים (VFMs) לפיתוח מערכות שיכולות לעבוד עם תמונות.

מודלים ספציפיים למשימה[עריכת קוד מקור | עריכה]

ניתן להתאים את מודלי GPT כדי לייצר מערכות ממוקדות יותר המכוונות למשימות או תחומי נושא ספציפיים. שיטות להתאמה כזו יכולות לכלול כוונון עדין נוסף (מעבר לזה שנעשה עבור מודל הבסיס) וכן צורות מסוימות של הנדסה מהירה.[26]

דוגמה חשובה לכך היא כוונון עדין של מודלים כך שיפעלו בהתאם להוראות, שזו משימה רחבה למדי אך ממוקדת יותר ממודל יסוד. בינואר 2022, OpenAI הציגה את "InstructGPT" – סדרה של מודלים שהותאמו לעקוב אחר הוראות תוך שימוש בשילוב של אימון בפיקוח ולימוד חיזוק ממשוב אנושי (RLHF) על מודלים בסיסיים של שפות GPT-3. היתרונות שהיו לזה על המודלים הבסיסיים החשופים כללו דיוק גבוה יותר, פחות סנטימנט שלילי, ובאופן כללי התאמה טובה יותר לצורכי המשתמש. לפיכך, OpenAI החלה להשתמש בזה כבסיס לשירותי ה-API שלה.[27] דגמים אחרים המותאמים להוראות שוחררו על ידי אחרים, כולל גרסה פתוחה לחלוטין.[28][29]

סוג אחר של מודלים ספציפיים למשימה הם צ'אטבוטים, העוסקים בשיחה דמוית אדם. בנובמבר 2022, OpenAI השיקה את ChatGPT – ממשק צ'אט מקוון המופעל על ידי מודל שפה מכוון להוראות שהוכשר בצורה דומה ל-InstructGPT. הם אימנו את המודל הזה באמצעות RLHF, כאשר מאמני AI אנושיים סיפקו שיחות שבהן הם שיחקו הן את המשתמש והן את ה-AI, וערבבו את מערך הדיאלוג החדש הזה עם מערך הנתונים של InstructGPT לפורמט שיחה המתאים לצ'אטבוט. צ'אטבוטים מרכזיים אחרים כוללים כיום את Bing Chat של מיקרוסופט, המשתמש ב-GPT-4 של OpenAI (כחלק משיתוף פעולה הדוק רחב יותר בין OpenAI ו-Microsoft),[30] ואת הצ'אט-בוט המתחרה של גוגל בארד (בהתחלה מבוסס על משפחת השיחות שלהם LaMDA -מודלים של שפה מאומנים, עם תוכניות לעבור ל-PaLM).[31]

עוד סוג נוסף של משימה ש-GPT יכול לשמש עבורה הוא מטא-משימה של יצירת הוראות "משלו", כמו פיתוח סדרה של הנחיות ל'עצמה' כדי להיות מסוגל להגשים מטרה כללית יותר שניתן על ידי משתמש אנושי.[32] זה ידוע כסוכן AI, וליתר דיוק רקורסיבי מכיוון שהוא משתמש בתוצאות מההנחיות העצמיות הקודמות שלו כדי לעזור לו ליצור את ההנחיות הבאות שלו; הדוגמה הגדולה הראשונה לכך הייתה Auto-GPT (המשתמשת בדגמי ה-GPT של OpenAI), ומאז פותחו גם אחרים.[33]

מולטי-מודאליות[עריכת קוד מקור | עריכה]

מערכות מבוססות טרנספורמרים גנרטיביים יכולות להיות ממוקדות גם למשימות הכוללות אופנים מעבר לטקסט.

לדוגמה, "Visual ChatGPT" של מיקרוסופט משלב ChatGPT עם מודלים של בסיס חזותי (VFMs) כדי לאפשר קלט או פלט הכוללים תמונות וגם טקסט.[34] כמו כן, ההתקדמות בטכנולוגיית "טקסט לדיבור" מציעה כלים רבי עוצמה ליצירת תוכן אודיו בשימוש בשילוב עם מודלים בסיסיים של שפות GPT.[35]

ספציפיות של דומיין[עריכת קוד מקור | עריכה]

מערכות GPT יכולות להיות מכוונות לתחומים או תחומים מסוימים. כמה דוגמאות מדווחות של דגמים ואפליקציות כאלה הן כדלקמן:

  • EinsteinGPT – לתחומי מכירות ושיווק, כדי לסייע בניהול קשרי לקוחות (משתמש ב-GPT-3.5)[36]
  • BloombergGPT – עבור התחום הפיננסי, כדי לסייע בחדשות פיננסיות ומידע (משתמש בשיטות AI "זמינות באופן חופשי", בשילוב עם הנתונים הקנייניים שלהן)[37]
  • Khanmigo – מתוארת כגרסת GPT להדרכה, בתחום החינוך, היא מסייעת לסטודנטים המשתמשים באקדמיית קהאן על ידי הדרכתם בלימודיהם מבלי לספק תשובות ישירות (מופעל על ידי GPT-4)[38][39]
  • SlackGPT – עבור שירות ההודעות המיידיות Slack, כדי לסייע בניווט וסיכום דיונים עליו (משתמש ב-API של OpenAI)[40]
  • BioGPT – לתחום הביו-רפואי, כדי לסייע בהפקת טקסטים וכרייה של ספרות ביו-רפואית (משתמש ב-GPT-2)[41]

לפעמים ספציפיות לתחום מושגת באמצעות תוספים או תוספות תוכנה. לדוגמה, מספר חברות שונות פיתחו תוספים מסוימים המקיימים אינטראקציה ישירה עם ממשק ChatGPT של OpenAI,[42][43] ול- Google Workspace יש תוספות זמינות כגון "GPT for Sheets and Docs" – אשר מדווחים כמסייעים לשימוש בגיליון אלקטרוני. פונקציונליות ב-Google Sheets.[44][45]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ "The A to Z of Artificial Intelligence". Time. 13 באפריל 2023. {{cite journal}}: (עזרה)
  2. ^ "Improving language understanding with unsupervised learning". openai.com (באנגלית אמריקאית). ארכיון מ-2023-03-18. נבדק ב-2023-03-18.
  3. ^ "Generative AI: a game-changer society needs to be ready for". World Economic Forum.
  4. ^ Toews, Rob. "The Next Generation Of Large Language Models". Forbes.
  5. ^ Mckendrick, Joe (13 במרץ 2023). "Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests". Forbes. {{cite web}}: (עזרה)
  6. ^ "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". MUO. 11 באפריל 2023. {{cite web}}: (עזרה)
  7. ^ Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com.
  8. ^ Alford, Anthony (13 ביולי 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ. {{cite web}}: (עזרה)
  9. ^ Morrison, Ryan (7 במרץ 2023). "Salesforce launches EinsteinGPT built with OpenAI technology". Tech Monitor. {{cite web}}: (עזרה)
  10. ^ "The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech". Forbes.
  11. ^ Hinton (et-al), Geoffrey (15 באוקטובר 2012). "Deep neural networks for acoustic modeling in speech recognition" (PDF). IEEE Signal Processing Magazine. Digital Object Identifier 10.1109/MSP.2012.2205597. doi:10.1109/MSP.2012.2205597. {{cite journal}}: (עזרה)
  12. ^ "A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core". Cambridge.org. 2014-01-22. doi:10.1017/atsip.2013.9. נבדק ב-2023-05-21. {{cite journal}}: Cite journal requires |journal= (עזרה)
  13. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (5 בדצמבר 2017). "Attention Is All You Need". arXiv:1706.03762. {{cite journal}}: (עזרה); Cite journal requires |journal= (עזרה)
  14. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (24 במאי 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2. {{cite journal}}: (עזרה); Cite journal requires |journal= (עזרה)
  15. ^ Yang (et-al), Zhilin (2019). "XLNet" (PDF). Proceedings from NeurIPS 2019.
  16. ^ 1 2 3 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 ביוני 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. ארכיון (PDF) מ-26 בינואר 2021. נבדק ב-23 בינואר 2021. {{cite web}}: (עזרה)
  17. ^ "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI.
  18. ^ OpenAI (2023). "GPT-4 Technical Report" (PDF). ארכיון (PDF) מ-2023-03-14. נבדק ב-2023-03-16.
  19. ^ Vincent, James (14 במרץ 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge. {{cite web}}: (עזרה)
  20. ^ "Google Opens Access to PaLM Language Model".
  21. ^ Iyer, Aparna (30 בנובמבר 2022). "Meet GPT-JT, the Closest Open Source Alternative to GPT-3". Analytics India Magazine. {{cite web}}: (עזרה)
  22. ^ "Meta Debuts AI Language Model, But It's Only for Researchers". PCMAG.
  23. ^ Islam, Arham (27 במרץ 2023). "Multimodal Language Models: The Future of Artificial Intelligence (AI)". {{cite web}}: (עזרה)
  24. ^ Islam, Arham (14 בנובמבר 2022). "How Do DALL·E 2, Stable Diffusion, and Midjourney Work?". {{cite web}}: (עזרה)
  25. ^ Saha, Shritama (4 בינואר 2023). "Google Launches Muse, A New Text-to-Image Transformer Model". Analytics India Magazine. {{cite web}}: (עזרה)
  26. ^ Bommasani (et-al). "On the Opportunities and Risks of Foundation Models". arXiv:2108.07258.
  27. ^ Ramnani, Meeta (28 בינואר 2022). "OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason". Analytics India Magazine. {{cite web}}: (עזרה)
  28. ^ "Stanford CRFM". crfm.stanford.edu.
  29. ^ "Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM". Databricks. 12 באפריל 2023. {{cite web}}: (עזרה)
  30. ^ Wiggers, Kyle (4 במאי 2023). "Microsoft doubles down on AI with new Bing features". {{cite web}}: (עזרה)
  31. ^ "ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful?". CNET.
  32. ^ "Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents". Mashable. 19 באפריל 2023. {{cite web}}: (עזרה)
  33. ^ Marr, Bernard. "Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT". Forbes.
  34. ^ "Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT". InfoQ.
  35. ^ Edwards, Benj (9 בינואר 2023). "Microsoft's new AI can simulate anyone's voice with 3 seconds of audio". Ars Technica. {{cite web}}: (עזרה)
  36. ^ Morrison, Ryan (7 במרץ 2023). "Salesforce launches EinsteinGPT built with OpenAI technology". {{cite web}}: (עזרה)
  37. ^ Leswing, Kif (13 באפריל 2023). "Bloomberg plans to integrate GPT-style A.I. into its terminal". CNBC. {{cite web}}: (עזרה)
  38. ^ "Learning nonprofit Khan Academy is piloting a version of GPT called Khanmigo". Fast Company. 4 במאי 2023. נבדק ב-22 במאי 2023. {{cite web}}: (עזרה)
  39. ^ "Khan Academy Pilots GPT-4 Powered Tool Khanmigo for Teachers -". THE Journal.
  40. ^ Hachman, Mark (4 במאי 2023). "Slack GPT will bring AI chatbots to your conversations". PCWorld. {{cite web}}: (עזרה)
  41. ^ Luo (et-al), Renqian (3 באפריל 2023). "BioGPT: Generative pre-trained transformer for biomedical text generation and mining". Briefings in Bioinformatics. 23 (6). arXiv:2210.10341. doi:10.1093/bib/bbac409. PMID 36156661. {{cite journal}}: (עזרה)
  42. ^ "Know about ChatGPT's 13 best plugins, designed to improve your overall user experience – Latest Digital Transformation Trends | Cloud News | Wire19". 5 במאי 2023. {{cite web}}: (עזרה)
  43. ^ "ChatGPT plugins". openai.com.
  44. ^ "How to Use ChatGPT on Google Sheets With GPT for Sheets and Docs". MUO. 12 במרץ 2023. {{cite web}}: (עזרה)
  45. ^ Asay, Matt (27 בפברואר 2023). "Embrace and extend Excel for AI data prep". InfoWorld. {{cite web}}: (עזרה)