OpenAI Codex

מתוך ויקיפדיה, האנציקלופדיה החופשית
OpenAI Codex
מפתח OpenAI עריכת הנתון בוויקינתונים
לעריכה בוויקינתונים שמשמש מקור לחלק מהמידע בתבנית

OpenAI Codex הוא מודל בינה מלאכותית שפותח על ידי חברת OpenAI. המודל מנתח שפה טבעית ומייצר קוד בתגובה. והוא המודל העומד מאחורי GitHub Copilot, כלי השלמה אוטומטית לתכנות עבור סביבות פיתוח נבחרות, כמו ויז'ואל סטודיו ו-Vim. המודל נבנה על בסיס GPT-3 של OpenAI, ואומן לשימוש ביישומי תכנות.

יכולות[עריכת קוד מקור | עריכה]

מעבר למודל הבסיסי של על GPT-3, אומנה Codex על 159 גיגה-בייט של קוד פייתון נוסף מתוך 54 מיליון מאגרי GitHub.

לפי מחקרים של OpenAI נראה ש-Codex יכול להשלים כ-37% מהבקשות להשלמת קוד והוא הופך את התכנות האנושי למהיר יותר.

לפי הבלוג של OpenAI, Codex מצטיין ביותר ב"מיפוי בעיות פשוטות לקוד קיים", שהם מתוארים כ"כנראה החלק הכי פחות מהנה בתכנות".

על פי מאמר שנכתב על ידי חוקרים מחברת OpenAI, ממשק Codex נתן פתרונות עבור 70.2% מניסיונות המשתמשים.

OpenAI טוענת ש-Codex יכול ליצור קוד בלמעלה מתריסר שפות תכנות, כוללGo, JavaScript, Perl, PHP, Ruby, Swift ו-TypeScript, אם כי השפה בה הוא יעיל ביותר היא Python.

OpenAI הראתה ש-Codex יכול להתממשק עם שירותים ואפליקציות כמו Mailchimp, מיקרוסופט וורד, ספוטיפיי ו-יומן גוגל.

בעיות[עריכת קוד מקור | עריכה]

במקרים מסוימים השימוש ב-Codex הציג פגמים כמו קוד לא יעיל ומוזרויות חד פעמיות בדגימות קוד. בראיון ל-The Verge, מנהל הטכנולוגיה הראשי של OpenAI, גרג ברוקמן, אמר כי "לפעמים [Codex] לא ממש מבין מה אתה שואל" ושזה יכול לדרוש קצת ניסוי וטעייה.[1]

מאחר ש-Codex מאומן על נתונים ציבוריים, הוא עלול להיות פגיע ל"הרעלת נתונים" באמצעות העלאות מכוונות של קוד זדוני.[2] על פי מחקר של חוקרים מאוניברסיטת ניו יורק, כ-40% מהקוד שנוצר על ידי GitHub Copilot (המשתמש ב-Codex) נמצא בסיכון גבוה לתקלות או פגמי תכנון אחרים שניתנים לניצול.

זכויות יוצרים[עריכת קוד מקור | עריכה]

המוסד לתוכנה חופשית הביע דאגה שקטעי קוד שנוצרו על ידי Copilot ו-Codex עלולים להפר זכויות יוצרים.

סוגיות שהועלו כוללות האם הדרכה על מאגרים ציבוריים נחשבת שימוש הוגן או לא? כיצד מפתחים יכולים לגלות קוד שמפר זכויות יוצרים? האם מודלים של למידת מכונה מאומנים יכולים להיחשב כקוד מקור שניתן לשינוי או אוסף של נתוני ההדרכה? ואם מודלים של למידת מכונה יכולים בעצמם מוגנים בזכויות יוצרים ועל ידי מי?[3]

מחקר פנימי של GitHub מצא שכ-0.1% מהקוד שנוצר הכילו עותקים ישירים מנתוני האימון. בדוגמה אחת המודל פלט את קוד נתוני האימון תוך יישום אלגוריתם השורש הריבועי המהיר, כולל הערות והודעת זכויות יוצרים שגויה.[4]

בתגובה, OpenAI קבעה כי "אי הוודאות המשפטית לגבי השלכות זכויות היוצרים של אימון מערכות בינה מלאכותית מטילה עלויות משמעותיות על מפתחי הבינה המלאכותית".

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Vincent, James (10 באוגוסט 2021). "OpenAI can translate English into code with its new machine learning software Codex". The Verge. נבדק ב-2021-09-03. {{cite news}}: (עזרה)
  2. ^ Ben Dickson, What to expect from OpenAI’s Codex API, VentureBeat, ‏17 באוגוסט 2021
  3. ^ Krill, Paul (2 באוגוסט 2021). "GitHub Copilot is 'unacceptable and unjust,' says Free Software Foundation". InfoWorld. נבדק ב-2021-09-03. {{cite news}}: (עזרה)
  4. ^ Tim Anderson and Katyanna Quach, GitHub Copilot auto-coder snags emerge, from seemingly spilled secrets to bad code, but some love it, The Register, ‏6 ביולי 2021