לדלג לתוכן

משתמש:Team BCE/טיוטה

מתוך ויקיפדיה, האנציקלופדיה החופשית

מזהה כימי בינלאומי (International Chemical Identifier או InChI בקצרה) הוא מזהה טקסטואלי עבור חומרים כימיים, המספק תקן נהוג לקידוד מידע מולקולרי ומקל על החיפוש אחר מידע כזה במאגרי המידע ובאינטרנט.

פיתוח[עריכת קוד מקור | עריכה]

הפיתוח התבצע תחילה ע"י האיגוד הבינלאומי לכימיה טהורה ויישומית (International Union of Pure and Applied Chemistry או IUPAC בקצרה)(אנ') וכן ע"י המכון הלאומי לתקנים וטכנולוגיה (National Institute of Standards and Technology או NIST בקצרה), הגרסה הראשונה יצאה ב-15 לאפריל בשנת 2005[1][2], מאז מאי 2009 הפיתוח עבר להיות תחת InChI Trust, עמותה ללא מטרות רווח מבריטניה הפועלת לקידום השימוש במזהה הכימי הבינלאומי[3].

חומרים הכימיים מאופיינים ע"י שכבות של מידע, הכוללים את האטומים והקשרים שלהם, מידע טאוטומרי, איזוטופי, סטויכיומטרי וחשמלי[4]. אין צורך תמיד לספק את כל שכבות המידע, בעיקר כשהמידע לא רלוונטי ליישום הספציפי. האלגוריתם של המזהה הכימי הבינלאומי מעביר את המידע המבני למזהה ייחודי בשלושה שלבים: הסרת המידע המיותר, יצירת מזהה ייחודי לכל אטום, ונתינת מחרוזת לכלל התווים.

כיום נעשה שימוש במזהה נוסף הנקרא מספר CAS, מספר זיהוי יחודי הניתן לכל חומר כימי שתואר בספרות המקצועית. המזהה הכימי הבינלאומי שונה ממספר CAS בשלושה אופנים. תחילה, המזהה הכימי הבינלאומי ניתן לשימוש חופשי, שנית, ניתן לחשב את המזהה הכימי הבינלאומי ממידע מבני ולבסוף, רוב המידע הינו מובן. לכן, ניתן לראות את המאפיינים הכימיים הבינלאומיים כדומים לגרסה הכללית והרשמית ביותר של מונחון IUPAC. הם יכולים לבטא יותר מידע מהסימון הפשוט שניתן ע"י מחרוזות SMILES, ובניגוד ל-SMILES, לכל מבנה כימי יש מזהה ייחודי של המזהה הכימי הבינלאומי, עובדה שחשובה מאוד ליישומים.

על מנת להקל על השימוש ההולך ומתרחב במזהה הכימי הבינלאומי, פותח מפתח המזהה הכימי הבינלאומי, מחרוזת באורך 27 תווים. המפתח מקל על החיפוש האינטרנטי אחר תרכובות כימיות, שהיו בעייתיות עם מזהה כימי בינלאומי באורך מלא[5]. המפתח אינו ייחודי, וישנן חפיפות ידועות עבור מבנים כימיים שונים, אך הן נדירות[6].

הגרסה הנוכחית של המזהה הכימי הבינלאומי הינה 1.07 ששוחררה במרץ 2024[7] וניתנת לשימוש במערכות הפעלה Microsoft Windows וכן מערכות הפעלה דמויות יוניקס. הגרסה ממשיכה להתעדכן ולהתפתח ע"י ארגון InChI Trust, כאשר השינויים עוסקים באפיון תרכובות כימיות חדשות בפיתוח.

תוספות נרמול בכתיבה[עריכת קוד מקור | עריכה]

על מנת למנוע יישום מספר סוגי מזהה כימי בינלאומי מולקולות בעלות איזומרים מבניים, יש צורך בנרמול המבנה הכימי של המולקולה ביישום המזהה כימי בינלאומי  על ידי אפיון יחידת הבסיס של המולקולה ותוספותיה. הנרמול מגיע לאחר רישום המבנה הכללי של המולקולה ויכול לכלול שינוי סדר הקשרים הכימיים, החסרת או הוספת אטומי מימן וסידור מטענים מחדש במולקולה. חשיבות נוספת לנרמול נובעת מהעובדה שעבור קלטים שונים יכולים להתקבל תוצאות זהות. לדוגמה, חומצה אצטית ויון אצטט , הנרשמות באופן שונה זה מזה במזהה הכימי הבינלאומי, נותנות מולקולה זהה של חומצה אצטית. במידה והמולקולה מורכבת מיותר מתוסף אחד המחובר ליחידת הבסיס, יש צורך בהגדרת יחידות משנה במזהה הכימי הבינלאומי כאשר כל יחידת מבנה מופרדת באמצעות פסיק. כך לדוגמא, עבור מולקולת עופרת טטרה-אתילית (Pb(C2H5)4), יתקבלו חמישה מרכיבים: מרכיב עופרת וארבעה יחידות משנה של קבוצות אתיל[4].

בנרמול המולקולה, יש לבצע "הוספת שכבה" לקלט המזהה הכימי הבינלאומי כתלות בסוג היחידה:

  • יש לקבוע את מבנה המולקולה הכללי, תת מבנה /c המתייחס לקשרים אשר אינם מימניים, וכן תת מבנה /h מתייחס למימן.
  • יש להוסיף את המידע על שכבת המטען , הניתן ע"י תת מבנה /q, וכן יש להוסיף את תת המבנה /p הנותן את יחס המטען ומתייחס למספר הפרוטונים שיש להוסיף או להחסיר בכדי ליצר את מבנה המולקולה הרצויה.
  • במידה ויש צורך, תתי מבנה /b, /t, /m, /s מספקים את המידע הסטויכיומטרי של המולקולה.
  • ניתן גם לספק מידע עבור איזוטופים שונים על ידי תת מבנה /i כאשר תתי היחידות האחרות מוכלות בה במידת הצורך.  
  • עבור קבלת איזומר ספציפי, יש צורך בשימוש בתת מבנה /f כאשר שימוש זה אינו פעיל עבור מזהה כימי בינלאומי סטנדרטי. עבור המזהה כימי בינלאומי, כל אפשרויות האיזומר נכתבות באופן זהה.

פורמט כתיבת המזהה הכימי הבינלאומי ותתי המבנה[עריכת קוד מקור | עריכה]

כל מזהה כימי בינלאומי מתחיל בפתיחת "InChI=" ולאחריו מספר הגרסה (1 נכון לעכשיו). במידה והמזהה סטנדרטי, יש להמשיך באות “s”, משמעות הדבר היא שמירה על אותה רמת פרטי מבנה וציור המולקולה המוסכם. לאחר מכן, שאר האינפורמציה המוזנת הינו פירוט לפי יחידת המבנה של המולקולה ותתי המבנים המתוארים ביישום. הפרדת המבנה ותת המבנה תבוצע על ידי "/" ותחל בציון סוג התת מבנה הרצוי (כמפורט בחלק תוספות נרמול הכתיבה).

להלן תיאור של תתי המבנה החשובים[4]

  • המבנה הראשי (מופיע תמיד)
    • הנוסחה הכימית, תת יחידה החייבת להופיע בכל מזהה כימי בינלאומי. מתארת את המבנה הבסיסי של המולקולה. המספר ליד כל יסוד מתאר את כמותו ואת מספור היסודות מלבד מימן. לדוגמה, עבור מולקולת גלוקוז, C6O12H6, אטומי הפחמן ממוספרים מ-1-6, אטומי החמצן ממוספרים מ-7-12, וכן עבור מולקולת ATP, בעלת הנוסחה המולקולרית C10H16N5O13P3 , אטומי הפחמן ממוספרים מ- 1-10, אטומי החנקן ממוספרים מ-11-15, אטומי החמצן ממוספרים מ-16-28 ואטומי הפוספט ממוספרים מ-29-31.
    • קשר אטומי מסומן לפי סימון c, כאשר האטומים בנוסחה הכימית ממוספרים לפי הסדר. סוג הקשר בין האטומים יתואר בסוף ע"י הסימון b.
    • חיבור לאטום מימן יסומן בסימון h.
  • שכבת המטען: מסומנת ע"י הסימון q כאשר שכבת פרוטון (טעונה חיובית) מסומנת ע"י p.
  • שכבת הסטויכיומטריה: מסומנת ע"י הסימון s. קשר כפול או יותר יסומן ע"י הסימון b, סטויכיומטריה טטרהידרלית תסומן ע"י t, m. 
  • שכבה איזוטופית (לא חובה): מסומנת ע"י הסימון i. עבור שכבה איזוטופית של מימן – הסימון h.

דוגמאות[עריכת קוד מקור | עריכה]

מזהה כימי בינלאומי מבנה המולקולה
InChI=1S/C6H12O6/c7-1-2-3(8)4(9)5(10)6(11)12-2/h2-11H,1H2/t2-,3-,4+,5-,6?/m1/s1


גלוקוז

InChI=1S/C3H6O3/c1-2(4)3(5)6/h2,4H,1H3,(H,5,6)/t2-/m0/s1


חומצה לקטית

מפתח המזהה הכימי הבינלאומי, InChIKey[עריכת קוד מקור | עריכה]

מפתח מהמזהה הכימי הבינלאומי מכיל 27 תווים של פונקציית גיבוב (hash), בעזרת שימוש באלגוריתם SHA-256, שפותח על מנת להקל את החיפושים האינטרנטיים של מולקולות ותרכובות כימיות. עד שנת 2007, רוב הייצוגים של מולקולות הכימיות היו כתמונות GIF, אשר לא אפשרו את החיפוש האינטרנטי של מולקולות אלו. המזהה הכימי הבינלאומי המלא הוא ארוך מידי לחיפוש מהיר באינטרנט ולכן פותח מפתח המזהה הכימי הבינלאומי. קיימות חפיפות בין מולקולות כימיות שונות כחלק מהמפתח המזהה הכימי הבינלאומי, אבל הסבירות למצוא חפיפה ב14 התווים הראשונים היא אחת לביליון, מה שמגמד את החפיפות הללו[8].

המפתח של המזהה הכימי הבינלאומי מכיל שלושה חלקים המתוארים על ידי XXXXXXXXXXXXXX-YYYYYYYYFV-P. 14 התווים הראשונים (המתוארים ע"י האות X) מתקבלים בעזרת אלגוריתם הגיבוב של SHA-256 שנעשה על סמך המידע על הקשרים בתוך המולקולה, אשר מתקבל משכבת המבנה הראשי ומשכבת המטען. 10 התווים הבאים (המתוארים ע"י האותיות Y, F, V) הם תוצאה של אלגוריתם הגיבוב על שאר השכבות של המזהה הכימי הבינלאומי, וכן תו יחיד (המתואר ע"י האות V), מתאר את סוג המפתח, כאשר S זה עבור מפתח סטנדרטי וN עבור מפתח לא סטנדרטי.  התו האחרון (המתואר ע"י האות P) מתאר את הפרוטונציה במבנה המולקולרי[9].

דוגמה[עריכת קוד מקור | עריכה]

אפיון בעזרת המזהה הכימי הבינלאומי[10] מבנה המולקולה
InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1 מזהה כימי בינלאומי


מורפין

BQJCRHHNABKAKU-KBQPJGBKSA-N מפתח המזהה הכימי הבינלאומי

מקור השם[עריכת קוד מקור | עריכה]

תחילה המזהה הכימי הבינלאומי נקרא IChI (מזהה כימי עבור IUPAC). ביולי 2004 שונה השם ל-INChI (מזהה כימי עבור IUPAC-NIST). בנובמבר 2004 שונה השם לשמו הנוכחי, InChI (מזהה כימי בין לאומי).

המשך פיתוח[עריכת קוד מקור | עריכה]

המשך הפיתוח עבור המזהה הכימי הבינלאומי ממשיך על ידי IUPAC Division VIII Subcommitte ובעזרת קבוצות נוספות במטרה להרחיב את המזהה הנוכחי. קרן InChI ממשיכה לממן את הפיתוח והגדלת מאגר הידע של המזהה הכימי הבינלאומי. הפיתוחים הנוכחיים מתרכזים בעיקרם באפיון פולימרים, תערובות, תגובות כימיות ואורגנו-מתכות[11]

תוכנה[עריכת קוד מקור | עריכה]

בוצעו פיתוחי תוכנה על ידי קרן InChI על מנת לייצר ולתרגם את המזהה הכימי הבינלאומי וכן את InChIKey. היסטורית התפתחות התוכנה מצורפת בטבלה.

הערות רישיון תוכנה תאריך שחרור שם התוכנה והגרסה
אפריל 2005 InChI v. 1
אוגוסט 2006 InChI v. 1.01
מוסיף את פעילות מפתח המזהה הכימי הבינלאומי LGPL 2.1 ספטמבר 2007 InChI v. 1.02beta
שינוי פורמט עבור InChIKey והצגת מזהה כימי בינלאומי סטנדרטי LGPL 2.1 ינואר 2009 InChI v. 1.02
LGPL 2.1 יוני 2010 InChI v. 1.03
מרץ 2011 InChI v. 1.03 source code docs
רישיון חדש, הוספת תמיכה לאטומים 105-112 (מולקולות גדולות(. IUPAC/InChI Trust InChI License 1.0 ספטמבר 2011 InChI v. 1.04
הגדלת גודל המולקולה- אטומים 113-118, הוספת ניסיון תמיכה בפולימרים, הוספת ניסיון תמיכה במולקולות גדולים IUPAC/InChI Trust InChI License 1.0 ינואר 2017 InChI v. 1.05
חישוב ריאקציות מסוג InChIs IUPAC/InChI Trust InChI License 1.0, and BSD-style מרץ 2017 RInChI v. 1.00
שיפור תמיכה בפולימרים IUPAC/InChI Trust InChI License 1.0[12] דצמבר 2020 InChI v. 1.06

אימוץ המזהה הכימי הבינלאומי[עריכת קוד מקור | עריכה]

המזהה הכימי הבינלאומי אומץ במאגרי מידע גדולים כדוגמת ChemSpider, Golm Merabolome Database, PubChem ועוד[13]. אולם, עדיין ישנם אי התאמות במאגרי המידע בין מבנה המולקולה ובין ערך המזהה כימי בינלאומי  המשויך לה עקב אי התאמה נכונה במאגר המידע[14].

ראו גם[עריכת קוד מקור | עריכה]

קישורים  [עריכת קוד מקור | עריכה]


[1] "IUPAC International Chemical Identifier Project Page". IUPAC. Archived from the original on 27 May 2012. Retrieved 2012-12-05.

[2] Heller, S.; McNaught, A.; Stein, S.; Tchekhovskoi, D.; Pletnev, I. (2013). "InChI - the worldwide chemical structure identifier standard". Journal of Cheminformatics. 5 (1): 7. doi:10.1186/1758-2946-5-7. PMC 3599061. PMID 23343401

[3] "The InChI Trust and IUPAC". InChI Trust. Retrieved August 22, 2022.

[4] Heller, S.R.; McNaught, A.; Pletnev, I.; Stein, S.; Tchekhovskoi, D. (2015). "InChI, the IUPAC International Chemical Identifier".  Journal of Cheminformatics. 7: 23. doi:10.1186/s13321-015-0068-4. PMC 4486400. PMID 26136848.

[5] "The IUPAC International Chemical Identifier (InChI)". 5 September 2007. Archived from the original on October 30, 2007. Retrieved 2007-09-18.

[6] E.L. Willighagen (17 September 2011). "InChIKey collision: the DIY copy/pastables". Retrieved 2012-11-06.

[7] https://github.com/IUPAC-InChI/InChI

[8] Pletnev, I.; Erin, A.; McNaught, A.; Blinov, K.; Tchekhovskoi, D.; Heller, S. (2012). "InChIKey collision resistance: An experimental testing". Journal of Cheminformatics. 4 (1): 39. doi:10.1186/1758-2946-4-39. PMC 3558395. PMID 23256896.

[9] "Technical FAQ - InChI Trust". inchi-trust.org. Retrieved 2021-01-08.

[10] "InChI=1/C17H19NO3/c1-18..." Chemspider. Retrieved 2007-09-18.

[11] Grethe, Guenter; Blanke, Gerd; Kraut, Hans; Goodman, Jonathan M. (9 May 2018). "International chemical identifier for reactions (RInChI)". Journal of Cheminformatics. 10 (1): 45. doi:10.1186/s13321-018-0277-8. PMC 4015173. PMID 24152584

[12] "IUPAC/InChI-Trust Licence for the International Chemical Identifier (InChI) Software" (PDF). IUPAC/InChI-Trust. 2020. Retrieved 2022-08-09.

[13] Warr, W.A. (2015). "Many InChIs and quite some feat". Journal of Computer-Aided Molecular Design. 29 (8): 681–694. Bibcode:2015JCAMD..29..681W. doi:10.1007/s10822-015-9854-3. PMID 26081259. S2CID 31786997

[14] Akhondi, S. A.; Kors, J. A.; Muresan, S. (2012). "Consistency of systematic chemical identifiers within and between small-molecule databases". Journal of Cheminformatics. 4 (1): 35. doi:10.1186/1758-2946-4-35. PMC 3539895. PMID 23237381.


[[קטגוריה:מזהים]] [[קטגוריה:קידוד נתונים]]