ביואינפורמטיקה

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
מפת כרומוזום X אנושי (מתוך אתר NCBI). מיפוי גנום האדם הוא אחד מהישגי הביואינפורמטיקה.

ביואינפורמטיקה (ביולוגיה חישובית) עוסקת בחקר המידע הביולוגי באמצעות מחשב. זהו ענף המדע העוסק בניתוח, ארגון והבנה של המידע השאוב מניסויים ביולוגים. הביואינפורמטיקה מיישמת כלים מתחום מדעי המחשב, המתמטיקה, הסטטיסטיקה ותורת המידע לשם עיבוד מידע ביולוגי רחב היקף. כלים אלה כוללים מודלים מתמטיים, אלגוריתמים ותוכניות מחשב, שמתאפיינים בהתמודדות עם מאגרי מידע גדולים, בעיות בסיבוכיות גבוהה, וחיפוש אחר תבניות.

תחום מדעי זה החל פורח בשנים האחרונות, הן בזכות זמינותם של מאגרי מידע ביולוגיים הולכים וגדלים (כגון: GenBank EMBL ,NCBI ,PubMed), והן בזכות פיתוחים טכנולוגיים בתחום חומרת המחשב, בתחום האלגוריתמים ובתחום מסדי הנתונים המאפשרים התמודדות ראויה עם אתגרים אלו.

תחומי הביואינפורמטיקה[עריכת קוד מקור | עריכה]

הביואינפורמטיקה עוסקת בנושאים מגוונים:

  • ניתוח רצפי DNA - כתוצאה מפרויקט הגנום האנושי ומפרויקטים אחרים כמו פרויקט "אלף הגנומים" [1] קיימים בידי החוקרים רצפים שלמים של DNA של מספר גדל והולך של אורגניזמים. על ידי סריקת הרצפים האלה ניתן לזהות תופעות שונות ברצף כגון: אפיון גנים, זיהוי רצפי בקרה שונים ואתרי קישור של גורמי שעתוק, זיהוי רצפים חוזרים, זיהוי נקודות שחבור חליפי (Alternative Splicing) ועוד.
  • ניתוח ובנית דגמים תלת ממדיים של מולקולות ביולוגיות מורכבות - בעיקר חלבונים וחומצות גרעין (DNA ו-RNA). מידע על המבנה התלת ממדי של חלבונים מושג על ידי קריסטלוגרפיה או NMR של חלבונים, אשר מפיקים קואורדינטות תלת ממדיות לכל אטום המרכיב את החלבון. למולקולות פשוטות יותר, כגון מולקולות RNA, ניתן לחזות את המבנה השניוני שלהן על פי הרצף, ברמת דיוק סבירה.
עץ פילוגנטי מבוסס על נתוני rRNA ובו נראית ההפרדה בין חיידקים, חיידקים קדומים, ואיקריוטיים
  • עצים פילוגנטיים המצביעים על דמיון בין אורגניזמים. בניית עץ פילוגנטי הייתה נעשית בעבר על פי תכונות חיצוניות של אורגניזמים שונים, וכיום היא נעשית על פי הבדלים ברצף ה-DNA בין גנים דומים באורגניזמים שונים.
  • סימולציה של תהליכים ביולוגיים באמצעות תוכנת מחשב.
  • ניתוח מידע באשר לביטוי של גנים, המופק על ידי שבבי DNA - שבבי DNA מאפשרים לדגום את תמונת המצב של הביטויים של רבבות גנים ברקמה מסוימת (מדידת רמת ה-RNA של הגנים). מידע המגיע משבבי DNA שהופקו מקבוצה של מספר אוכלוסיות שונות מאפשר לזהות גנים, אשר מעורבים במצבים שונים המפרידים בין האוכלוסיות השונות (למשל: בריאים לעומת חולים בסרטן, או אוכלוסיות החולות בסוגים שונים של סרטן, או אוכלוסיות המגיבות באופן שונה לתרופה מסוימת).
  • רשתות ביולוגיות - מאפשרות בניית מיפוי של אינטראקציות בין גנים, חלבונים ומולקולות בקרה באורגניזם מסוים.

עם מקורות המידע הזמינים לניתוח ביואינפורמטי נמנים:

בנוסף למחקר התאורטי הנרחב ולהעמקת בסיס הידע הביולוגי, טמון בביואינפורמטיקה פוטנציאל טיפולי-קליני: בגילוי ואבחון מחלות גנטיות מולדות, באבחון מוקדם של מחלות נרכשות עם בסיס גנטי מובהק כדוגמת הסרטן ואף בפיתוח תרופות.

שפות תכנות כגון Perl ופייתון הפכו לכלי עיקרי ליישומי ביואינפורמטיקה, ובעקבותיהן באו פרויקטים כגון BioPerl, הכוללים אוסף של אלגוריתמים לתחום זה.

שיטות בביואינפורמטיקה[עריכת קוד מקור | עריכה]

עימוד רצפים[עריכת קוד מקור | עריכה]

עימוד רצפים (באנגלית: Sequence Alignment) מתייחס לשיטות ממוחשבות המאפשרות להעמיד מספר רצפי DNA,‏ RNA או חלבון שונים זה מעל זה באופן שידגיש דמיון בין הרצפים. דמיון עשוי להעיד על קשרים אבולוציוניים, במבנה או בתפקוד.

כיום זמינים בידנו רצפי ה-DNA של קבוצה הולכת וגדלה של אורגניזמים. חלקים גדולים מהגנום קיימים ללא שינוי בין אורגניזמים שונים. למשל, רצף ה-DNA המקודד לחלבון המוגלובין נשמר מאוד לאורך האבולוציה - כלומר, האזור ב-DNA שמקודד לגן זה דומה מאוד בין בעלי חיים שונים.

ניתוח ביטוי גנים (Gene Expression Analysis)[עריכת קוד מקור | עריכה]

מטריצת ביטוי גנים
שני שבבי DNA

טכנולוגיות שונות כגון שבבי DNA‏ או RNA-Seq, מאפשרות לדגום את רמת הביטוי של אלפי גנים בו זמנית בעזרת מדידת כמות מולקולות ה-RNA שליח השונות בדגימה ביולוגית מסוימת.

מרבית הגנים בתא אינם מבוטאים - כלומר, אינם משועתקים מ-DNA ל-RNA שליח (אשר בדרך כלל מתורגם לבסוף לבניית חלבון). קבוצה קטנה של גנים מבוטאת במרבית סוגי התאים (House Keeping Genes - גנים הנחוצים לתחזוקה בסיסית של מרבית התאים), וקבוצה אחרת של גנים מתבטאת רק בתאים מסוג מסוים (למשל גן ההמוגולובין מתבטא באופן נורמלי רק בתאי דם אדומים). על כן, מדידת רמות הביטוי של גנים ברקמה נתונה מאפשרת ללמוד על מצבו של התא בזמן נתון - גן מסוים עשוי להתבטא ברמות שונות על פי סוג הרקמה (עור, דם, מוח), מצב התא (בתגובה לזיהום, בעת פעילות כלשהי) או במחלות מסוימות (תא סרטני יבטא גנים באופן שונה מרקמה נורמלית של אותו סוג תא).

בניתוח ביטוי גנים, נעשה שימוש באלגוריתמים שונים המאפשרים לזהות דפוסי ביטוי של גנים המבחינים בין קבוצות שונות של דגימות. אחד האתגרים בניתוח ביטוי גנים הוא הרעש הביולוגי ורעש המדידה שנלווה לסוג זה של ניסויים, מה שמצריך שימוש בשיטות סטטיסיות ואלגוריתמיות להבחנה בין סיגנל לרעש.

פעמים רבות ננסה למצוא גנים אשר מתבטאים באופן שונה בין שתי קבוצות של דגימות. למשל: ניתן לקחת 10 דגימות של רקמת מוח בריאה, ו-10 דגימות מגידול סרטני במוח, ולנסות למצוא גנים אשר מתבטאים במידה מועטה בכל הדגימות הבריאות, ובמידה רבה בכל הדגימות הסרטניות (או להפך). גנים כאלו עשויים לאפשר ללמוד על התהליך הביולוגי העומד מאחורי המחלה הנחקרת (אם אכן יש הבדל מובהק בין רמת הביטוי של גנים אלו בשתי האוכלוסיות, אזי סביר שהחלבונים אשר גנים אלו מקודדים, מעורבים בהיווצרות המצב הביולוגי שמבדיל בין שתי האוכלוסיות). אנליזה מסוג זה תכלול לרוב שימוש במבחנים סטטיסטיים המשווים ממוצע בין 2 קבוצות.

במקרים אחרים, ננסה למצוא דגימות אשר דומות אחת לשנייה מבחינת רמות הביטוי של קבוצת גנים מסוימת. למשל: אם נתונה קבוצה של 100 דגימות סרטן השד, נוכל לנסות ולקבץ את הדגימות לתת סוגים בעלי משמעות קלינית על פי רמות ביטוי הגנים בדגימות הושנות. אנליזה מסוג זה תכלול אלגוריתמים ללמידה בלתי-מונחית (Unsupervised learning) כגון אלגוריתמי קיבוץ (clustering), אשר מציבים זה ליד זה גנים (או דגימות) בעלי דפוס ביטוי דומה.

קישורים חיצוניים[עריכת קוד מקור | עריכה]