Shotgun sequencing

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

בגנטיקה, shotgun sequencing או shotgun cloning (בתרגום מילולי: ריצוף בשיטת רובה הציד) היא שיטה המשמשת לריצוף גדילי DNA ארוכים. שיטה זו נקראת כך כאנלוגיה לדפוס הירי האקראי למחצה והמתפשט במהירות של רובה הציד.

מאחר ושיטת ה-chain termination ("סיום השרשרת", מכונה גם ריצוף בשיטת סנגר) לריצוף DNA יכולה לשמש רק עבור גדילים קצרים יחסית (100 עד 1000 בסיסים), יש לחלק את הרצפים הארוכים יותר לחתיכות קטנות יותר, ולאחר מכן לחבר אותן מחדש על מנת לקבל את הרצף הכולל. שתי שיטות עיקריות משמשות לצורך כך:

  1. chromosome walking ("טיול על הכרומוזום") – שיטה בה מתקדמים לאורך כל הגדיל, חתיכה אחר חתיכה.
  2. ריצוף בשיטת shotgun sequencing – תהליך מהיר יותר אך מורכב יותר, המשתמש ברצפים אקראיים.

בשיטת ה-shotgun sequencing, שוברים את ה-DNA באופן אקראי למקטעים קטנים רבים והם מרוצפים בשיטת ה-chain termination על מנת לקבל את הקריאות (reads). לאחר ביצוע חזרות רבות של פרגמנטציה וריצוף מתקבלות חפיפות רבות של הקריאות עבור ה-DNA הנחקר. בשלב הבא, תוכנות מחשב משתמשות בקצוות החופפים של קריאות שונות על מנת להרכיב אותן לרצף יחיד.

שיטה ה-shotgun sequencing הייתה אחת הטכנולוגיות הראשונות שאיפשרו ריצוף מלא של הגנום.

דוגמה[עריכת קוד מקור | עריכה]

בתור דוגמה, נסתכל על שתי החזרות הבאות של קריאות מריצוף ה-shotgun sequencing:

גדיל רצף
מקורי AGCATGCTGCAGTCATGCTTAGGCTA
הרצף הראשון שהתקבל AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
הרצף השני שהתקבל AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
שחזור של הרצף המקורי AGCATGCTGCAGTCATGCTTAGGCTA

זוהי דוגמה פשוטה ביותר, שבה אף אחת מהקריאות לא מכסה את האורך המלא של הרצף המקורי, אבל ניתן להשתמש בארבע הקריאות כדי להרכיב את הרצף המקורי תוך שימוש בחפיפות של הקצוות שלהם על מנת ליישר ולסדר אותם. במציאות, תהליך זה משתמש בכמויות עצומות של מידע, המלאות בחוסר ודאות ובשגיאות ריצוף. הרכבה של גנומים מורכבים מסובכת אף יותר על ידי המספר הרב של רצפים שחוזרים על עצמם (repetitive sequence), מה שאומר שקריאות קצרות זהות יכולות להגיע מחלקים שונים לחלוטין של הגנום.

על מנת להתגבר על קשיים אלה ועל מנת להרכיב את הרצף השלם בצורה מדויקת נדרשות קריאות חופפות רבות עבור כל רצף מה-DNA המקורי. לדוגמה, על מנת להשלים את פרויקט הגנום האנושי, רוב הגנום האנושי רוצף בכיסוי (coverage) של 12X ואף יותר; כלומר, כל בסיס ברצף הסופי הופיע בממוצע ב-12 קריאות. ואף על פי כן, השיטות הנוכחיות נכשלו בניסיון לבודד או להרכיב רצף אמין של כ-1% מהגנום ההומאני (האאוכרומטי).

ריצוף גנום שלם בשיטת ה-shotgun sequencing[עריכת קוד מקור | עריכה]

ריצוף גנום שלם על ידי שימוש בשיטת ה-shotgun sequencing עבור גנומים קטנים (4000 עד 7000 זוגות בסיסים) היה בשימוש כבר ב-1979. שיטת ה-pairwise end sequencing (ריצוף מבוסס קצוות), הידועה יותר בשם double-barrel shotgun sequencing (ריצוף בשיטת רובה הציד כפול הקנה) תרמה ליישום נרחב יותר של השיטה. ככל שפרויקטי הריצוף התחילו להתמודד עם רצפי DNA ארוכים ומורכבים יותר, קבוצות רבות הבינו שניתן לקבל מידע מועיל על ידי ריצוף של שני הקצוות של מקטע DNA. אף על פי שריצוף שני הקצוות של אותו מקטע ומעקב אחר הנתונים היה מסורבל יותר מאשר ריצוף של קצה יחיד של שני רצפים שונים, הידע ששני הרצפים היו בכיוונים הפוכים והיו בערך במרחק של אורך מקטע אחד זה מזה (כלומר המרחק ביניהם היה ידוע באופן מקורב), היה בעל ערך לצורך שחזור הרצף של מקטע המטרה המקורי. התיאור הראשון שפורסם על שימוש בזיווג קצוות (paired ends) היה ב-1990, כחלק מריצוף הלוקוס ההומני HGPRT, אם כי השימוש בזיווג קצוות היה מוגבל לסגירת הפערים שנותרו לאחר יישום שיטת ה-shotgun sequencing המסורתית. התיאור הראשון של שימוש באסטרטגיית pairwise end טהורה, המניחה שהמקטעים הם באורך קבוע, פורסם בשנת 1991. באותו תקופה היה קונצנזוס בקהילה שאורך המקטע האופטימלי עבור ריצוף בשיטת pairwise end אמור להיות פי 3 מאורך רצף הקריאה. ב-1995 חוקרים ממעבדתו של Roach הציגו את החידוש שבשימוש במקטעים ממגוון גדלים, והדגימו שריצוף באסטרטגיית pairwise end-sequencing טהורה הוא אפשרי עבור רצפים גדולים. בעקבות זאת, אסטרטגיה זו אומצה על ידי המכון למחקר גנומי (The Institute for Genomic Research ,TIGR) על מנת לרצף את הגנום של החיידק Haemophilus influenzae בשנת 1995, ולאחר מכן על ידי חברת Celera Genomics כדי לרצף את הגנום של Drosophila melanogaster (זבוב הפירות) בשנת 2000, ולבסוף לריצוף הגנום האנושי.

כדי ליישם את השיטה, DNA בעל משקל מולקולרי גבוה מחולק למקטעים רנדומליים, נבחר על סמך גודל (בדרך כלל 2, 10, 50, ו-150 אלפי בסיסים), ומוחדר לתוך וקטור (פלסמיד) מתאים. לאחר מכן המקטעים מרוצפים משני קצותיהם בשיטת ה-chain termination, מה שמניב שני רצפים קצרים. כל רצף נקרא קריאת קצה (end-read) או קריאה (read) ולשתי קריאות מאותו מקטע קוראים mate pairs (זוגות משלימים). מאחר ששיטת ה-chain termination יכולה בדרך כלל להפיק קריאות באורך של בין 100 ל-500 בסיסים, זוגות משלימים יהיו חופפים ברצפם לעתים רחוקות למעט המקרים של ריצוף מקטעים קצרים ביותר.

הרצף המקורי משוחזר מהקריאות באמצעות שימוש בתוכנה להרכבת רצפים. תחילה, קריאות חופפות נאספות לרצפים ארוכים ומורכבים יותר המכונים contigs. רצפים אלו יכולים להיות מקושרים יחדיו להרכבת "פיגומים" (scaffolds) על ידי מעקב אחר הקשרים בין זוגות משלימים. ניתן להסיק לגבי המרחק בין contigs על סמך המיקום של זוגות משלימים, אם ידוע האורך הממוצע של מקטע בספריה ויש לו טווח סטייה צר. בהתאם לגודל הפער בין ה-contigs, טכניקות שונות יכולות למצוא את הרצפים שבפערים. אם הפער הוא קטן (5 עד 20 אלפי בסיסים) אז נדרש שימוש ב-PCR על מנת להגביר את האזור הרצוי, ולאחר מכן מבוצע הריצוף. אם הפער גדול (יותר מ-20 אלף בסיסים) אז המקטע הגדול משובט לוקטורים מיוחדים כדוגמת כרומוזומים בקטריאליים מלאכותיים (BAC) ולאחר מכן מבוצע ריצוף של הווקטור.

חסידי הגישה הזו טוענים כי ניתן לרצף את כל הגנום בפעם אחת באמצעות שימוש במערכים גדולים של מכונות ריצוף (sequencers), מה שהופך את כל התהליך להרבה יותר יעיל לעומת הגישות המסורתיות יותר. המתנגדים לשיטה טוענים כי אף על פי שהשיטה מרצפת בצורה מהירה אזורים גדולים של DNA, היכולת שלה לקשור רצפים אלו בצורה נכונה נתונה בספק, במיוחד עבור גנומים עם אזורים אשר חוזרים על עצמם. ככל שתוכנות להרכבת רצפים הופכות למתוחכמות יותר וכוח המחשוב הופך לזול יותר, ייתכן וניתן יהיה להתגבר על מגבלה זו.

כיסוי (coverage)[עריכת קוד מקור | עריכה]

כיסוי ("עומק הקריאה" או פשוט ה"עומק"), הוא המספר הממוצע של קריאות המייצגות נוקליאוטיד מסוים ברצף שהורכב מחדש. את הערך ניתן לחשב על סמך האורך של הגנום המקורי (G), מספר הקריאות (N) ואורך קריאה ממוצעת (L) לפי הנוסחה הבאה: N*L/G. לדוגמה, לגנום היפותטי בעל 2,000 זוגות בסיסים אשר מורכב מחדש מ-8 קריאות עם אורך ממוצע של 500 נוקלאוטידים, יהיה עומק של X2 ‏(2x redundancy). פרמטר זה מאפשר גם להעריך כמויות אחרות, כדוגמת אחוז הגנום המכוסה על ידי הקריאות (גם הוא לעתים מכונה באנגלית coverage). כיסוי גבוה בריצוף shotgun sequencing רצוי משום שהוא יכול להתגבר על שגיאות בקריאת בסיסים והרכבתם. הנושא של תאוריית ריצוף DNA מטפל ביחסים שבין כמויות כאלה.

לעתים נעשית הבחנה בין כיסוי רצפים לבין כיסוי פיזי. כיסוי רצפים הוא המספר הממוצע של פעמים שבהם בסיס נקרא (כפי שתואר קודם). כיסוי פיזי הוא מספר הפעמים הממוצע שבסיס נקרא או שנמצאו עבורו קריאות משלימות מתאימות.

ריצוף היררכי בשיטת shotgun sequencing[עריכת קוד מקור | עריכה]

אף על פי שבאופן תאורטי ניתן ליישם את שיטת ה-shotgun sequencing על גנום בכל גודל, יישומה בריצוף גנומים גדולים (לדוגמה, הגנום ההומני) היה מוגבל עד שנות ה-90 המאוחרות, כאשר ההתקדמות הטכנולוגית הפכה את העבודה עם כמויות נרחבות של מידע מורכב המעורב בתהליכים שונים למעשי יותר. מבחינה היסטורית, האמינו שריצוף מלא של הגנום בשיטת ה-shotgun sequencing מוגבל גם על ידי הגודל של גנומים גדולים וגם על ידי המורכבות שנוספת על ידי האחוז הגבוה של חזרות DNA (הגדול מ-50% בגנום האנושי) המופיע בגנומים גדולים. לא היה מקובל שריצוף בשיטה זו של גנום גדול יספק מידע אמין. מהסיבות האלה, שיטות אחרות היו צריכות להתבצע לפני ה-shotgun sequencing על מנת להקטין את העומס החישובי של הרכבת רצפים. בריצוף היררכי, המכונה גם ריצוף מלמעלה-למטה, יוצרים מפה פיזית של הגנום ברזולוציה נמוכה לפני הריצוף עצמו. מהמפה הזו בוחרים עבור הריצוף מספר מינימלי של מקטעים שמכסים את כל הכרומוזום. בדרך זו קטן הצורך בשימוש בריצוף מרובה תפוקה והרכבה.

הגנום המוגבר תחילה נחתך לחתיכות גדולות (50-200 אלפי בסיסים) ומוכנס לתוך מאכסן חיידקי בעזרת BACs או PACs‏ (P1-derived artificial chromosome, כרומוזום מלאכותי המבוסס על גנום הבקטריופאג'. מכיוון שעותקים רבים של הגנום נחתכים בצורה רנדומאלית, המקטעים שנמצאים בעותקים הם בעלי קצוות שונים, ועם כיסוי מספיק גבוה, מציאת ה"פיגומים" של ה-BAC contigs אשר מכסה את כל הגנום היא אפשרית באופן תאורטי. ה"פיגומים" האלה נקראים tiling path (נתיב ריצוף). ברגע ש-tiling path כזה נמצא, ה-BACs שיצרו את המסלול הזה נחתכים למקטעים בצורה רנדומלית ויכולים להיות מרוצפים בעזרת שיטת shotgun sequencing בקנה מידה קטן יותר.

אף על פי שהרצפים השלמים של ה-BAC contigs לא ידועים, הכיוון היחסי שלהם אחד לשני כן ידוע. יש מספר שיטות להשגת הסדר הזה ובחירת ה-BACs שייצרו את נתיב הריצוף. האסטרטגיה הכללית היא זיהוי של עמדות בעותקים הקשורים אחד לשני ולאחר מכן בחירה במספר הנמוך ביותר של עותקים הנדרשים ליצירת "פיגום" רציף שמכסה את כל האזור שאנו מעוניינים בו. הסדר של העותקים נקבע על פי הדרך בה הם חופפים. עותקים חופפים יכולים להיות מזוהים במספר דרכים:

  1. פרובים שמסומנים בצורה רדיואקטיבית או כימית המכילים אתרי רצפים מתויגים (sequence-tagged site – STS) אשר עוברים השלמת בסיסים עם העותקים המודפסים שמצויים על microarray. בדרך זו, כל העותקים שמכילים רצף מסוים בגנום יכולים להיות מזוהים. הקצה של אותם עותקים יכול להיות מרוצף על מנת ליצור פרוב חדש והתהליך חוזר על עצמו בשיטה שנקראת "chromosome walking".
  2. ספרית ה-BAC יכולה להיות מורכבת מחדש. שני עותקים שיש להם במשותף כמה גדלים של מקטעים, מניחים שהם חופפים משום שהם מכילים אתרי רסטריקציה מרובים משותפים דומים. שיטה זו של מיפוי גנומי נקראת " restriction fingerprinting" משום שהיא מזהה סט של אתרי רסטריקציה המוכלים בכל עותק. לאחר שהחפיפה בין הרצפים נמצאה והסדר היחסי שלהם בגנום נמצא, "פיגום" של קבוצת משנה מינימלית של ה-contigs שמכסים את כל הגנום מרוצפים בשיטת ה-shotgun sequencing.

ריצוף היררכי בשיטת shotgun sequencing איטי יותר מאשר ריצוף של כל הגנום בשיטת shotgun sequencing משום שהיא כרוכה ביצירת מפה עם רזולוציה נמוכה של הגנום, אך יחד עם זאת הריצוף ההיררכי מסתמך פחות על כבדות אלגוריתם חישובי להרכבת הגנום מאשר ריצוף של כל הגנום. בנוסף לכך, תהליך יצירת הספרייה של BAC ובחירת ה-tiling path הופך את הריצוף ההיררכי לאיטי יותר ודורש עבודה אינטנסיבית יותר. כעת, כאשר הטכנולוגיה זמינה והאמינות של המידע הוכחה, מהירות ויעילות הריצוף של כל הגנום בשיטת הshotgun sequencing הפכו אותה לשיטה העיקרית עבור ריצוף הגנום.

ריצוף בשיטת shotgun ובשיטות ריצוף מהדור החדש[עריכת קוד מקור | עריכה]

הריצוף הקלאסי בשיטת shotgun sequencing מבוסס על ריצוף בשיטת סנגר (sanger sequencing), הטכניקה המתקדמת ביותר לקביעת רצף הגנום מאז 1995-2005. כיום עדיין נעשה שימוש ב-shotgun sequencing, זאת תוך כדי שימוש בטכנולוגיות אחרות הנקראות Next-generation sequencing (הדור החדש של הריצוף). טכנולוגיות אלה מייצרות קריאות קצרות יותר (25-500 בסיסים) אך יחד עם זאת, הן מייצרות מאות אלפים או מיליוני קריאות בזמן קצר. דבר זה מאפשר כיסוי גבוה, אבל תהליך ההרכבה הרבה יותר יקר מבחינה חישובית. טכנולוגיות אלה עדיפות על פני ריצוף בשיטת סנגר משום הנפח הגדול של הנתונים והזמן הקצר שנדרש על מנת לרצף את כל הגנום. החיסרון העיקרי הוא שהדיוק נמוך יותר (אף על פי שהכיסוי הגבוה מפצה על כך).