עימוד רצפים

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

בביואינפורמטיקה, עימוד רצפים היא שיטה לסידור המידע על אודות רצפי DNA ,RNA או חלבונים, בצורה כזו שיהיה ניתן לזהות אזורים דומים, אשר ייתכן כי הם תוצאה של קשרים פונקציונאלים, מבניים או אבולוציונים.

עימוד רצפי של נוקלאוטידים או שיירי חומצות אמינו מיוצגים לרוב על ידי שורות במטריצה. רווחים מוכנסים בין הרצפים כך שרצפים דומים מעומדים בעמודות. ההשוואה בין הרצפים המעומדים מקבלת ציון הומולוגיה אשר עשוי להעיד על פעילות ביולוגית דומה של הרצפים. לרישום הרצפים פותח פורמט FASTA.

עימוד רצפים שנוצר על ידי ClustalW של שני חלבוני zinc finger אשר פוענחו.
מפתח: אותיות בודדות: חומצות אמינו. אדום: קטנות, הידרופוביות, ארומטיות, לא Y. כחול: חומציות. סגול: בסיסיות. ירוק: הידרוקסיל, אמין, אמיד, בסיסיות. אפור: אחרות.
"*" : זהות .":": שינויים שמורים (אותה קבוצת צבעים). ".": שינויים שמורים-למחצה (מבנה דומה).
דוגמה לתוצאות של Multiple sequence alignment

אלגוריתמים נפוצים לעימוד רצפים המבוססים על תכנון דינמי הם אלגוריתם נידלמן וונש (Needleman-Wunsch), המיועד לעימוד רצפים גלובלי, ואלגוריתם סמית-ווטרמן (Smith-Waterman) המיועד לעימוד רצפים לוקלי (מציאת אזורים דומים במחרוזות של דנ"א או חומצות אמינו).

עימוד רצפים באמצעות תכנון דינמי[עריכת קוד מקור | עריכה]

עימוד רצפים גלובלי[עריכת קוד מקור | עריכה]

כאשר נתונה מטריצת החלפות (כדוגמת BLOSUM62 או PAM250), המגדירה את ציון לכל החלפה של אותיות וכאשר ניתן ציון חוסר באות, הציון לעימוד של שני רצפים מוגדר כסכום הציונים לכל העמדות. בעיית עימוד רצפים גלובלי היא בעיה שבה מתאימים בין כל אות ברצף אחד לאות ברצף השני כאשר שני הרצפים דומים, במטרה למצוא את העימוד הטוב ביותר, במובן שציון העימוד יהיה מקסימלי.

לדוגמה כאשר הציון של אות חסרה הוא -5 ונעשה שימוש במטריצת החלפות הבאה:

A G C T
A 10 -1 -3 -4
G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8

ניתן לחשב ציון עבור עימוד של שני רצפים:

רצף א' A G A C T A G T T A C
רצף ב' C G A - - - G A C G T
ציון -3 7 10 -5 -5 -5 7 -4 0 -1 0

הציון הכולל המתקבל מסכימת הציונים על כל העמדות בדוגמה לעיל 1.

אלגוריתם נידלמן וונש (Needleman-Wunsch)‏‏[1] מיועד לפתור בעיה זו ביעילות (סיבוכיות זמן ומקום של  \ O(n^2) - עבור רצפים באורך n) תוך שימוש בתכנון דינמי, באמצעות מילוי מטריצת F_{ij}, המגדירה את ציון העימוד המיטבי עבור תת-המחרוזת מ-A המתחילה מהאות האפס (מחרוזת ריקה) ונגמרת באות ה-i=0,\dotsc,n ותת המחרוזת ב-B המתחילה באפס ונגמרת באות ה-j=0,\dotsc,m. הטבלה מוגדרת על פי הבסיס (שורה אפס ועמודה אפס):

F_{0j} = d*j
F_{i0} = d*i

והרקורסיה (יתר המטריצה) מאותחלת על פי ערך העימוד המיטבי:

F_{ij} = \max \begin{Bmatrix}
F_{i-1,j-1)}+ \ w(A_i,B_j) & \text{Match/Mismatch} \\
F_{i-1,j} + \ d & \text{Deletion} \\
F{i,j-1} + \ d & \text{Insertion}
\end{Bmatrix}
,\; 1\le i\le n, 1\le j\le m


כאשר: w(a,b),\; a, b\in\Sigma מגדיר את הציון להחלפה ו-d מציין ציון לרווח.


ציון העימוד המיטבי עבור הרצף A והרצף B מוגדר על פי F_{nm}, כאשר את העימוד המתאים לציון זה (העימוד המיטבי) ניתן למצוא באמצעות מילוי טבלה נוספת המגדירה מצביעים בהתאם לבחירה ובסיום לפעול בעקיבה לאחור (Backtracking) החל מהתא המתאים -F_{nm}.

עימוד רצפים מקומי[עריכת קוד מקור | עריכה]

בבעיית עימוד רצפים מקומי המטרה היא למצוא אזור (תת רצף) המתאים ביותר בין שני רצפים (אך לא נדרש עימוד לרצף המלא). אלגוריתם סמית-וטרמן (Smith-Waterman) ‏‏[2] פותר בעיה זו בסיבוכיות זמן ומקום של  \ O(n^2) (עבור רצפים באורך n). באלגוריתם זה ממלאים טבלה F_{ij} המגדירה את העימוד המיטבי לסיפא של הרצף A מ-0 (מחרוזת ריקה) ועד האות i, ולסיפא של הרצף B מ-0 ועד האות j. הטבלה מוגדרת על פי הבסיס:


F_i0 = 0,\; 0\le i\le m


F_0j = 0,\; 0\le j\le n


\text{ if } a_i = b_j
then 
w(a_i, b_j) = w\text{(match)}

\text{ or if } a_i \neq b_j
then 
w(a_i, b_j) = w\text{(mismatch)}

F_{ij} = \max \begin{Bmatrix}
0  \\
F_{i-1,j-1)}+ \ w(a_i,b_j) & \text{Match/Mismatch} \\
F_{i-1,j} + \ w(a_i,-) & \text{Deletion} \\
F{i,j-1} + \ w(-,b_j) & \text{Insertion}
\end{Bmatrix}
,\; 1\le i\le m, 1\le j\le n

כאשר:

  • m = \text{length}(a)
  • n = \text{length}(b)
  • w(c,d),\; c, d\in\Sigma\cup\{'-'\} - ציון להחלפה, כאשר '–' הוא מציין רווח

אלגוריתם זה דומה לאלגוריתם נידלמן וונש, אך ציון שלילי מוחלף ב-0 (כלומר מוטב להתחיל עימוד חדש מהמקום מאשר להמשיך את העימוד הקודם), והעימוד הטוב ביותר נבחר כמקסימום במטריצת הציונים (ולא המיקום האחרון).

לקריאה נוספת[עריכת קוד מקור | עריכה]

  • Richard Durbin, Sean R. Eddy, Anders Krogh, Graeme Mitchison (1999). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press. ISBN 0-521-62971-3.

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Needleman, Saul B.; and Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325. 
  2. ^ Smith, Temple F.; and Waterman, Michael S. (1981). "Identification of Common Molecular Subsequences". Journal of Molecular Biology 147: 195–197. doi:10.1016/0022-2836(81)90087-5. PMID 7265238. 


P biology.svg ערך זה הוא קצרמר בנושא ביולוגיה. אתם מוזמנים לתרום לוויקיפדיה ולהרחיב אותו.