עימוד רצפים

בביואינפורמטיקה, עימוד רצפים היא שיטה לסידור המידע על אודות רצפי DNA ,RNA או חלבונים, בצורה כזו שיהיה ניתן לזהות אזורים דומים, אשר ייתכן כי הם תוצאה של קשרים פונקציונלים, מבניים או אבולוציוניים.

עימוד רצפי של נוקלאוטידים או שיירי חומצות אמינו מיוצגים לרוב על ידי שורות במטריצה. רווחים מוכנסים בין הרצפים כך שרצפים דומים מעומדים בעמודות. ההשוואה בין הרצפים המעומדים מקבלת ציון הומולוגיה אשר עשוי להעיד על פעילות ביולוגית דומה של הרצפים. לרישום הרצפים פותח פורמט FASTA.

עימוד רצפים שנוצר על ידי ClustalW של שני חלבוני zinc finger אשר פוענחו.
מפתח: אותיות בודדות: חומצות אמינו. אדום: קטנות, הידרופוביות, ארומטיות, לא Y. כחול: חומציות. סגול: בסיסיות. ירוק: הידרוקסיל, אמין, אמיד, בסיסיות. אפור: אחרות.
"*" : זהות .":": שינויים שמורים (אותה קבוצת צבעים). ".": שינויים שמורים-למחצה (מבנה דומה).

אלגוריתמים נפוצים לעימוד רצפים המבוססים על תכנון דינמי הם אלגוריתם נידלמן וונש (Needleman-Wunsch), המיועד לעימוד רצפים גלובלי, ואלגוריתם סמית-ווטרמן (Smith-Waterman) המיועד לעימוד רצפים לוקלי (מציאת אזורים דומים במחרוזות של דנ"א או חומצות אמינו).

עימוד רצפים באמצעות תכנון דינמי[עריכת קוד מקור | עריכה]

עימוד רצפים גלובלי[עריכת קוד מקור | עריכה]

כאשר נתונה מטריצת החלפות (כדוגמת BLOSUM62 או PAM250), המגדירה את ציון לכל החלפה של אותיות וכאשר ניתן ציון חוסר באות, הציון לעימוד של שני רצפים מוגדר כסכום הציונים לכל העמדות. בעיית עימוד רצפים גלובלי היא בעיה שבה מתאימים בין כל אות ברצף אחד לאות ברצף השני כאשר שני הרצפים דומים, במטרה למצוא את העימוד הטוב ביותר, במובן שציון העימוד יהיה מקסימלי.

לדוגמה כאשר הציון של אות חסרה הוא -5 ונעשה שימוש במטריצת החלפות הבאה:

	A	G	C	T
A	10	-1	-3	-4
G	-1	7	-5	-3
C	-3	-5	9	0
T	-4	-3	0	8

ניתן לחשב ציון עבור עימוד של שני רצפים:

רצף א'	A	G	A	C	T	A	G	T	T	A	C
רצף ב'	C	G	A	-	-	-	G	A	C	G	T
ציון	-3	7	10	-5	-5	-5	7	-4	0	-1	0

הציון הכולל המתקבל מסכימת הציונים על כל העמדות בדוגמה לעיל 1.

אלגוריתם נידלמן וונש (Needleman-Wunsch)‏^[1] מיועד לפתור בעיה זו ביעילות (סיבוכיות זמן ומקום של $\ O(n^{2})$ - עבור רצפים באורך n) תוך שימוש בתכנון דינמי, באמצעות מילוי מטריצת $F_{ij}$ , המגדירה את ציון העימוד המיטבי עבור תת-המחרוזת מ-A המתחילה מהאות האפס (מחרוזת ריקה) ונגמרת באות ה- $i=0,\dotsc ,n$ ותת המחרוזת ב-B המתחילה באפס ונגמרת באות ה- $j=0,\dotsc ,m$ . הטבלה מוגדרת על פי הבסיס (שורה אפס ועמודה אפס):

F_{0j}=d*j

F_{i0}=d*i

והרקורסיה (יתר המטריצה) מאותחלת על פי ערך העימוד המיטבי:

F_{ij}=\max {\begin{Bmatrix}F_{i-1,j-1}+\ w(A_{i},B_{j})&{\text{Match/Mismatch}}\\F_{i-1,j}+\ d&{\text{Deletion}}\\F_{i,j-1}+\ d&{\text{Insertion}}\end{Bmatrix}},\;1\leq i\leq n,1\leq j\leq m

כאשר: $w(a,b),\;a,b\in \Sigma$ מגדיר את הציון להחלפה ו-d מציין ציון לרווח.

ציון העימוד המיטבי עבור הרצף A והרצף B מוגדר על פי $F_{nm}$ , כאשר את העימוד המתאים לציון זה (העימוד המיטבי) ניתן למצוא באמצעות מילוי טבלה נוספת המגדירה מצביעים בהתאם לבחירה ובסיום לפעול בעקיבה לאחור (Backtracking) החל מהתא המתאים - $F_{nm}$ .

עימוד רצפים מקומי[עריכת קוד מקור | עריכה]

בבעיית עימוד רצפים מקומי המטרה היא למצוא אזור (תת רצף) המתאים ביותר בין שני רצפים (אך לא נדרש עימוד לרצף המלא). אלגוריתם סמית-וטרמן (Smith-Waterman) ‏^[2] פותר בעיה זו בסיבוכיות זמן ומקום של $\ O(n^{2})$ (עבור רצפים באורך n). באלגוריתם זה ממלאים טבלה $F_{ij}$ המגדירה את העימוד המיטבי לסיפא של הרצף A מ-0 (מחרוזת ריקה) ועד האות i, ולסיפא של הרצף B מ-0 ועד האות j. הטבלה מוגדרת על פי הבסיס:

$F_{i}0=0,\;0\leq i\leq m$

$F_{0}j=0,\;0\leq j\leq n$

${\text{ if }}a_{i}=b_{j}$ then $w(a_{i},b_{j})=w{\text{(match)}}$ ${\text{ or if }}a_{i}\neq b_{j}$ then $w(a_{i},b_{j})=w{\text{(mismatch)}}$

$F_{ij}=\max {\begin{Bmatrix}0\\F_{i-1,j-1}+\ w(a_{i},b_{j})&{\text{Match/Mismatch}}\\F_{i-1,j}+\ w(a_{i},-)&{\text{Deletion}}\\F_{i,j-1}+\ w(-,b_{j})&{\text{Insertion}}\end{Bmatrix}},\;1\leq i\leq m,1\leq j\leq n$

כאשר:

$m={\text{length}}(a)$
$n={\text{length}}(b)$
$w(c,d),\;c,d\in \Sigma \cup \{'-'\}$ - ציון להחלפה, כאשר '–' הוא מציין רווח

אלגוריתם זה דומה לאלגוריתם נידלמן וונש, אך ציון שלילי מוחלף ב-0 (כלומר מוטב להתחיל עימוד חדש מהמקום מאשר להמשיך את העימוד הקודם), והעימוד הטוב ביותר נבחר כמקסימום במטריצת הציונים (ולא המיקום האחרון).

ראו גם[עריכת קוד מקור | עריכה]

לקריאה נוספת[עריכת קוד מקור | עריכה]

Richard Durbin, Sean R. Eddy, Anders Krogh, Graeme Mitchison (1999). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press. ISBN 0-521-62971-3.

קישורים חיצוניים[עריכת קוד מקור | עריכה]

מדיה וקבצים בנושא עימוד רצפים בוויקישיתוף

הערות שוליים[עריכת קוד מקור | עריכה]

^ Needleman, Saul B.; and Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.{{cite journal}}: תחזוקה - ציטוט: multiple names: authors list (link)
^ Smith, Temple F.; and Waterman, Michael S. (1981). "Identification of Common Molecular Subsequences" (PDF). Journal of Molecular Biology. 147: 195–197. doi:10.1016/0022-2836(81)90087-5. PMID 7265238. אורכב מ-המקור (PDF) ב-2012-07-17. נבדק ב-2014-01-31.{{cite journal}}: תחזוקה - ציטוט: multiple names: authors list (link)

[Needleman-1] Needleman, Saul B.; and Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.{{cite journal}}: תחזוקה - ציטוט: multiple names: authors list (link)

[Smith1981-2] Smith, Temple F.; and Waterman, Michael S. (1981). "Identification of Common Molecular Subsequences" (PDF). Journal of Molecular Biology. 147: 195–197. doi:10.1016/0022-2836(81)90087-5. PMID 7265238. אורכב מ-המקור (PDF) ב-2012-07-17. נבדק ב-2014-01-31.{{cite journal}}: תחזוקה - ציטוט: multiple names: authors list (link)

[1]

[2]