לדלג לתוכן

Phred quality score

מתוך ויקיפדיה, האנציקלופדיה החופשית

ציון Phred (פרד) להערכת איכות הוא מדד איכותי לזיהוי הבסיסים (נוקליאוטידים) שמוצגים כפלט בתהליך ריצוף DNA. ציון זה פותח במקור עבור תוכנת המחשב ששימשה לריצוף ה-DNA במסגרת פרויקט גנום האדם. ציון פרד ניתן לכל נוקליאוטיד בפני עצמו, בהתאם לקריאתו ולזיהויו במהלך ריצוף ה-DNA. פורמט ה-FASTQ (פורמט נפוץ להצגת רצפי DNA) מקודד את ציון פרד כתווי ASCII ומציג אותם לצד הרצפים שהתקבלו. ציוני פרד מהווים מדד מקובל בעולם הריצוף לאפיון איכות רצפי ה-DNA, ומאפשרים להשוות את טיב התוצרים המתקבלים משיטות ריצוף שונות. אחד מהשימושים החשובים ביותר בציוני פרד הם קביעה אוטומטית ואיכותית של רצפי קונצנזוס, באופן מדויק.

ציון פרד Q קשור קשר לוגריתמי להסתברות לטעות בזיהוי הנוקליאוטיד, P. הנוסחה לחישוב Q או P:


או:

הקשר בין ציון פרד לבין אחוז הטעות:
ציון פרד הסיכוי לטעות בקריאת הבסיס נכונות קריאת הבסיס
10 1:10 90%
20 1:100 99%
30 1:1000 99.9%
40 1:10,000 99.99%
50 1:100,000 99.999%
60 1:1,000,000 99.9999%

את הרעיון לייצג איכות של ריצוף על ידי ציונים ניתן לייחס לקבצי ה-SCF שנוצרו על ידי Staden's grpup בשנת 1992. בשנת 1995, Staden's grpup הציגו שיטה לשיפור הנכונות של רצפי הקונצנזוס שפוענחו בפרויקט הגנום האנושי. עם זאת, הניסיונות הראשונים לכך זכו להצלחה חלקית בלבד.
התכנית הראשונה לפיתוח ציוני איכות מדויקים ומבוססים הייתה תוכנית Phred, שהצליחה לחשב ציוני איכות מדויקים יותר בזכות הקישור הלוגריתמי להסתברות לטעות. ציון פרד אומץ על ידי כל המרכזים שעסקו בריצוף הגנום האנושי, כמו גם מעבדות רבות אחרות. הרוב המכריע של רצפי ה-DNA שהופקו במהלך הפרויקט עובדו באמצעות המדד של ציון פרד.
לאחר שציוני פרד הפכו לסטנדרט הנדרש בריצוף DNA, יצרנים שונים של מכשירי ריצוף (כולל Li-Cor ו-ABI) פיתחו מדדי איכות דומים עבור התוכנות שלהם.

כדי לקבוע את ציוני האיכות, פרד מחשב תחילה מספר פרמטרים הקשורים ל"פיק" בקריאת כל בסיס - הן מבחינת צורת הפיק והן מבחינת הרזולוציה שלו. לאחר מכן, פרד משתמש בפרמטרים הללו כדי להתאים להם את ציון האיכות, תוך שימוש בטבלאות בדיקה גדולות. הטבלאות הללו נוצרו על ידי רצפים ידועים שהותאם להן ציון פרד, כאשר טבלאות שונות מושמשות עבור שיטות ריצוף שונות.
המכונות הראשונות עבורן פותח ציון פרד היו מסוג "slab gel" (למשל, מכונת ABI373). במקור, התוצאות שנתן פרד היו מדויקות יותר מאלה שהתקבלו על ידי התוכנה שהוטמעה במכונה, ולכן השימוש בהן היה רב. בהמשך, יצרני מכשירים כמו ABI עמלו על פיתוח תוכנות דומות, שסיפקו ציוני איכות מדויקים יותר על ידי התאמה מרבית למכונות עצמן, כך שהצורך בשימוש בציוני פרד פחת.

ציוני Phred משמשים להערכת איכות הרצף, זיהוי והסרה של רצף באיכות נמוכה (end clipping), וקביעת רצפי קונצנזוס מדויקים.

במקור, ציוני האיכות של Phred שימשו בעיקר את תוכנת Phrap להרכבת הרצפים. התוכנה שימשה את החוקרים בכמה מפרויקטי הריצוף הגדולים ביותר (ביניהם, פרויקט ריצוף הגנום האנושי) וכיום היא אחת מהתוכנות הנפוצות להרכבת רצפי DNA בתעשיית הביוטכנולוגיה. Phrap משתמשת בציוני איכות Phred כדי לקבוע רצפי קונצנזוס מדויקים ביותר, וכדי לאמוד את איכות רצפי הקונצנזוס. בנוסף, התוכנה מבצעת שימוש בציוני פרד כדי להעריך את חוסר התאמה בין רצפים חופפים, במטרה לקבוע האם מדובר בשגיאה בקריאה או שחל שינוי בין הרצפים.

במסגרת פרויקט הגנום האנושי, השימוש החשוב ביותר בציוני האיכות של Phred היה לקביעת אוטומטית של רצפי קונצנזוס. לפני כן, המדענים נאלצו לבצע קביעה ידנית של איכות הרצף ועריכה ידנית של כל שגיאה. השימוש בתוכנת Phrap גרם לכך שהיה ניתן באופן אוטומטי לקבוע את רצף הקונצנזוס האיכותי ביותר - דבר שהוביל, ברוב המקרים, לביטול הצורך בעריכה ידנית. על כן, שיעור השגיאות המשוער ברצפים שחושבו באופן אוטומטי על ידי Phred ו- Phrap, היה ברובו ממוך משמעותית משיעור השגיאות של הרצפים שערכו באופן ידני.

ציוני האיכות נשמרים בדרך כלל יחד עם רצף הנוקליאוטידים בפורמט FASTQ המקובל. הם מהווים כמחצית משטח הדיסק הנדרש בפורמט FASTQ (לפני דחיסה), ולכן דחיסת ערכי האיכות יכולה להפחית משמעותית את גודל האחסון הדרוש, ובכך להאיץ את האנליזה ואת העברת נתוני הרצף. בספרות ניתן למצוא גם שיטות המבצעות דחיסה ללא איבוד נתונים, וגם שיטות דחיסה בהן יש איבוד נתונים מסוים. לדוגמה, האלגוריתם QualComp מבצע דחיסה עם אחוז איבוד בהתאם להגדרת המשתמש; הוא מקצה את מספר הביטים מראש כדי למזער את ה- MSE (שגיאת ריבוע ממוצעת) בין ערכי האיכות המקוריים (הלא דחוסים) לבין המשוחזרים (לאחר דחיסה). ישנם אלגוריתמים אחרים לדחיסת ערכי איכות שאינם כוללים אובדן נתונים, כמו SCALCE Fastqz, QZV, MPEG-G ו-AQUa. לדוגמה, SCALCE משתמש בהקטנת גודל האלף-בית, וזאת על סמך ההבנה כי ערכי איכות "שכנים" בערכם, ניתן לייצג גם בטווח אותיות קטן יותר.