משתמש:Naamaomer/DbSNP

מתוך ויקיפדיה, האנציקלופדיה החופשית
דף זה אינו ערך אנציקלופדי
דף זה הוא טיוטה של Naamaomer.
דף זה אינו ערך אנציקלופדי
דף זה הוא טיוטה של Naamaomer.

   

dbSNP
תוֹכֶן
תיאור מסד נתונים של פולימורפיזם מסוג נוקלאוטיד בודד
אורגניזמים הומו סאפיינס
איש קשר
מרכז מחקר המרכז הלאומי למידע ביוטכנולוגיה
ציטוט ראשוני [1]PMID 21097890
תאריך הוצאה 1998
גישה
פורמט נתונים ASN.1, Fasta, XML
אתר www.ncbi.nlm.nih.gov/snp/
URL להורדה ftp://ftp.ncbi.nih.gov/snp/
URL של שירותי האינטרנט EUtilsSOAP

מאגר (מסד) הנתונים של פולימורפיזם מסוג נוקלאוטידים בודדים [1] (dbSNP) הוא ארכיון ציבורי שנגיש בחינם, המכיל מידע על שונות גנטית בתוך ובין מינים שונים. מסד נתונים זה פותח ומעודכן על ידי המרכז הלאומי למידע ביוטכנולוגיה (NCBI) בשיתוף עם המכון הלאומי לחקר הגנום האנושי (NHGRI). למרות שהשם של מאגר הנתונים ("פולימורפיזם מסוג נוקלאוטיד בודד") מרמז על אוסף של מחלקה אחת של פולימורפיזמים בלבד (כלומר, פולימורפיזמים נוקלאוטידים בודדים (SNPs)), הוא למעשה מכיל מגוון של וריאציות מולקולריות: (1) SNPs, (2) פולימורפיזמים קצרים של מחיקה והכנסה ( indels /DIPs), (3) סמני מיקרו-לווין או חזרות טנדם קצרות (STRs), (4) פולימורפיזמים רב-נוקלאוטידים (MNPs), (5) רצפים הטרוזיגוטיים ו- (6) וריאנטים בעלי שם. [2]

ה-dbSNP מקבל פולימורפיזמים ניטרליים לכאורה, פולימורפיזמים התואמים לפנוטיפים ידועים ואזורים ללא וריאציה. מאגר זה נוצר בספטמבר 1998 במטרה להשלים את GenBank, שהוא אוסף רצפי חומצות גרעין וחלבונים זמינים לציבור של NCBI. [2]

בשנת 2017, NCBI הפסיקה את התמיכה בכל האורגניזמים הלא אנושיים ב-dbSNP. [3] נכון ל-build 153 (שוחרר באוגוסט 2019, ערוץ למציאת SNP בגנום האנושי), dbSNP צברה כמעט 2 מיליארד הגשות המייצגות יותר מ-675 מיליון גרסאות נפרדות עבור Homo sapiens .


מַטָרָה[עריכת קוד מקור | עריכה]

dbSNP הוא משאב מקוון המיושם במטרה לסייע לחוקרי ביולוגיה. מטרתו הינה לפעול כמסד נתונים אחד המכיל את כל הווריאציות הגנטיות המזוהות, ושניתן להשתמש בו כדי לחקור מגוון רחב של תופעות טבע מבוססות גנטית. באופן ספציפי יותר, לאפשר גישה לווריאציה המולקולרית המקוטלת בתוך dbSNP מסייעת למחקר בסיסי כגון מיפוי פיזי, גנטיקה של אוכלוסיות, חקירות של יחסים אבולוציוניים, כמו גם היכולת לכמת במהירות ובקלות את כמות השונות באתר נתון של עניין. בנוסף, dbSNP יכול לתפקד כמנחה במחקר יישומי בתחום pharmacogenomics ומנחה האיגוד לוריאציה גנטית עם תכונות פנוטיפי. [4] דברי אתר האינטרנט של NCBI, "ההשקעה ארוכת הטווח במחקר חדשני ומרגש שכזה [dbSNP] מבטיחה לא רק לקדם את הביולוגיה האנושית אלא לחולל מהפכה בפרקטיקה של הרפואה המודרנית."

הגשה לdbSNP[עריכת קוד מקור | עריכה]

1. מָקוֹר[עריכת קוד מקור | עריכה]

במקור, dbSNP מקבל חיפושים (או הגשות) של רצפים גנטיים לכל אורגניזם ממגוון רחב של מקורות כולל מעבדות מחקר בודדות, מאמצי גילוי פולימורפיזם שיתופי, מרכזי ריצוף גנום בקנה מידה גדול, מסדי נתונים אחרים של SNP (למשל קונסורציום SNP, HapMap וכו') ועסקים פרטיים. [5] אם זאת, ב-1 בספטמבר 2017, dbSNP הפסיקה לקבל הגשות של נתונים על וריאציות לא אנושיות וחודשיים לאחר מכן, אתרי האינטרנט האינטראקטיביים שלה ושירותי NCBI קשורים הפסיקו להציג נתוני וריאציות לא אנושיות. כעת dbSNP מקבל ומציג רק נתוני וריאציות אנושיות.

2. סוגי רשומות[עריכת קוד מקור | עריכה]

כל וריאציה שנשלחה מקבלת מספר מזהה SNP שנשלח (מסומן ב:"ss#"). [5] מספר הצטרפות זה הוא מזהה יציב וייחודי עבור אותה הגשה. רשומות SNP ייחודיות שנשלחו מקבלים גם מספר SNP סימוכין ("rs#"; "refSNP cluster"). עם זאת, יותר מרשומה אחת של וריאציה תוגש ל-dbSNP, במיוחד עבור וריאציות רלוונטיות מבחינה קלינית. כדי לספק זאת, dbSNP מרכיב באופן שגרתי רשומות SNP זהות שהוגשו לרשומת SNP ייחוס יחידה, שהיא גם מזהה ייחודי ויציב (ראה להלן). [4]

3. כיצד להגיש[עריכת קוד מקור | עריכה]

כדי לשלוח וריאציות ל-dbSNP, יש תחילה לקבל submitter handle, המזהה את המעבדה האחראית להגשה. [4] לאחר מכן, המחבר נדרש להשלים קובץ הגשה המכיל את המידע והנתונים הרלוונטיים. הרשומות הנשלחות חייבות להכיל את עשרת חלקי המידע החיוניים המפורטים בטבלה הבאה. [4] מידע נוסף הנדרש להגשות כולל: מידע ליצירת קשר, מידע פרסום (כותרת, כתב עת, מחברים, שנה), סוג מולקולה ( DNA גנומי, cDNA, DNA מיטוכונדריאלי , DNA של כלורופלסט ) ואורגניזם. [4] מידע מפורט יותר על אופן ההגשה ל-dbSNP ניתן למצוא בכתובת: כיצד להגיש ל-dbSNP

אֵלֵמֶנט הֶסבֵּר
הקשר רצף (חובה) מרכיב חיוני בהגשה ל-dbSNP הוא מיקום חד משמעי עבור הווריאציה הנשלחת. dbSNP דורש כעת באופן מינימלי שתגיש מיקום וריאנט כעמדה מוגמרת ברצפי RefSeq או INSDC.
אללים (חובה) אללים מגדירים כל מחלקת וריאציה. dbSNP מגדיר וריאנטים של נוקלאוטידים בודדים בסכימת ההגשה שלו כ-G, A, T או C, ואינו מתיר קודי IUPAC מעורפלים, כגון N, בהגדרת האלל של וריאציה.
שיטה (חובה) על כל מגיש ל-dbSNP להגדיר את השיטות בהגשתו כטכניקות המשמשות לבדיקת וריאציות או הטכניקות. אלו ישמשו להערכת תדירויות אללים. dbSNP מקבץ מתודות (methods) ע"י method class כדי להקל על השאילתות, תוך שימוש בטכניקה ניסויית כללית כשדה שאילתה. המגיש מספק את כל שאר הפרטים של הטכניקות בתיאור (טקסט חופשי) של המתודה.
מקור אלל משוער (חובה) מוסר יכול לספק הצהרה (טענה) עם ראיות ניסיוניות תומכות לכך שלוריאנט יש מקור אללי מסוים. הצהרות עבור refSNP יחיד מסוכמות ומקבלות ערך תכונה של germline (מוטציות ג'רמינליות) או לא ידוע.
אוכלוסייה (חובה) כל מוסר מגדיר מדגמי אוכלוסיה או כקבוצה ששימשה לזיהוי וריאציות תחילה או כקבוצה המשמשת לזיהוי מדדים ספציפיים לאוכלוסייה של שכיחות אללים. אוכלוסיות אלה עשויות להיות זהות בכמה עיצובים ניסיוניים.
גודל דוגמה (אופציונלי) ישנם שני שדות "sample-size" ב-dbSNP. שדה אחד, SNPASSAY SAMPLE SIZE, מדווח על מספר הכרומוזומים במדגם המשמש לבירור או גילוי הווריאציה. שדה גודל המדגם האחר, SNPPOPUSE SAMPLE SIZE, מדווח על מספר הכרומוזומים המשמשים כמכנה בחישוב של הערכות תדרי אללים.
תדירויות אללים ספציפיות לאוכלוסייה (אופציונלי) נתוני תדירות נשלחים ל-dbSNP כספירת אללים או כמרווחי תדירות חבויים, בהתאם לדיוק השיטה הניסיונית המשמשת לביצוע המדידה. dbSNP מכיל רשומות של תדירויות אללים עבור דגימות אוכלוסייה ספציפיות המוגדרות על ידי כל שולח ומשמשות לאימות וריאציות שהוגשו.
תדירויות גנוטיפ ספציפיות לאוכלוסייה (אופציונלי) בדומה לאללים, לגנוטיפים יש תדרים באוכלוסיות שניתן להגיש ל-dbSNP, והם משמשים לאימות וריאציות שהוגשו.
גנוטיפים בודדים dbSNP מקבל גנוטיפים בודדים מדגימות שסופקו על ידי תורמים שהסכימו לאחסן את רצף ה-DNA שלהם במסד נתונים ציבורי (למשל HapMap או פרויקט 1000 גנומים).
מידע אימות (אופציונלי) מבחני שאומתו ישירות על ידי המגיש דרך סעיף VALIDATION מציגים את סוג הראיות המשמשות לאישוש השינוי.

הוצאה לאור[עריכת קוד מקור | עריכה]

מידע חדש שהושג על ידי dbSNP הופך לזמין לציבור מעת לעת בסדרה של "בונים" (כלומר תיקונים ושחרורים של נתונים). [4] אין לוח זמנים לשחרור מבנים חדשים; במקום זאת, בנייה משוחררת בדרך כלל כאשר מבנה גנום חדש הופך זמין, בהנחה שלגנום יש וריאציה מקוטלגת כלשהי הקשורה אליו. [6] זה מתרחש בערך כל 3-4 חודשים. רצפי הגנום עשויים להשתפר עם הזמן, כך שהפניות SNP ("refSNP") ממבנים קודמים, כמו גם SNPs חדשים שנשלחו, ממופים מחדש לרצף הגנום הזמין החדש. SNPs מרובים שנשלחו, אם מיפוי לאותו מיקום, מקובצים באשכול refSNP אחד ומוקצה להם מספר מזהה SNP ייחוס. עם זאת, אם נמצאו שתי רשומות אשכול refSNP ממפות לאותו מיקום (כלומר זהות), dbSNP ימזג גם את הרשומות הללו. במקרה זה, מזהה מספר ה-refSNP הקטן יותר (כלומר הרשומה המוקדמת ביותר) ייצג כעת את שתי הרשומות, ומזהי מספרי ה-refSNP הגדולים יותר יתיישנו. מזהי מספרי refSNP המיושנים הללו ואינם משמשים שוב עבור רשומות חדשות. כאשר מתרחש מיזוג של שתי רשומות refSNP, מתבצע מעקב אחר השינוי, ומזהי מספרי refSNP לשעבר עדיין יכולים לשמש כשאילתת חיפוש. תהליך זה של מיזוג רשומות זהות מפחית יתירות בתוך dbSNP. [6]

ישנם שני חריגים לקריטריוני המיזוג לעיל. ראשית, וריאציות של מחלקות שונות (למשל SNP ו-DIP) אינן מתמזגות. שנית, refSNPs בעלי חשיבות קלינית שצוטטו בספרות מכונים "יקרים"; מיזוג שיבטל refSNP כזה לעולם אינו מבוצע, מכיוון שהוא עלול לגרום מאוחר יותר לבלבול. [6]

שְׁלִיפָה[עריכת קוד מקור | עריכה]

1. איך עושים זאת[עריכת קוד מקור | עריכה]

ניתן לחפש את ה-dbSNP באמצעות כלי החיפוש Entrez SNP. ניתן להשתמש במגוון שאילתות לחיפוש: מזהה מספר ss, מזהה מספר refSNP, שם גן, שיטת ניסוי, מחלקת אוכלוסיה, פרט אוכלוסיה, פרסום, סמן, אלל, כרומוזום, בסיס מיקום, טווח הטרוזיגוסיות או מספר מבנה. [6] [7] בנוסף, ניתן לאחזר תוצאות רבות בו-זמנית באמצעות שאילתות אצווה. [6] חיפושים מחזירים מזהי מספר refSNP התואמים למונח השאילתה וסיכום המידע הזמין עבור אותו אשכול refSNP.

2. כלים/נתונים[עריכת קוד מקור | עריכה]

המידע הזמין עבור אשכול refSNP כולל את המידע הבסיסי מכל אחת מההגשות הבודדות (ראה "הגשה") וכן מידע זמין משילוב הנתונים ממספר הגשות (למשל הטרוזיגוסיות, תדירות גנוטיפ). כלים רבים זמינים לבחינת אשכול refSNP לעומק רב יותר. תצוגת מפה מציגה את המיקום של הווריאציה בגנום וריאציות אחרות בקרבת מקום. כלי נוסף, תצוגת גנים מדווחת על מיקום השונות בתוך גן (אם היא בגן), הקודון הישן והחדש, חומצות האמינו המקודדות על ידי שניהם, והאם השינוי הוא שם נרדף או לא נרדף. מציג הרצפים מציג את המיקום של הווריאציה ביחס לאינטרונים, אקסונים וגרסאות מרוחקות וקרובות אחרות. מיפוי מבנה תלת מימדי, המציג תמונות תלת מימד של החלבון המקודד, זמין גם כן.

ה-dbSNP מקושר גם למשאבי NCBI רבים אחרים, כולל מסדי נתונים של נוקלאוטידים, חלבונים, גנים, טקסונומיה ומבנה, כמו גם PubMed, UniSTS, PMC, OMIM ו-UniGene.

3. סטטוס אימות[עריכת קוד מקור | עריכה]

סטטוס האימות מפרט את קטגוריות הראיות התומכות בגרסה. אלה כוללים: (1) הגשות עצמאיות מרובות; (2) נתוני תדירות או גנוטיפ; (3) אישור המגיש; (4) תצפית על כל האללים בשני כרומוזומים לפחות; (5) גנוטיפ על ידי HapMap ; ו-(6) רצף בפרויקט 1000 גנומים . [6]

בעיות[עריכת קוד מקור | עריכה]

איכות הנתונים שנמצאו ב-dbSNP הוטלה בספק על ידי קבוצות מחקר רבות, [8] [9] [10] [11] [12] [13] אשר חושדות בשיעורים גבוהים של חיובי כוזבים עקב גנוטיפ ושגיאות קריאת בסיס. ניתן בקלות להזין טעויות אלו ל-dbSNP אם המוסר משתמש (1) ביישורים ביואינפורמטיים לא קריטיים של רצפי DNA מאוד דומים אך מובחנים, ו/או (2) PCRs עם פריימרים שאינם יכולים להבחין בין רצפי DNA דומים אך מובחנים. [8] מיטשל וחב'. (2004) [9] סקר ארבעה מחקרים [10] [11] [12] [13] והגיע למסקנה כי ל-dbSNP יש שיעור חיובי שגוי בין 15-17% עבור SNPs, וכן כי תדירות האללים המינוריים גדולה מ-10% עבור כ-80% מה-SNPs שאינם תוצאות חיוביות שגויות. באופן דומה, Musemeci et al. (2010) [8] קובע כי עד 8.32% מה-SNP המקודדים הביאלליים ב-dbSNP הם חפצים של רצפי DNA דומים מאוד (כלומר גנים פרלוגיים) ומתייחסים לערכים אלו כהבדלים נוקלאוטידים בודדים (SND). ייתכן ששיעורי השגיאות הגבוהים ב-dbSNP לא מפתיעים: מתוך 23.7 מיליון כניסות refSNP לבני אדם, רק 14.5 מיליון אושרו, מה שמותיר את 9.2 מיליון הנותרים כ-SNPs מועמדים. עם זאת, לפי Musemeci et al. (2010), [8] אפילו קוד האימות שסופק ברשומת refSNP שימושי רק חלקית: רק אימות HapMap הפחית את מספר ה-SNDs (3% לעומת 8%), אבל רק קבלת שיטה זו מסירה יותר ממחצית מה-SNPs האמיתיים ב-dbSNP. מחברים אלה מציינים גם שמקור אחד להגשות מקבוצת לי נגוע בשגיאות: 20% מההגשות הללו הן SNDs (לעומת 8% להגשות). עם זאת, כפי שמציינים המחברים, התעלמות מכל ההגשות הללו תסיר SNPs אמיתיים רבים.

שגיאות ב-dbSNP עלולות להפריע למחקרי קשרי גנים מועמדים [14] וחקירות מבוססות הפלוטיפ. [15] שגיאות עשויות גם להגביר מסקנות שגויות במחקרי אסוציאציות: [8] הגדלת מספר ה-SNPs הנבדקים על ידי בדיקת SNPs שגויים דורשת יותר מבחני השערה. עם זאת, SNPs כוזבים אלה אינם יכולים להיות קשורים למעשה לתכונות, ולכן רמת האלפא יורדת יותר ממה שצריך לבדיקה קפדנית אם רק ה-SNPs האמיתיים נבדקו והשיעור השלילי השגוי יגדל. Musemeci et al. (2010) [8] הציע שמחברים של מחקרי קשר שלילי יבדקו את המחקרים הקודמים שלהם עבור SNPs שקריים (SNDs), שניתן להסיר מהאנליזה.

כיצד לצטט נתונים מ-dbSNP[עריכת קוד מקור | עריכה]

ניתן להתייחס לרצפים בודדים לפי מספרי זיהוי אשכול ה-refSNP שלהם (למשל rs206437). יש להתייחס ל-dbSNP באמצעות 2001 Sherry et al. נייר: Shery, ST, Ward, MH, Kholodov, M., Baker, J., Phan, L., Smigielski, EM, Sirotkin, K. (2001). dbSNP: מסד הנתונים של NCBI של שונות גנטית. מחקר חומצות גרעין, 29: 308-311. [5]

ראה גם[עריכת קוד מקור | עריכה]

הפניות[עריכת קוד מקור | עריכה]

קטגוריה:מוטציות גנטיות קטגוריה:מכונים לאומיים לרפואה

  1. ^ "Database resources of the National Center for Biotechnology Information". Nucleic Acids Res. 35 (Database issue): D5–12. בינואר 2007. doi:10.1093/nar/gkl1031. PMC 1781113. PMID 17170002. {{cite journal}}: (עזרה); פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  2. ^ 1 2 Sherry ST, Ward M; Sirotkin, K. (1999). "dbSNP - database for single nucleotide polymorphisms and other classes of minor genetic variation". Genome Research. 9 (8): 677–679. doi:10.1101/gr.9.8.677. PMID 10447503.
  3. ^ "Phasing out support for non-human genome organism data in dbSNP and dbVar". 2017-05-09. נבדק ב-9 ביולי 2017. {{cite web}}: (עזרה)
  4. ^ 1 2 3 4 5 6 Kitts A; Sherry S (2009). "The single nucleotide polymorphism database (dbSNP) of nucleotide sequence variation". National Center for Biotechnology Information (US). {{cite journal}}: Cite journal requires |journal= (עזרה) שגיאת ציטוט: תג <ref> בלתי־תקין; השם "Kitts" הוגדר כמה פעמים עם תוכן שונה
  5. ^ 1 2 3 "dbSNP: the NCBI database of genetic variation". Nucleic Acids Res. 29 (1): 308–311. 2001. doi:10.1093/nar/29.1.308. PMC 29783. PMID 11125122. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה) שגיאת ציטוט: תג <ref> בלתי־תקין; השם "Sherry" הוגדר כמה פעמים עם תוכן שונה
  6. ^ 1 2 3 4 5 6 NCBI (2010). "The single nucleotide polymorphism database (dbSNP) frequently asked questions". National Center for Biotechnology Information (US). {{cite journal}}: Cite journal requires |journal= (עזרה) שגיאת ציטוט: תג <ref> בלתי־תקין; השם "FAQ" הוגדר כמה פעמים עם תוכן שונה
  7. ^ Phillips, C (2007). "Online resources for SNP analysis: A review and route map". Molecular Biotechnology. 35 (1): 65–97. doi:10.1385/MB:35:1:65. PMID 17401150.
  8. ^ 1 2 3 4 5 6 "Single Nucleotide Differences (SNDs) in the dbSNP Database May Lead to Errors in Genotyping and Haplotyping Studies". Human Mutation. 31 (1): 67–73. בינואר 2010. doi:10.1002/humu.21137. PMC 2797835. PMID 19877174. {{cite journal}}: (עזרה); פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה) שגיאת ציטוט: תג <ref> בלתי־תקין; השם "Musemeci" הוגדר כמה פעמים עם תוכן שונה
  9. ^ 1 2 "Discrepancies in dbSNP confirmation rates and allele frequency distributions from varying genotyping error rates and patterns". Bioinformatics. 20 (7): 1022–1032. 2004. doi:10.1093/bioinformatics/bth034. PMID 14764571. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  10. ^ 1 2 "Additional SNPs and linkage-disequilibrium analyses are necessary for whole-genome association studies in humans". Nature Genetics. 33 (4): 518–521. 2003. doi:10.1038/ng1128. PMID 12652300. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  11. ^ 1 2 "High-Throughput Variation Detection and Genotyping Using Microarrays". Genome Research. 11 (11): 1913–1925. 2001. doi:10.1101/gr.197201. PMC 311146. PMID 11691856. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  12. ^ 1 2 Gabriel SB; Schaffner SF; Nguyen H; Moore J.M; Roy J; Blumenstiel B; Higgins J; DeFelice M; Lochner A (2003). "The structure of haplotype blocks in the human genome". Science. 296 (5576): 2225–2229. doi:10.1126/science.1069424. PMID 12029063. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  13. ^ 1 2 "Quality and completeness of SNP databases". Nature Genetics. 33 (4): 457–458. 2003. doi:10.1038/ng1133. PMID 12652301. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  14. ^ "Current limitations of SNP data from the public domain for studies of complex disorders: a test for ten candidate genes for obesity and osteoporosis". BMC Genetics. 5: 4. 2004. doi:10.1186/1471-2156-5-4. PMC 395827. PMID 15113403. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  15. ^ de Bakker PI; Yelensky R; Pe’er I; Gabriel SB; Daly MJ; Altshuler D (2005). "Efficiency and power in genetic association studies". Nature Genetics. 37 (11): 1217–1223. doi:10.1038/ng1669. PMID 16244653. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)