פורמט BED – הבדלי גרסאות

מתוך ויקיפדיה, האנציקלופדיה החופשית
תוכן שנמחק תוכן שנוסף
אין תקציר עריכה
הוספת הערות שוליים
שורה 1: שורה 1:
{{כ}}פורמט BED (ר"ת: Browser Extensible Data) הוא מונח [[ביואינפורמטיקה|בביואינפורמטיקה]] המתאר פורמט של קובץ טקסט שמשמש לאחסון מידע גנומי כ[[קואורדינטות]] ובנוסף מאחסן מידע מ[[אנוטציית DNA]]. הפורמט מציג את המידע כעמודות המופרדות ע"י רווח או [[טאב]], כאשר כל עמודה מכילה מידע שונה. פורמט BED פותח במהלך [[פרויקט גנום האדם]] ולאחר מכן אומץ לשימוש על ידי פרויקטים נוספים. כתוצאה משימוש נרחב בפורמט BED בעולם הביואינפורמטיקה, פורמט זה הפך לסטנדרט.
פורמט BED (ר"ת: Browser Extensible Data) הוא מונח [[ביואינפורמטיקה|בביואינפורמטיקה]] המתאר פורמט של קובץ טקסט שמשמש לאחסון מידע גנומי כ[[קואורדינטות]] ובנוסף מאחסן מידע מ[[אנוטציית DNA]]. הפורמט מציג את המידע כעמודות המופרדות ע"י רווח או [[טאב]], כאשר כל עמודה מכילה מידע שונה. פורמט BED פותח במהלך [[פרויקט גנום האדם]]<ref>{{צ-מאמר|שם=The Human Genome Browser at UCSC|קישור=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC186604/|כתב עת=Genome Research|שנת הוצאה=2002-6|עמ=996–1006|כרך=12|doi=10.1101/gr.229102|מחבר=W. James Kent, Charles W. Sugnet, Terrence S. Furey, Krishna M. Roskin}}</ref> ולאחר מכן אומץ לשימוש על ידי פרויקטים נוספים. כתוצאה משימוש נרחב בפורמט BED בעולם הביואינפורמטיקה, פורמט זה הפך לסטנדרט.


אחד ההיתרונות העיקריים של פורמט BED הוא הצגת המידע הגנומי כ[[קואורדינטות]] במקום הצגת המידע כרצף [[נוקלאוטידים]]. אופן הצגה זה מקל על קריאת וניתוח המידע ב[[שפת תסריט]] כגון :Python, Ruby, Perl ובכלים מיוחדים כמו BEDTools.
אחד ההיתרונות העיקריים של פורמט BED הוא הצגת המידע הגנומי כ[[קואורדינטות]] במקום הצגת המידע כרצף [[נוקלאוטידים]]. אופן הצגה זה מקל על קריאת וניתוח המידע ב[[שפת תסריט]] כגון :Python, Ruby, Perl ובכלים מיוחדים כמו BEDTools.
שורה 5: שורה 5:
== היסטוריה ==
== היסטוריה ==


בסוף המאה העשרים הופיעו הפרויקטים הראשונים לריצוף הגנום המלא. בין הפרויקטים הללו, פרויקט הגנום האנושי היה הבולט ביותר באותה תקופה, מטרתו הייתה לרצף לראשונה גנום של כמה ג'יגה-בסיסים. עם רצוף הגנום, נדרש ממרכזי הריצוף לפתח כלים לעיבוד הנתונים וניתוח אוטומטי שלהם. עקב דרישה זאת, פורמטים רבים נוצרו כגון: [[FASTQ]], GTF&GFF, BED.
בסוף המאה העשרים הופיעו הפרויקטים הראשונים לריצוף הגנום המלא. בין הפרויקטים הללו, פרויקט הגנום האנושי היה הבולט ביותר באותה תקופה, מטרתו הייתה לרצף לראשונה גנום של כמה ג'יגה-בסיסים. עם רצוף הגנום, נדרש ממרכזי הריצוף לפתח כלים לעיבוד הנתונים וניתוח אוטומטי שלהם. עקב דרישה זאת, פורמטים רבים נוצרו כגון: [[FASTQ]]<ref>{{צ-מאמר|שם=The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants|קישור=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2847217/|כתב עת=Nucleic Acids Research|שנת הוצאה=2010-4|עמ=1767–1771|כרך=38|doi=10.1093/nar/gkp1137|מחבר=Peter J. A. Cock, Christopher J. Fields, Naohisa Goto, Michael L. Heuer}}</ref>, GTF&GFF<ref>{{צ-מאמר|שם=GFF Utilities: GffRead and GffCompare|קישור=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7222033/|כתב עת=F1000Research|שנת הוצאה=2020-09-09|כרך=9|doi=10.12688/f1000research.23297.2|מחבר=Geo Pertea, Mihaela Pertea}}</ref>, BED.


== תבנית קובץ BED==
== תבנית קובץ BED==
לקובץ BED אין מפרט ספציפי, עם זאת התיאור שמספק דפדפן הגנום UCSC נמצא בשימוש רחב.
לקובץ BED אין מפרט ספציפי, עם זאת התיאור שמספק דפדפן הגנום UCSC<ref>{{קישור כללי|כתובת=http://genome.cse.ucsc.edu/FAQ/FAQformat.html#format1|כותרת=Genome Browser FAQ|אתר=genome.cse.ucsc.edu|תאריך_וידוא=2020-11-04}}</ref> נמצא בשימוש רחב.
לקובץ BED קיימות לפחות 3 עמודות, אליהן ניתן להוסיף עוד 9 עמודות (סה"כ 12 עמודות).
לקובץ BED קיימות לפחות 3 עמודות, אליהן ניתן להוסיף עוד 9 עמודות (סה"כ 12 עמודות).
שלוש העמודות החובה הן :
שלוש העמודות החובה הן :
שורה 67: שורה 67:
|-align="left"
|-align="left"
|
|
browser position chr7:127471196-127495720

browser hide all

track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"

chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0
chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0


שורה 94: שורה 88:
== סיומות הקובץ ==
== סיומות הקובץ ==
קובץ מפורמט BED נהוג להסתיים בסיומת "bed.".
קובץ מפורמט BED נהוג להסתיים בסיומת "bed.".
לעיתים מספר העמודות מצויין בסיום הקובץ לדוגמא: הפורמט המינימלי בעל 3 עמודות יסתיים ב"bed3.".
לעיתים מוסיפים את מספר העמודות בסיום הקובץ<ref>{{קישור כללי|כתובת=https://galaxyproject.org/learn/datatypes/#bed|כותרת=Datatypes|אתר=galaxyproject.org|תאריך_וידוא=2020-11-04}}</ref> לדוגמא: הפורמט המינימלי בעל 3 עמודות יסתיים ב"bed3." ,פורמט עם 6 עמודות יסתיים ב"bed6."
<references />

גרסה מ־16:18, 4 בנובמבר 2020

פורמט BED (ר"ת: Browser Extensible Data) הוא מונח בביואינפורמטיקה המתאר פורמט של קובץ טקסט שמשמש לאחסון מידע גנומי כקואורדינטות ובנוסף מאחסן מידע מאנוטציית DNA. הפורמט מציג את המידע כעמודות המופרדות ע"י רווח או טאב, כאשר כל עמודה מכילה מידע שונה. פורמט BED פותח במהלך פרויקט גנום האדם[1] ולאחר מכן אומץ לשימוש על ידי פרויקטים נוספים. כתוצאה משימוש נרחב בפורמט BED בעולם הביואינפורמטיקה, פורמט זה הפך לסטנדרט.

אחד ההיתרונות העיקריים של פורמט BED הוא הצגת המידע הגנומי כקואורדינטות במקום הצגת המידע כרצף נוקלאוטידים. אופן הצגה זה מקל על קריאת וניתוח המידע בשפת תסריט כגון :Python, Ruby, Perl ובכלים מיוחדים כמו BEDTools.

היסטוריה

בסוף המאה העשרים הופיעו הפרויקטים הראשונים לריצוף הגנום המלא. בין הפרויקטים הללו, פרויקט הגנום האנושי היה הבולט ביותר באותה תקופה, מטרתו הייתה לרצף לראשונה גנום של כמה ג'יגה-בסיסים. עם רצוף הגנום, נדרש ממרכזי הריצוף לפתח כלים לעיבוד הנתונים וניתוח אוטומטי שלהם. עקב דרישה זאת, פורמטים רבים נוצרו כגון: FASTQ[2], GTF&GFF[3], BED.

תבנית קובץ BED

לקובץ BED אין מפרט ספציפי, עם זאת התיאור שמספק דפדפן הגנום UCSC[4] נמצא בשימוש רחב. לקובץ BED קיימות לפחות 3 עמודות, אליהן ניתן להוסיף עוד 9 עמודות (סה"כ 12 עמודות). שלוש העמודות החובה הן :

chromosome - מספר הכרומוזום בו נמצא מקטע הDNA שרוצף. לרוב ניתן יהיה למצוא את התבנית הבאה : המילה ch ולאחר מכן מספר הכרומוזום הרלוונטי.

start position - נקודת ההתחלה של הרצף.

end position - נקודת הסיום של הרצף.

תשע העמודות הנוספות מספקות מידע נוסף על הרצף. בין העמודות יש להפריד בין רווחים או טאב. כמו כן, כל שורה בקובץ חייבת להכיל את אותו מספר עמודות.

עמודות בקובץ BED, באדום עמודות החובה
תיאור כותרת מספר עמודה
מספר הכרומוזום (לדוגמא: chr3,chrY) Chromosome 1
נקודת ההתחלה של הרצף Start position 2
נקודת הסיום של הרצף End position 3
שם הגן או שם הרצף Name 4
ציון בין 1 עד 1000 Score 5
+ או -, כאשר + מייצג את הגדיל sense ומינוס מייצג את הanti-sense Strand 6
נקודת ההתחלה של אלמנטים בגנום שמוצגים בדפדפן כאלמנטים עבים יותר (מבחינה תצוגה גרפית) למשל:cds gene thick start 7
נקודת הסיום של אלמנטים בגנום שמוצגים בדפדפן כעבים יותר thick end 8
ערך RGB שמייצג את צבע הרצף itemRGB 9
מספר הבלוקים (לדוגמא:אקסונים) בשורת הBED blockCount 10
רשימה של ערכים שמופרדים בנקודה והם מייצגים את גודל הבלוקים (מספר הערכים חייב להיות מתאים לblockCount) blockSizes 11
רשימה של ערכים שמופרדים בנקודה והם מייצגים את נקודת ההתחלה של כל בלוק blockStarts 12

דוגמאות

קובץ BED בפורמט מינימלי :

chr7 127471196 127472363

chr7 127472363 127473530

chr7 127473530 127474697

קובץ BED עם 9 עמודות :

chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0

chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0

chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0

chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0

chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255

chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255

chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255

chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0

chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255

סיומות הקובץ

קובץ מפורמט BED נהוג להסתיים בסיומת "bed.". לעיתים מוסיפים את מספר העמודות בסיום הקובץ[5] לדוגמא: הפורמט המינימלי בעל 3 עמודות יסתיים ב"bed3." ,פורמט עם 6 עמודות יסתיים ב"bed6."

  1. ^ W. James Kent, Charles W. Sugnet, Terrence S. Furey, Krishna M. Roskin, The Human Genome Browser at UCSC, Genome Research 12, 2002-6, עמ' 996–1006 doi: 10.1101/gr.229102
  2. ^ Peter J. A. Cock, Christopher J. Fields, Naohisa Goto, Michael L. Heuer, The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants, Nucleic Acids Research 38, 2010-4, עמ' 1767–1771 doi: 10.1093/nar/gkp1137
  3. ^ Geo Pertea, Mihaela Pertea, GFF Utilities: GffRead and GffCompare, F1000Research 9, 2020-09-09 doi: 10.12688/f1000research.23297.2
  4. ^ Genome Browser FAQ, genome.cse.ucsc.edu
  5. ^ Datatypes, galaxyproject.org