פורמט FASTA

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

פורמט FASTA הוא מונח בביואינפורמטיקה המתאר את צורת הכתיבה המוסכמת לייצוג של רצף הנוקלאוטידים בחומצת גרעין או את רצף חומצות האמינו בחלבון. בפורמט מתיר גם קיום של שורת פתיחה, בו ניתן להוסיף תווי הערות באופן חופשי. מקור הפורמט הוא בתוכנה FASTA, על אף קיומם של פורמטים אחרים, פורמט FASTA הפך להיות הפורמט המקובל בביואינפורמטיקה. הפשטות של הפורמט הופכת את הרצף להיות קל לעיבוד באמצעות כלי עיבוד טקסט ושפות תכנות כמו פייתון, פרל ורובי.

תיאור הפורמט[עריכת קוד מקור | עריכה]

בשורת הפתיחה יופיע הסימן “<” ולאחריו תיאור הרשומה. בשורות לאחר מכן מופיע הרצף, וכל נוקלאוטיד או חומצה אמינית מיוצגים באות אחת ללא רווחים או מספור.

דוגמאות לרצפים בפורמט FASTA:

;LCBO - Prolactin precursor - Bovine
; a sample sequence in FASTA format
MDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSS
EMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHL
VTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDED
ARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC*

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY

אורך השורה הוא לרוב 80 אותיות, אך הגבול המירבי הוא 120 אותיות. האורך נקבע לפי הגודל הסטנדרטי של מסופי מחשב, וכן בדף מודפס שורה (כתלות בגופן) ישנם 70-80 תווים. שורת הפתיחה אינה נצרכת, אך היא אפשרית. ניתן גם להשתמש בשורת הפתיחה בסימן ";" כדי להוסיף הערה, אך זה פחות מקובל. בשורת הפתיחה יופיעו לרוב שם הרצף, שם האורגניזם ומזהה ייחודי לרצף. לאחר שורת הפתיחה יבוא הרצף עצמו, כאשר כל תו שאינו תקני לא יזוהה (ראו פירוט בהמשך). הרצף יכול להסתיים בכוכבית (*), המסמל את קודון הסיום.

ניתן להכניס בקובץ מספר רצפי FASTS שונים, כאשר הם מופרדים זה מזה בתחילת שורה חדשה ובסימן "<".

שורת הפתיחה[עריכת קוד מקור | עריכה]

לשורת הפתיחה, או שורת ההערה, המתחילה בסימן "<" מקובל להכניס תיאור של הרצף ומזהה ייחודי שלו. ישנם מאגרים המשתמשים בתו "|" בכדי להפריד בין שדות שונים. ישנן תוכנות שמציגות את שורת התיאור כשם החלבון, אך לעיתים הן יקרא עד הרווח הראשון או לחלופין יהיו מוגבלים למספר מסוים של תווים. לכן מקובל לערוך את שורת הפתיחה לפי תוכנת היעד.

ה-NCBI הגדיר תקן למזהה ייחודי (accession) של רצפים שבו מקובל להשתמש בשורת הפתיחה. השדות המקובלים במאגרי מידע שונים כוללים לרוב קיצור של שם מאגר המידע, מספר המזהה הייחודי ושם הרצף:

מאגר מידע שדות הפורמט
GenBank gb|accession|locus
EMBL Data Library emb|accession|locus
DDBJ, DNA Database of Japan dbj|accession|locus
NBRF PIR pir||entry
Protein Research Foundation prf||name
SWISS-PROT sp|accession|entry name
Brookhaven Protein Data Bank pdb|entry|chain
Patents pat|country|number
GenInfo Backbone Id bbs|number
General database identifier gnl|database|identifier
NCBI Reference Sequence ref|accession|locus
Local Sequence identifier lcl|identifier

הרצף[עריכת קוד מקור | עריכה]

הרצף חייב להיות של תווים התקניים המייצגים חומצות אמינו או נוקליאוטידים. מלבד זאת, ניתן להשתמש בתו "-" בכדי לייצג רווח, ובתו "*" לייצג קודון סיום. אותיות קטנות (a) יומרו לאותיות גדולות (A). שימוש במספרים אסור, אך לעיתים יימצא במאגרי מידע כדי לתת מידע על אורך הרצף.

התווים המותרים לחומצות גרעין:

קוד חומצת גרעין משמעות הקוד משמעות הסימול
A A אדנין (Adenine)
C C ציטוזין (Cystosine)
G G גואנין (Guanine)
T T תימין (Thymine)
U U אורציל (Uracil)
R A\G פורין (Purine)
Y C\T\U פירימידין (Pyrimidine)
K G\T\U בסיסים קטוניים (Ketones)
M A\C בסיסים עם קבוצות אמיניות (Amino)
S C\G בסיסים בעלי זיווג חזק (Strong)
W A\T\U בסיסים בעלי זיווג חלש (Weak)
B הכל מלבד אדנין (C\G\T\U) האות B מופיעה לאחר A בא"ב
D הכל מלבד ציטוזין (A\G\T\U) האות D מופיעה לאחר C בא"ב
H הכל מלבד גואנין (A\C\T\U) האות H מופיעה לאחר G בא"ב
V הכל מלבד תימין או אורציל האות V מופיעה לאחר U בא"ב
N כל חומצה אמינית נוקליאוטיד (Nucleotide)
- רווח

התווים המותרים לחומצות אמינו:

קוד חומצת אמינו משמעות הקוד
A אלנין
B חומצה אספרטית או אספרגין (D\N)
C ציסטאין
D חומצה אספרטית
E חומצה גלוטמית
F פנילאלנין
G גליצין
H היסטידין
I איזולאוצין
J לאוצין או איזולאוצין (L\I)
K ליזין
L לאוצין
M מתיונין
N אספרגין
O פירוליזין
P פרולין
Q גלוטמין
R ארגינין
S סרין
T תראונין
U סלנוציסטאין
V ואלין
W טריפטופן
Y טירוזין
Z חומצה גלוטמית או גלוטמין (E\Q)
X כל חומצה אמינית
* קודון סיום
- רווח

סיומת קובץ[עריכת קוד מקור | עריכה]

אין סיומת תקנית לקבצים המכילים רצפים בצורת FASTA. הטבלה שלהלן מכילה סיומות מקובלות ומשמעותן:

סיומת משמעות הערות
fasta סיומת כללית מתאים לכל קובץ FASTA. סיומות מקוצרות יותר הן: fas, fa, seq, fsa
fna fasta nucleic acid מייחד את הקובץ כקובץ FASTA של חומצות גרעין
ffn רצפי נוקליאוטידים של גנים מכיל איזורים מקודדים לחלבון מתוך גנום
faa fasta amino acid מייחד את הקובץ כקובץ FASTA של חומצות אמינו
frn fasta non-coding RNA מכיל רצפים של RNA לא מקודד (כגון tRNA, rRNA)

ראו גם[עריכת קוד מקור | עריכה]