MP3

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

MP3 הוא אלגוריתם פופולרי לקידוד ודחיסה מאבדת נתונים (lossy compression) של אותות שמע. מטרת האלגוריתם הינה לצמצם במידה ניכרת את כמות המידע הנחוצה לייצוג הצליל, אולם עדיין לאפשר שיחזור שישמע נאמן למקור לרוב המאזינים. המונח MP3 מתייחס גם לקובצי קול או מוזיקה השמורים בפורמט זה.

השם המלא של האלגוריתם הוא "MPEG-2 Audio Layer 3".

רקע[עריכת קוד מקור | עריכה]

שמירת אותות קוליים (אודיו) בצורה דיגיטלית דורשת נפח אחסון רב. איכות שמע של תקליטור שקידוד הסאונד שלו מבוצע בטכנולוגיית PCM או "Pulse Code Modulation", מושגת על ידי 44,100 רשימות (דגימות) של 32 סיביות (מדובר בסטריאו - שני ערוצים של 16 סיביות כל אחד) עבור כל שנייה. כלומר כ-1.4 מיליון סיביות לשנייה. אלגוריתמי דחיסה כלליים (כדוגמת ZIP) אמנם מצליחים להקטין את נפח הקבצים, אבל לא ברמה הנחוצה. בפועל, עבור איכויות המוגדרות טובות (128 ועד 320 קילו-סיביות לשנייה), גדלי קובצי MP3 הינם כ־10% - 20% מהגודל המקורי של הקובץ. לדוגמה - שיר שאורכו 4 דקות, בקידוד רגיל של תקליטור ידרוש נפח של 40MB, אך כשדוחסים את אותו שיר בקידוד MP3 השיר ידרוש נפח של בערך 4MB בלבד.

הרעיונות המרכזיים[עריכת קוד מקור | עריכה]

מבנה קובץ MP3

כדי להקטין את גודל הקובץ, משתמש האלגוריתם במספר מאפיינים שנובעים מהצורה בה המח והאוזן האנושית מעבדים קול:

  1. סף הרגישות (The minimal audition threshold) - המאזין הרגיל לא ישמע צלילים בעוצמות הנמוכות מסף מסוים. בניסויים בבני אדם נמצא שסף זה תלוי בתדר הצליל. כמובן שסף זה אינו נכון עבור כל בני האדם, אולם הסף האישי עבור הרוב נמצא קרוב מאוד אליו. לכן נוכל למחוק את כל הצלילים שלא עוברים את הסף ולדעת בסבירות גבוהה כי רוב המאזינים לא ירגישו בהבדל.
  2. הסתרות (The masking effect) - האופן בו נגיב לצליל מסוים תלוי מאוד במכלול הצלילים שאותם אנו שומעים במקביל. הדבר דומה למערכת הראייה - נגיב באופן שונה לריבוע בצבע מסוים המופיע על גבי רקע בהיר או כהה, תחושת הצבע שלנו תהיה שונה. דוגמה אחרת היא כאשר לא נשים לב להבדלי גוון קטנים. לשם כך נבנו מודלים מתמטיים המתארים את תגובת האדם למכלול של צלילים, מודלים הנקראים מודלים פסיכו-אקוסטיים. רעיונות פסיכולוגיים קשים לכימות ולכן ישנם כמה מודלים, שונים במידה זו או אחרת זה מזה. נוכל לכן לבחור מודל מסוים ועל פיו להחליט אילו צלילים באמת נחוצים ואילו לא יחסרו למאזינים.
  3. קידוד סטריאו מאוחד (Joint Stereo coding) - בני האדם קולטים אותות קוליים דרך האוזניים, הנמצאות במרחק זו מזו. הצלילים הנקלטים די דומים אולם ברוב המקרים אחד מהם עובר דרך קצת ארוכה יותר ולכן מגיע באיחור מה. מוח האדם משתמש בהפרשי הזמנים כדי לחשב את הכיוון ממנו הגיע הצליל (עקרונות פשוטים של גאומטריה), אולם תחושה זו נפגעת עבור תדרים גבוהים או נמוכים מאוד ויכולתו של האדם לחוש את כיוון מקור הצליל נחלשת. לכן, במקום לשמור את שני הערוצים, נוכל לשמור מידע של ערוץ אחד בלבד ובנוסף מידע מצומצם מאוד על המיקום. חיסכון נוסף עבור סטריאו ניתן להשיג עבור שני ערוצים דומים. במקרה כזה נוכל לקודד את סכומם ואת ההפרש שלהם במקום את הערוצים המקוריים (הסבר מלא לקוח מתורת האינפורמציה).
  4. קידוד הופמן (Huffman coding) - השימוש בקידוד הופמן אינו שונה כאן מבכל מקום אחר. קטעי ביטים בעלי סבירות גבוהה מקודדים כמחרוזות קצרות ואילו קטעי ביטים בעלי סבירות נמוכה מקודדים כמחרוזות ארוכות יותר. בממוצע נקבל פחות ביטים. חלק זה משלים במידת מה את רעיון ההסתרות. בקטע קולי מגוון, ישנן הרבה הסתרות והרבה מאוד קטעי ביטים שונים, לכן נקבל חסכון בעזרת המודל הפסיכו-אקוסטי אולם לא נרוויח יותר מדי מקוד הופמן. במקרה ההפוך, כאשר נעבוד עם אותות פשוטים (המורכבים ממספר מצומצם של תדרים שונים), לא נחסוך הרבה ממחיקת ההסתרות אולם קוד הופמן ישיג תוצאות טובות יותר.
  5. מאגר ביטים (Bytes reservoir) - חלקים מסוימים עלולים לדרוש יותר סיביות מאחרים כדי להגיע לרמה סבירה של איכות. לחלופין, קטעים מסוימים יכולים להיות פשוטים יותר לקידוד מאחרים. לשם כך נוכל להשתמש במאגר ביטים כדי "להעבירם למקום בו הם נחוצים יותר".

היסטוריה[עריכת קוד מקור | עריכה]

קידוד "MPEG-1 Audio Layer 2" או בקיצור ה-MP2, התחיל את דרכו בפרויקט DAB (אשר פעל מ-1987 עד 1994), פרי יוזמת אגודת פראנהופר ובמימון האיחוד האירופי (כחלק ממחקר הEUREKA, הידוע גם כ-EU-147). ב-1991 הוגשו שתי הצעות לאלגוריתם הדחיסה: Musicam והASPEC, ראשי תיבות של Adaptive Spectral Perceptual Entropy Coding. לבסוף נבחר Musicam להיות MP2 בגלל הפשטות שלו וחסינותו לרעשים. קבוצת מתכנתים, בהם קרלהיינץ ברנדנבורג ויורגן הר שאבה רעיונות מרכזיים מ-Musicam ומ-ASPEC, הוסיפה כמה רעיונות משלה, ויצרה את ה-MP3, אלגוריתם משופר אשר תוכנן להשיג את האיכות של MP2 המקודד ב-192 קילוביט לשנייה (Kb/s) בעזרת 128 קילוביט לשנייה בלבד. פיתוח שני האלגוריתמים הסתיים ב-1992 והוגדרו ב"MPEG-1", אגד התקנים הראשון של MPEG (השם המלא הוא ISO/IEC 11172-3) אשר פורסם ב-1993.

קובצי MP2 הופיעו באינטרנט ב-1993. "מחתרת המוזיקה של האינטרנט" (ה-IUMA) נחשבת לתחילת מהפכת המוזיקה המקוונת. ה-IUMA אירח אלפי קבצים חוקיים של MP2. בשנת 1995, הפופולריות של קובצי ה-MP3 קיבלה תאוצה אדירה. הצלחה זו של הפורמט הניעה וגם נבעה מהצלחתם של נגני הקבצים (כגון Winamp של Nullsoft) ותוכנות לשיתוף קבצים אשר התחילו עם נאפסטר.

גודלם הקטן של קובצי MP3 ואיכות השמע הגבוהה יחסית איפשרה את הפריחה חסרת התקדים בשימוש ברשתות שיתוף קבצים באינטרנט. תופעה אשר הפכה את המוזיקה לנגישה לכולם ועוררה שאלות רבות בנוגע לחוקי זכויות היוצרים במציאות החדשה.

היורש המתוכנן של MP3, על פי MPEG, הינו אלגוריתם ה-AAC המפורט בתקן 4-MPEG. זאת למרות שהיו ניסיונות ליצור ולהפיץ פורמטים אחרים. בכל מקרה, בגלל הפופולריות העצומה של MP3 - המתבטאת במגוון רחב של תוכנה וחומרה (כגון נגנים ניידים ונגני DVD) התומכים בה, קשה לראות "ירושה" בזמן הקרוב.

איכות השמע והמקודדים[עריכת קוד מקור | עריכה]

איכות הקידוד המינימאלית הנחוצה כדי שקובץ ה-MP3 ישמע קרוב מספיק למקור הינה דבר סובייקטיבי. האיכות המקובלת כסף תחתון הינה 128Kb/s, זאת למרות שמבחני שמיעה הראו כי עם מעט אימון רוב האנשים יוכלו להבחין בין הקובץ הדחוס למקור באיכות זו.

בעוד שתהליך השחזור (יצירת אותות קול מקובץ ה-MP3) הוגדר היטב וקבוע עבור האלגוריתם, אין אחידות בכל הנוגע לתהליך הקידוד. כתוצאה מכך ישנו מגוון רחב של מקודדים, המשתמשים במודלים פסיכו-אקוסטיים שונים, אשר יוצרים קובצי MP3 שונים. מקודד המיועד לאיכויות גבוהות (כגון LAME) לא יתפקד בהכרח בצורה טובה עבור איכויות נמוכות.

אלטרנטיבות[עריכת קוד מקור | עריכה]

ישנם אלגוריתמי דחיסת קול מאבדי מידע נוספים, בהם MPEG-4 AAC, AC3, ATRAC, MP3PRO, MPC, Vorbis, QDesign, AMR-WB+, RealAudio, Windows Media Audio

כמו כן, ישנם הרבה אלגוריתמי דחיסת קול משמרי מידע, בהם: FLAC, Monkey's Audio, SHN, TTA, Wavpack

לפי מבחני שמע, האלגוריתמים החדשים משיגים תוצאות טובות יותר עבור איכויות נמוכות ואילו לאחר 128Kb/s רוב המאזינים לא מצליחים להבחין בהבדלי איכות.

תגי מידע[עריכת קוד מקור | עריכה]

ניתן לאחסן בקובץ MP3 תג אשר מכיל מידע על הקובץ, כגון: שם התקליטור, האמן, האלבום, מספר הרצועה ועוד. התגים הנפוצים הם ה-ID3 וה-APEv2.

ראו גם[עריכת קוד מקור | עריכה]

  • FLAC - דחיסת שמע ללא איבוד נתונים

קישורים חיצוניים[עריכת קוד מקור | עריכה]

קישורים לתוכנות: