זיהוי דובר

מתוך ויקיפדיה, האנציקלופדיה החופשית

זיהוי דובר (Speaker recognition) הוא תהליך בו מזוהה אדם על פי המאפיינים של קולו (ביומטריקת קול או באנגלית voice biometrics).[1] תהליך זה נקרא גם זיהוי קולי (Voice recognition).[2][3] יש הבדל בין זיהוי דובר (לזהות מי מדבר) וזיהוי דיבור (לזהות מה נאמר). בנוסף, יש הבדל בין אימות זהותו של דובר (המכונה באנגלית Speaker Verification) וזיהוי דובר לא-מוכר. ולבסוף, הבדל אחרון הוא בין זיהוי דובר (לזהות מי מדבר) לבין ההפרדה בין דוברים שונים (לזהות כאשר אותו דובר מדבר, באנגלית נקרא Speaker diarisation). התהליך של זיהוי דובר יכול לפשט את המשימה של תמלול קול במערכות אשר אומנו על הקול של אדם ספציפי או כדי לאמת את זהותו של דובר מסוים כחלק מתהליך אבטחתי.

תחילת העבודה על תהליכים לזיהוי דובר הייתה לפני כארבעים שנה כאשר השתמשו במאפיינים אקוסטיים שונים שמראים שונות גדולה בין אנשים. מאפיינים אקוסטיים אלה משקפים גם אנטומיה (למשל, גודל וצורה של הגרון והפה) וגם דפוסי התנהגות (למשל, גובה הצליל של הקול, סגנון דיבור).

אימות מול זיהוי[עריכת קוד מקור | עריכה]

ישנם שני יישומים מרכזיים של מערכות לזיהוי דובר. אם הדובר טוען שהוא אדם מסוים ומשתמשים בקול כדי לאמת את הטענה הזאת אז התהליך הוא תהליך של אימות (Verification). לעומת זאת, זיהוי (Identification) הוא התהליך שבו אנחנו מקבלים דובר שאיננו יודעים מי הוא מראש וברצוננו לזהות אותו. למעשה, באימות דובר אנחנו מנסים למצוא התאמה של 1:1 בין הדובר לבין אחת מהתבניות שאנחנו מחזיקים ובזיהוי דובר אנחנו מנסים למצוא התאמה בין הדובר לבין כל ה-N תבניות השונות ולייצג אותו כתוצר מסוים שלהן או כהתאמה מקסימלית לאחת מהן.

בתהליך אימות משתמשים לרוב בתור שער כניסה למערכות מאובטחות אשר מתנהלות בסאונד, כמו בנקאות טלפונית או שירותים אחרים. המערכות האלה בדרך כלל פועלות בידיעתו של הדובר ולכן הן יכולות להניח את שיתוף הפעולה שלו (כגון לבקש ממנו להקריא את מספר הטלפון שלו כל פעם שהוא מתחבר לשירות) ופועלות על פי הנחה זאת. לעומת זאת תהליך זיהוי מתבצע פעמים רבות בלי ידיעת הדוברים ובלי שיש לנו מידע מוקדם עליהם, לדוגמה במערכות המנסות לזהות שינוי בדובר או מערכות המנסות לזהות האם אדם מסוים כבר הופיע במערכת בעבר.

שיטות שונות לזיהוי דובר[עריכת קוד מקור | עריכה]

לכל מערכת לזיהוי דובר יש שני שלבים: רישום (Enrollment) ואימות (verification). בשלב הרישום קול הדובר מוקלט ובדרך כלל ממוצים ממנו מספר פרמטרים שישמשו אחר כך ליצירת התבנית. לאחר מכן בשלב האימות תילקח דוגמית (Utterance) ותושווה כנגד התבניות שיצרנו קודם. במערכות שמטרתן הסופית היא זיהוי דובר אז הדוגמית תושווה מול כל הדוגמאות ותיוצג בדרך כלל על ידי התאמה חלקית לכל אחת מהן ובמערכות שמטרתן הסופית היא אימות דובר הדוגמית תושווה רק מול הדוגמית המקורית של הדובר שאת זהותו אנחנו רוצים לאמת. בגלל תהליך ההשוואה לתבניות רבות, זיהוי דובר חדש הוא תהליך איטי בהרבה מאשר אימות זהותו של דובר ידוע.

ניתן לחלק מערכות לזיהוי דובר לשתי קטגוריות: מערכות התלויות בטקסט ידוע ומערכות שאינן תלויות בטקסט ידוע.

מערכות התלויות בטקסט ידוע:

אם הטקסט זהה בהכרח גם בשלב הרישום וגם בשלב האימות אז מדובר במערכת התלויה בטקסט ידוע (Text-Dependent). לעיתים במערכות כאלה הטקסט יהיה זהה לכל המשתמשים (לדוגמה במערכות כמו Siri, או Google Assistant שמה מילת ההפעלה היא זהה לכל המשתמשים) ולעיתים הטקסט יהיה שונה בין משתמשים בהתבסס על מידע אישי שלהם כמו מספר טלפון או אפילו מידע סודי כמו סיסמה.

מערכות שאינן תלוי בטקט ידוע:

במערכות שאינן תלויות בטקסט ידוע נשתמש בדרך כלל בסיטואציות שמצריכות שיתוף פעולה מינימלי מצד הדובר, בגלל הנחה זאת הטקסט בשלב הרישום והטקסט בשלב האימות יכול להיות שונה. במקרים כאלה ישתמשו לעיתים במקביל למערכת לזיהוי דובר גם במערכת לזיהוי דיבור שתעזור להקביל בין מילים דומות.

טכנולוגיות[עריכת קוד מקור | עריכה]

זיהוי דובר היא למעשה מקרה פרטי של הבעיה הקלאסית של זיהוי תבנית (Pattern recognition). ישנן כמה טכנולוגיות מרכזיות המשמשות כדי לייצר את התבניות הייחודיות וכדי להשוות ביניהן. כמה מהבולטות הן מודלי מרקוב חבויים (HMM),[4][5] Gausian mixture models,[6] אלגוריתמים קלאסיים להתאמת תבניות, עצי החלטה לומדים[7] ולאחרונה גם רשתות נוירונים מלאכותיות.[8][9]

יישומים[עריכת קוד מקור | עריכה]

בקיץ 1969, עם החרפת העימות האווירי בין ישראל למצרים והגברת ביטחון הקשר ברשתות המצריות, הועלה בחיל המודיעין הישראלי רעיון לנסות ולהשתמש במערכת טכנולוגית חדשנית, שהייתה אז בחיתוליה בעולם, לזיהוי דוברים. לאחר זמן הסתבר כי הפעלתה של מערכת זו דורשת מאמץ אנושי, זמן וממון, שלא הצדיקו את המשך הפעילות. מספר חיילות והמכשור בנושא הועברו למשטרת ישראל, שהפעילה אותו לאחר מכן למטרותיה היא. למרות ההפעלה הידנית נטולת המחשוב היו למערכת הצלחות רבות ומפתיעות, והיא היוותה צעד ראשון בשרשרת ארוכה של פרויקטים שעסקו בעיבוד קול, בזיהוי דוברים ובבתרגום אוטומטי. הכינוי של המערכת היה "שיבולת"[10].

הפטנט הבינלאומי הראשון הוגש ב-1983 על ידי חברת התקשורת CSELT (איטליה)[11] כבסיס לשירותים שונים שהרשת הציעה.

בחודש מאי 2013 הודיעה חברת הבנקאות Barclays Wealth כי היא תשתמש במערכת המזהה באופן פאסיבי את זהותם של לקוחות לאחר 30 שניות של שיחה רגילה.[12] המערכת פותחה על ידי החברה Nuance (שנרכשה ב-2011 על ידי החברה Loquendo), החברה שייצרה יותר מאוחר גם את הטכנולוגיה של Siri העוזרת האלקטרונית של אפל. מערכת הבנקאות הפרטית בתוך Braycles הייתה המוסד הכלכלי הראשון שהשתמש בביומטריקת קול על מנת לזהות לקוחות במוקדים הטלפונים שלהם. כמעט כל הלקוחות דרגו את החוויה עם המערכת כחיובית.[13] מאז ההצלחה הזאת Naunce המשיכה בפיתוח מערכות דומות לבנקים רבים ברחבי העולם.[14]

בחודש מאי 2014 השיקה גם החברה הבינלאומית Nice שירות לזיהוי ביומטרי של קול שמטרתו לשמש מרכזי לקוחות גדולים.[15]

מערכות לזיהוי דוברים עשויות לשמש גם בחקירות פליליות, כגון אלה של מציאת המוציאים להורג של ג'יימס פולי וסטיבן סוטלוף אשר הוצאו להורג ב-2014 בידי דאעש[16]

מעמד חוקי[עריכת קוד מקור | עריכה]

בשל העובדה שמדובר בתהליך חדשני עוד לא התנהלו משפטים רבים בנושא האיסוף והאחסון של דוגמאות קול ביומטריות, תהליך שבבסיסו הוא תהליך לא-פולשני.

תקדים אחד בישראל אפשר למצוא בהנחיות היועץ המשפטי לממשלה מ-22 בדצמבר 2014 העוסקת במערכת ששירות בתי הסוהר הטמיע הנקראת "שחף" ומאפשרת זיהוי קולי של אסירים באמצעות דוגמאות קול.[17] היועמ"ש במקרה זה יצר מספר תקדימים הקשורים לאחסון המידע, כמו העובדה שמותר לשמור רק את המידע הביומטרי ולא את הדוגמיות שעל בסיסן הוא נעשה. כמו כן הוא קבע כי על המידע הביומטרי להמחק במידה והאסיר השתחרר. הקביעה המשמעותית ביותר היא שבמידה והמידע הביומטרי ניתן למטרת זיהוי קולי למערכת, לא ניתן להשתמש בו למטרות אחרות, גם למשפט פלילי.

על פי האסדרה האירופית הכללית להגנה על מידע (GDPR - General Data Protection Regulation) אחסון מידע ביומטרי על אדם נחשבת כאחסון מידע רגיש ולכן אחסון זה כפוף לכל ההסתייגויות והסטנדרטים של האבטחה במסגרת חוק זה.[18]

ראו גם[עריכת קוד מקור | עריכה]

לקריאה נוספת[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

תוכנות לזיהוי דוברים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Poddar, Arnab; Sahidullah, Md; Saha, Goutam (במרץ 2018). "Speaker Verification with Short Utterances: A Review of Challenges, Trends and Opportunities". IET Biometrics. 7 (2): 91–101. doi:10.1049/iet-bmt.2017.0065. {{cite journal}}: (עזרה)
  2. ^ Pollack, Pickett, Sumby (1974). Experimental phonetics. MSS Information Corporation. pp. 251–258. ISBN 0-8422-5149-9.{{cite book}}: תחזוקה - ציטוט: multiple names: authors list (link)
  3. ^ "British English definition of voice recognition". Macmillan Publishers Limited. נבדק ב-21 בפברואר 2012. {{cite web}}: (עזרה)
  4. ^ Tomoko Matsui,Tomohito Kanno, Sadaoki Furui, Speaker recognition using HMM composition in noisy environments, Computer Speech & Language 10, 1996-04-01, עמ' 107–116 doi: 10.1006/csla.1996.0007
  5. ^ Unathi Mahola, Fulufhelo V. Nelwamondo, Tshilidzi Marwala, HMM Speaker Identification Using Linear and Non-linear Merging Techniques, arXiv:0705.1585 [cs], 2007-05-11
  6. ^ Athira Aroon, S.B. Dhonde, Speaker Recognition System using Gaussian Mixture Model, International Journal of Computer Applications 130, 2015-11-17
  7. ^ S.W. Foo, Eng Guan Lim, Speaker recognition using adaptively boosted decision tree classifier 1, 2002-02-01, עמ' I–157 doi: 10.1109/ICASSP.2002.1005700
  8. ^ Speaker recognition using neural networks and conventional classifiers - IEEE Journals & Magazine, ieeexplore.ieee.org (באנגלית)
  9. ^ Rupali Pawar, P P. Kajave, Suresh Mali, Speaker Identification using Neural Networks., 2005-01-01, עמ' 429–433
  10. ^ אפרים לפיד, לוחמי הסתר – המודיעין הישראלי מבט מבפנים, ידיעות ספרים, 2017, עמ' 77
  11. ^ US4752958 A, Michele Cavazza, Alberto Ciaramella, "Device for speaker's verification" http://www.google.com/patents/US4752958?hl=it&cl=en
  12. ^ International Banking (27 בדצמבר 2013). "Voice Biometric Technology in Banking | Barclays". Wealth.barclays.com. נבדק ב-21 בפברואר 2016. {{cite web}}: (עזרה)
  13. ^ Matt Warman (8 במאי 2013). "Say goodbye to the pin: voice recognition takes over at Barclays Wealth". נבדק ב-5 ביוני 2013. {{cite web}}: (עזרה)
  14. ^ "Voice Biometrics for fast, secure authentication in your IVR and mobile apps". Nuance. נבדק ב-21 בפברואר 2016. {{cite web}}: (עזרה)
  15. ^ NICE (2014-05-01), Forget Your Mother's Maiden Name -- NICE Brings Real-Time Voice Authentication to the Call Center, נבדק ב-2018-08-19
  16. ^ Ewen MacAskill. "Did 'Jihadi John' kill Steven Sotloff? | Media". The Guardian. נבדק ב-21 בפברואר 2016. {{cite web}}: (עזרה)
  17. ^ הגנת הפרטיות-נטילת דגימת קול מאסירים ושמירתה במאגר, היועץ המשפטי לממשלה, 22 בדצמבר 2014
  18. ^ legal aspects of deploying voice biometrics and other speech technologies in connection with gdpr, spitch.ch