זיהוי דובר

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה לניווט קפיצה לחיפוש

זיהוי דובר (Speaker recognition) הוא תהליך בו מזוהה אדם על פי המאפיינים של קולו (ביומטריקת קול או באנגלית voice biometrics).[1] תהליך זה נקרא גם זה נקרא גם זיהוי קולי (Voice recognition).[2][3] יש הבדל בין זיהוי דובר (לזהות מי מדבר) וזיהוי דיבור (לזהות מה נאמר). בנוסף, יש הבדל בין אימות זהותו של דובר (המכונה באנגלית Speaker Verification) וזיהוי דובר לא-מוכר. ולבסוף, הבדל אחרון הוא בין זיהוי דובר (לזהות מי מדבר) לבין ההפרדה בין דוברים שונים (לזהות כאשר אותו דובר מדבר, באנגלית נקרא Speaker diarisation). התהליך של זיהוי דובר יכול לפשט את המשימה של תמלול קול במערכות אשר אומנו על הקול של אדם ספציפי או כדי לאמת את זהותו של דובר מסוים כחלק מתהליך אבטחתי.

תחילת העבודה על תהליכים לזיהוי דובר הייתה לפני כארבעים שנה כאשר השתמשו במאפיינים אקוסטיים שונים שמראים שונות גדולה בין אנשים. מאפיינים אקוסטיים אלה משקפים גם אנטומיה (למשל, גודל וצורה של הגרון והפה) וגם דפוסי התנהגות (למשל, גובה הצליל של הקול, סגנון דיבור).

אימות מול זיהוי[עריכת קוד מקור | עריכה]

ישנם שני יישומים מרכזיים של מערכות לזיהוי דובר. אם הדובר טוען שהוא אדם מסוים ומשתמשים בקול כדי לאמת את הטענה הזאת אז התהליך הוא תהליך של אימות (Verification). לעומת זאת, זיהוי (Identification) הוא התהליך שבו אנחנו מקבלים דובר שאיננו יודעים מי הוא מראש וברצוננו לזהות אותו. למעשה, באימות דובר אנחנו מנסים למצוא התאמה של 1:1 בין הדובר לבין אחת מהתבניות שאנחנו מחזיקים ובזיהוי דובר אנחנו מנסים למצוא התאמה בין הדובר לבין כל ה-N תבניות השונות ולייצג אותו כתוצר מסוים שלהן או כהתאמה מקסימלית לאחת מהן.

בתהליך אימות משתמשים לרוב בתור שער כניסה למערכות מאובטחות אשר מתנהלות בסאונד, כמו בנקאות טלפונית או שירותים אחרים. המערכות האלה בדרך כלל פועלות בידיעתו של הדובר ולכן הן יכולות להניח את שיתוף הפעולה שלו (כגון לבקש ממנו להקריא את מספר הטלפון שלו כל פעם שהוא מתחבר לשירות) ופועלות על פי הנחה זאת. לעומת זאת תהליך זיהוי מתבצע פעמים רבות בלי ידיעת הדוברים ובלי שיש לנו מידע מוקדם עליהם, לדוגמה במערכות המנסות לזהות שינוי בדובר או מערכות המנסות לזהות האם אדם מסוים כבר הופיע במערכת בעבר.

שיטות שונות לזיהוי דובר[עריכת קוד מקור | עריכה]

לכל מערכת לזיהוי דובר יש שני שלבים: רישום (Enrollment) ואימות (verification). בשלב הרישום קול הדובר מוקלט ובדרך כלל ממוצים ממנו מספר פרמטרים שישמשו אחר כך ליצירת התבנית. לאחר מכן בשלב האימות תלקח דוגמית (Utterance) ותושווה כנגד התבניות שיצרנו קודם. במערכות שמטרתן הסופית היא זיהוי דובר אז הדוגמית תושווה מול כל הדוגמאות ותיוצג בדרך כלל על ידי התאמה חלקית לכל אחת מהן ובמערכות שמטרתן הסופית היא אימות דובר הדוגמית תושווה רק מול הדוגמית המקורית של הדובר שאת זהותו אנחנו רוצים לאמת. בגלל תהליך ההשוואה לתבניות רבות, זיהוי דובר חדש הוא תהליך איטי בהרבה מאשר אימות זהותו של דובר ידוע.

ניתן לחלק מערכות לזיהוי דובר לשתי קטגוריות: מערכות התלויות בטקסט ידוע ומערכות שאינן תלויות בטקסט ידוע.

מערכות התלויות בטקסט ידוע:

אם הטקסט זהה בהכרח גם בשלב הרישום וגם בשלב האימות אז מדובר במערכת התלויה בטקסט ידוע (Text-Dependent). לעיתים במערכות כאלה הטקסט יהיה זהה לכל המשתמשים (לדוגמה במערכות כמו Siri, או Google Assistant שמה מילת ההפעלה היא זהה לכל המשתמשים) ולעיתים הטקסט יהיה שונה בין משתמשים בהתבסס על מידע אישי שלהם כמו מספר טלפון או אפילו מידע סודי כמו סיסמה.

מערכות שאינן תלוי בטקט ידוע:

במערכות שאינן תלויות בטקסט ידוע נשתמש בדרך כלל בסיטואציות שמצריכות שיתוף פעולה מינימלי מצד הדובר, בגלל הנחה זאת הטקסט בשלב הרישום והטקסט בשלב האימות יכול להיות שונה. במקרים כאלה ישתמשו לעיתים במקביל למערכת לזיהוי דובר גם במערכת לזיהוי דיבור שתעזור להקביל בין מילים דומות.

טכנולוגיות[עריכת קוד מקור | עריכה]

זיהוי דובר היא למעשה מקרה פרטי של הבעיה הקלאסית של זיהוי תבנית (Pattern recognition). ישנן כמה טכנולוגיות מרכזיות המשמשות כדי לייצר את התבניות הייחודיות וכדי להשוות ביניהן. כמה מהבולטות הן מודלי מרקוב חבויים (HMM),[4][5] Gausian mixture models,[6] אלגוריתמים קלאסיים להתאמת תבניות, עצי החלטה לומדים[7] ולאחרונה גם רשתות נוירונים מלאכותיות.[8][9]

יישומים[עריכת קוד מקור | עריכה]

הפטנט הבינלאומי הראשון הוגש ב-1983 על ידי חברת התקשורת CSELT (איטליה)[10] כבסיס לשירותים שונים שהרשת הציעה.

בחודש מאי 2013 הודיעה חברת הבנקאות Barclays Wealth כי היא תשתמש במערכת המזהה באופן פאסיבי את זהותם של לקוחות לאחר 30 שניות של שיחה רגילה.[11] המערכת פותחה על ידי החברה Nuance (שנרכשה ב-2011 על ידי החברה Loquendo), החברה שייצרה יותר מאוחר גם את הטכנולוגיה של Siri העוזרת האלקטרונית של אפל. מערכת הבנקאות הפרטית בתוך Braycles הייתה המוסד הכלכלי הראשון שהשתמש בביומטריקת קול על מנת לזהות לקוחות במוקדים הטלפונים שלהם. כמעט כל הלקוחות דרגו את החוויה עם המערכת כחיובית.[12] מאז ההצלחה הזאת Naunce המשיכה בפיתוח מערכות דומות לבנקים רבים ברחבי העולם.[13]

בחודש מאי 2014 השיקה גם החברה הבינלאומית Nice שירות לזיהוי ביומטרי של קול שמטרתו לשמש מרכזי לקוחות גדולים.[14]

מערכות לזיהוי דוברים עשויות לשמש גם בחקירות פליליות, כגון אלה של מציאת המוציאים להורג של ג'יימס פולי וסטיבן סוטלוף אשר הוצאו להורג ב-2014 בידי דאעש[15]

מעמד חוקי[עריכת קוד מקור | עריכה]

בשל העובדה שמדובר בתהליך חדשני עוד לא התנהלו משפטים רבים בנושא האיסוף והאחסון של דוגמאות קול ביומטריות, תהליך שבבסיסו הוא תהליך לא-פולשני.

תקדים אחד בישראל אפשר למצוא בהנחיות היועץ המשפטי לממשלה מ-22 בדצמבר 2014 העוסקת במערכת ששירות בתי הסוהר הטמיע הנקראת "שחף" ומאפשרת זיהוי קולי של אסירים באמצעות דוגמאות קול.[16] היועמ"ש במקרה זה יצר מספר תקדימים הקשורים לאחסון המידע, כמו העובדה שמותר לשמור רק את המידע הביומטרי ולא את הדוגמיות שעל בסיסן הוא נעשה. כמו כן הוא קבע כי על המידע הביומטרי להמחק במידה והאסיר השתחרר. הקביעה המשמעותית ביותר היא שבמידה והמידע הביומטרי ניתן למטרת זיהוי קולי למערכת, לא ניתן להשתמש בו למטרות אחרות, גם למשפט פלילי.

על פי האסדרה האירופית הכללית להגנה על מידע (GDPR - General Data Protection Regulation) אחסון מידע ביומטרי על אדם נחשבת כאחסון מידע רגיש ולכן אחסון זה כפוף לכל ההסתייגויות והסטנדרטים של האבטחה במסגרת חוק זה.[17]

ראו גם[עריכת קוד מקור | עריכה]

לקריאה נוספת[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

תוכנות לזיהוי דוברים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Poddar, Arnab; Sahidullah, Md; Saha, Goutam (מרץ 2018). "Speaker Verification with Short Utterances: A Review of Challenges, Trends and Opportunities". IET Biometrics 7 (2): 91–101. doi:10.1049/iet-bmt.2017.0065. 
  2. ^ Pollack, Pickett, Sumby (1974). Experimental phonetics. MSS Information Corporation. עמ' 251–258. ISBN 0-8422-5149-9. 
  3. ^ "British English definition of voice recognition". Macmillan Publishers Limited.. בדיקה אחרונה ב-21 בפברואר 2012. 
  4. ^ Tomoko Matsui,Tomohito Kanno, Sadaoki Furui, Speaker recognition using HMM composition in noisy environments, Computer Speech & Language 10, 1996-04-01, עמ' 107–116 doi: 10.1006/csla.1996.0007
  5. ^ Unathi Mahola, Fulufhelo V. Nelwamondo, Tshilidzi Marwala, HMM Speaker Identification Using Linear and Non-linear Merging Techniques, arXiv:0705.1585 [cs], 2007-05-11
  6. ^ Athira Aroon, S.B. Dhonde, Speaker Recognition System using Gaussian Mixture Model, International Journal of Computer Applications 130, 2015-11-17
  7. ^ S.W. Foo, Eng Guan Lim, Speaker recognition using adaptively boosted decision tree classifier 1, 2002-02-01, עמ' I–157 doi: 10.1109/ICASSP.2002.1005700
  8. ^ Speaker recognition using neural networks and conventional classifiers - IEEE Journals & Magazine, ieeexplore.ieee.org (בAmerican English)
  9. ^ Rupali Pawar, P P. Kajave, Suresh Mali, Speaker Identification using Neural Networks., 2005-01-01, עמ' 429–433
  10. ^ US4752958 A, Michele Cavazza, Alberto Ciaramella, "Device for speaker's verification" http://www.google.com/patents/US4752958?hl=it&cl=en
  11. ^ International Banking (27 בדצמבר 2013). "Voice Biometric Technology in Banking | Barclays". Wealth.barclays.com. בדיקה אחרונה ב-21 בפברואר 2016. 
  12. ^ Matt Warman (8 במאי 2013). "Say goodbye to the pin: voice recognition takes over at Barclays Wealth". בדיקה אחרונה ב-5 ביוני 2013. 
  13. ^ "Voice Biometrics for fast, secure authentication in your IVR and mobile apps.". Nuance. בדיקה אחרונה ב-21 בפברואר 2016. 
  14. ^ NICE (1 במאי 2014), Forget Your Mother's Maiden Name -- NICE Brings Real-Time Voice Authentication to the Call Center, בדיקה אחרונה ב-19 באוגוסט 2018 
  15. ^ Ewen MacAskill. "Did 'Jihadi John' kill Steven Sotloff? | Media". The Guardian. בדיקה אחרונה ב-21 בפברואר 2016. 
  16. ^ הגנת הפרטיות-נטילת דגימת קול מאסירים ושמירתה במאגר, היועץ המשפטי לממשלה, 22 בדצמבר 2014
  17. ^ legal aspects of deploying voice biometrics and other speech technologies in connection with gdpr, spitch.ch