זיהוי דובר

זיהוי דובר (Speaker recognition) הוא תהליך בו מזוהה אדם על פי המאפיינים של קולו (ביומטריקת קול או באנגלית voice biometrics).^[1] תהליך זה נקרא גם זיהוי קולי (Voice recognition).^[2]^[3] יש הבדל בין זיהוי דובר (לזהות מי מדבר) וזיהוי דיבור (לזהות מה נאמר). בנוסף, יש הבדל בין אימות זהותו של דובר (המכונה באנגלית Speaker Verification) וזיהוי דובר לא-מוכר. הבדל נוסף הוא בין זיהוי דובר (לזהות מי מדבר) לבין ההפרדה בין דוברים שונים (לזהות כאשר אותו דובר מדבר, באנגלית נקרא Speaker diarisation). התהליך של זיהוי דובר יכול לפשט את המשימה של תמלול קול במערכות שאומנו על הקול של אדם ספציפי או כדי לאמת את זהותו של דובר מסוים כחלק מתהליך אבטחה.

העבודה על תהליכים לזיהוי דובר החלה לפני כארבעים שנה כאשר השתמשו במאפיינים אקוסטיים שונים שמראים שונות גדולה בין אנשים. מאפיינים אקוסטיים אלה משקפים גם אנטומיה (למשל, גודל וצורה של הגרון והפה) וגם דפוסי התנהגות (למשל, גובה הצליל של הקול, סגנון דיבור).

אימות מול זיהוי[עריכת קוד מקור | עריכה]

ישנם שני יישומים מרכזיים של מערכות לזיהוי דובר. אם הדובר טוען שהוא אדם מסוים ומשתמשים בקול כדי לאמת את הטענה, התהליך הוא אימות (Verification). לעומת זאת, זיהוי (Identification) הוא התהליך שבו אנחנו מקבלים דובר שאיננו יודעים מי הוא מראש וברצוננו לזהות אותו. באימות דובר אנחנו מנסים למצוא התאמה של 1:1 בין הדובר לבין אחת התבניות שאנחנו מחזיקים ובזיהוי דובר אנחנו מנסים למצוא התאמה בין הדובר לבין כל N התבניות השונות ולייצג אותו כתוצר מסוים שלהן או כהתאמה מקסימלית לאחת מהן.

בתהליך אימות משתמשים לרוב בתור שער כניסה למערכות מאובטחות אשר מתנהלות בסאונד, כמו בנקאות טלפונית או שירותים אחרים. המערכות האלה בדרך כלל פועלות בידיעתו של הדובר ולכן הן יכולות להניח את שיתוף הפעולה שלו (כגון לבקש ממנו להקריא את מספר הטלפון שלו כל פעם שהוא מתחבר לשירות) ופועלות על פי הנחה זאת. לעומת זאת תהליך זיהוי מתבצע פעמים רבות בלי ידיעת הדוברים ובלי שיש לנו מידע מוקדם עליהם, לדוגמה במערכות המנסות לזהות שינוי בדובר או מערכות המנסות לזהות האם אדם מסוים כבר הופיע במערכת בעבר.

שיטות שונות לזיהוי דובר[עריכת קוד מקור | עריכה]

לכל מערכת לזיהוי דובר יש שני שלבים: רישום (Enrollment) ואימות (verification). בשלב הרישום קול הדובר מוקלט ובדרך כלל ממוצים ממנו פרמטרים שישמשו אחר כך ליצירת התבנית. לאחר מכן בשלב האימות תילקח דוגמית (Utterance) ותושווה לתבניות שיצרנו קודם. במערכות שמטרתן זיהוי דובר, הדוגמית תושווה מול כל הדוגמאות ותיוצג בדרך כלל על ידי התאמה חלקית לכל אחת מהן. במערכות שמטרתן הסופית היא אימות דובר, הדוגמית תושווה רק מול הדוגמית המקורית של הדובר שאת זהותו אנחנו רוצים לאמת. בגלל תהליך ההשוואה לתבניות רבות, זיהוי דובר חדש הוא תהליך איטי בהרבה מאשר אימות זהותו של דובר ידוע.

מערכות לזיהוי דובר מתחלקות לשתי קטגוריות: מערכות התלויות בטקסט ידוע ומערכות שאינן תלויות בטקסט ידוע.

מערכות התלויות בטקסט ידוע:

אם הטקסט זהה בהכרח גם בשלב הרישום וגם בשלב האימות אז מדובר במערכת התלויה בטקסט ידוע (Text-Dependent). לעיתים במערכות כאלה הטקסט יהיה זהה לכל המשתמשים (לדוגמה במערכות כמו Siri, או Google Assistant שמה מילת ההפעלה היא זהה לכל המשתמשים) ולעיתים הטקסט יהיה שונה בין משתמשים בהתבסס על מידע אישי שלהם כמו מספר טלפון או אפילו מידע סודי כמו סיסמה.

מערכות שאינן תלוי בטקסט ידוע:

במערכות שאינן תלויות בטקסט ידוע נשתמש בדרך כלל בסיטואציות שמצריכות שיתוף פעולה מינימלי מצד הדובר, בגלל הנחה זאת הטקסט בשלב הרישום והטקסט בשלב האימות יכול להיות שונה. במקרים כאלה ישתמשו לעיתים במקביל למערכת לזיהוי דובר גם במערכת לזיהוי דיבור שתעזור להקביל בין מילים דומות.

טכנולוגיות[עריכת קוד מקור | עריכה]

זיהוי דובר היא מקרה פרטי של הבעיה הקלאסית של זיהוי תבנית (Pattern recognition). יש כמה טכנולוגיות מרכזיות המשמשות כדי לייצר את התבניות הייחודיות וכדי להשוות ביניהן. כמה מהבולטות הן מודלי מרקוב חבויים (HMM),^[4]^[5] Gausian mixture models,^[6] אלגוריתמים קלאסיים להתאמת תבניות, עצי החלטה לומדים^[7] ולאחרונה גם רשתות נוירונים מלאכותיות.^[8]^[9]

יישומים[עריכת קוד מקור | עריכה]

בקיץ 1969, עם החרפת העימות האווירי בין ישראל למצרים והגברת ביטחון הקשר ברשתות המצריות, הועלה בחיל המודיעין הישראלי רעיון לנסות ולהשתמש במערכת טכנולוגית חדשנית, שהייתה אז בחיתוליה בעולם, לזיהוי דוברים. לאחר זמן הסתבר כי הפעלתה של מערכת זו דורשת מאמץ אנושי, זמן וממון, שלא הצדיקו את המשך הפעילות. מספר חיילות והמכשור בנושא הועברו למשטרת ישראל, שהפעילה אותו למטרותיה היא. למרות ההפעלה הידנית נטולת המחשוב היו למערכת הצלחות רבות ומפתיעות, והיא היוותה צעד ראשון בשרשרת ארוכה של פרויקטים שעסקו בעיבוד קול, בזיהוי דוברים ובבתרגום אוטומטי. המערכת כונתה "שיבולת"^[10].

הפטנט הבינלאומי הראשון הוגש ב-1983 על ידי חברת התקשורת CSELT (איטליה)^[11] כבסיס לשירותים שונים שהרשת הציעה.

בחודש מאי 2013 הודיעה חברת הבנקאות Barclays Wealth כי היא תשתמש במערכת המזהה באופן פאסיבי את זהותם של לקוחות לאחר 30 שניות של שיחה רגילה.^[12] המערכת פותחה על ידי החברה Nuance (שנרכשה ב-2011 על ידי החברה Loquendo), החברה שייצרה יותר מאוחר גם את הטכנולוגיה של Siri העוזרת האלקטרונית של אפל. מערכת הבנקאות הפרטית בתוך Braycles הייתה המוסד הכלכלי הראשון שהשתמש בביומטריקת קול על מנת לזהות לקוחות במוקדים הטלפונים שלהם. כמעט כל הלקוחות דרגו את החוויה עם המערכת כחיובית.^[13] מאז ההצלחה הזאת Naunce המשיכה בפיתוח מערכות דומות לבנקים רבים ברחבי העולם.^[14]

בחודש מאי 2014 השיקה גם החברה הבינלאומית Nice שירות לזיהוי ביומטרי של קול שמטרתו לשמש מרכזי לקוחות גדולים.^[15]

מערכות לזיהוי דוברים עשויות לשמש גם בחקירות פליליות, כגון אלה של מציאת המוציאים להורג של ג'יימס פולי וסטיבן סוטלוף אשר הוצאו להורג ב-2014 בידי דאעש^[16]

מעמד חוקי[עריכת קוד מקור | עריכה]

מדובר בתהליך חדשני ולכן עוד לא התנהלו משפטים רבים בנושא איסוף ואחסון של דוגמאות קול ביומטריות, תהליך שבבסיסו הוא לא-פולשני.

תקדים אחד בישראל יש בהנחיות היועץ המשפטי לממשלה מ-22 בדצמבר 2014 העוסקות במערכת ששירות בתי הסוהר הטמיע הנקראת "שחף" ומאפשרת זיהוי קולי של אסירים באמצעות דוגמאות קול.^[17] היועמ"ש במקרה זה יצר מספר תקדימים הקשורים לאחסון המידע, כמו העובדה שמותר לשמור רק את המידע הביומטרי ולא את הדוגמיות שעל בסיסן הוא נעשה. כמו כן הוא קבע כי על המידע הביומטרי להמחק במידה והאסיר השתחרר. הקביעה המשמעותית ביותר היא שבמידה והמידע הביומטרי ניתן למטרת זיהוי קולי למערכת, לא ניתן להשתמש בו למטרות אחרות, גם למשפט פלילי.

על פי האסדרה האירופית הכללית להגנה על מידע (GDPR - General Data Protection Regulation) אחסון מידע ביומטרי על אדם נחשבת כאחסון מידע רגיש ולכן אחסון זה כפוף לכל ההסתייגויות והסטנדרטים של האבטחה במסגרת חוק זה.^[18]

ראו גם[עריכת קוד מקור | עריכה]

לקריאה נוספת[עריכת קוד מקור | עריכה]

פתרון זיהוי קולי למרכזי שירות - כתבה על היתרונות בזיהוי ביומטרי קולי של המגזין IsraelDefense

קישורים חיצוניים[עריכת קוד מקור | עריכה]

תוכנות לזיהוי דוברים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

^ Poddar, Arnab; Sahidullah, Md; Saha, Goutam (במרץ 2018). "Speaker Verification with Short Utterances: A Review of Challenges, Trends and Opportunities". IET Biometrics. 7 (2): 91–101. doi:10.1049/iet-bmt.2017.0065. {{cite journal}}: (עזרה)
^ Pollack, Pickett, Sumby (1974). Experimental phonetics. MSS Information Corporation. pp. 251–258. ISBN 0-8422-5149-9.{{cite book}}: תחזוקה - ציטוט: multiple names: authors list (link)
^ "British English definition of voice recognition". Macmillan Publishers Limited. נבדק ב-21 בפברואר 2012. {{cite web}}: (עזרה)
^ Tomoko Matsui,Tomohito Kanno, Sadaoki Furui, Speaker recognition using HMM composition in noisy environments, Computer Speech & Language 10, 1996-04-01, עמ' 107–116 doi: 10.1006/csla.1996.0007
^ Unathi Mahola, Fulufhelo V. Nelwamondo, Tshilidzi Marwala, HMM Speaker Identification Using Linear and Non-linear Merging Techniques, arXiv:0705.1585 [cs], 2007-05-11
^ Athira Aroon, S.B. Dhonde, Speaker Recognition System using Gaussian Mixture Model, International Journal of Computer Applications 130, 2015-11-17
^ S.W. Foo, Eng Guan Lim, Speaker recognition using adaptively boosted decision tree classifier 1, 2002-02-01, עמ' I–157 doi: 10.1109/ICASSP.2002.1005700
^ Speaker recognition using neural networks and conventional classifiers - IEEE Journals & Magazine, ieeexplore.ieee.org (באנגלית)
^ Rupali Pawar, P P. Kajave, Suresh Mali, Speaker Identification using Neural Networks., 2005-01-01, עמ' 429–433
^ אפרים לפיד, לוחמי הסתר – המודיעין הישראלי מבט מבפנים, ידיעות ספרים, 2017, עמ' 77
^ US4752958 A, Michele Cavazza, Alberto Ciaramella, "Device for speaker's verification" http://www.google.com/patents/US4752958?hl=it&cl=en
^ International Banking (27 בדצמבר 2013). "Voice Biometric Technology in Banking | Barclays". Wealth.barclays.com. נבדק ב-21 בפברואר 2016. {{cite web}}: (עזרה)
^ Matt Warman,Mattwarman, ‏Say goodbye to the pin: voice recognition takes over at Barclays Wealth, The Telegraph, 8 May 2013
^ "Voice Biometrics for fast, secure authentication in your IVR and mobile apps". Nuance. נבדק ב-21 בפברואר 2016. {{cite web}}: (עזרה)
^ NICE (2014-05-01), Forget Your Mother's Maiden Name -- NICE Brings Real-Time Voice Authentication to the Call Center, נבדק ב-2018-08-19
^ Ewen MacAskill. "Did 'Jihadi John' kill Steven Sotloff? | Media". The Guardian. נבדק ב-21 בפברואר 2016. {{cite web}}: (עזרה)
^ הגנת הפרטיות-נטילת דגימת קול מאסירים ושמירתה במאגר, היועץ המשפטי לממשלה, 22 בדצמבר 2014
^ legal aspects of deploying voice biometrics and other speech technologies in connection with gdpr, spitch.ch

[1] Poddar, Arnab; Sahidullah, Md; Saha, Goutam (במרץ 2018). "Speaker Verification with Short Utterances: A Review of Challenges, Trends and Opportunities". IET Biometrics. 7 (2): 91–101. doi:10.1049/iet-bmt.2017.0065. {{cite journal}}: (עזרה)

[Experimental_phonetics-2] Pollack, Pickett, Sumby (1974). Experimental phonetics. MSS Information Corporation. pp. 251–258. ISBN 0-8422-5149-9.{{cite book}}: תחזוקה - ציטוט: multiple names: authors list (link)

[Macmillan_Brit._def_of_voice_recognition-3] "British English definition of voice recognition". Macmillan Publishers Limited. נבדק ב-21 בפברואר 2012. {{cite web}}: (עזרה)

[4] Tomoko Matsui,Tomohito Kanno, Sadaoki Furui, Speaker recognition using HMM composition in noisy environments, Computer Speech & Language 10, 1996-04-01, עמ' 107–116 doi: 10.1006/csla.1996.0007

[5] Unathi Mahola, Fulufhelo V. Nelwamondo, Tshilidzi Marwala, HMM Speaker Identification Using Linear and Non-linear Merging Techniques, arXiv:0705.1585 [cs], 2007-05-11

[6] Athira Aroon, S.B. Dhonde, Speaker Recognition System using Gaussian Mixture Model, International Journal of Computer Applications 130, 2015-11-17

[7] S.W. Foo, Eng Guan Lim, Speaker recognition using adaptively boosted decision tree classifier 1, 2002-02-01, עמ' I–157 doi: 10.1109/ICASSP.2002.1005700

[8] Speaker recognition using neural networks and conventional classifiers - IEEE Journals & Magazine, ieeexplore.ieee.org (באנגלית)

[9] Rupali Pawar, P P. Kajave, Suresh Mali, Speaker Identification using Neural Networks., 2005-01-01, עמ' 429–433

[10] אפרים לפיד, לוחמי הסתר – המודיעין הישראלי מבט מבפנים, ידיעות ספרים, 2017, עמ' 77

[11] US4752958 A, Michele Cavazza, Alberto Ciaramella, "Device for speaker's verification" http://www.google.com/patents/US4752958?hl=it&cl=en

[12] International Banking (27 בדצמבר 2013). "Voice Biometric Technology in Banking | Barclays". Wealth.barclays.com. נבדק ב-21 בפברואר 2016. {{cite web}}: (עזרה)

[13] Matt Warman,Mattwarman, ‏Say goodbye to the pin: voice recognition takes over at Barclays Wealth, The Telegraph, 8 May 2013

[14] "Voice Biometrics for fast, secure authentication in your IVR and mobile apps". Nuance. נבדק ב-21 בפברואר 2016. {{cite web}}: (עזרה)

[15] NICE (2014-05-01), Forget Your Mother's Maiden Name -- NICE Brings Real-Time Voice Authentication to the Call Center, נבדק ב-2018-08-19

[16] Ewen MacAskill. "Did 'Jihadi John' kill Steven Sotloff? | Media". The Guardian. נבדק ב-21 בפברואר 2016. {{cite web}}: (עזרה)

[17] הגנת הפרטיות-נטילת דגימת קול מאסירים ושמירתה במאגר, היועץ המשפטי לממשלה, 22 בדצמבר 2014

[18] spects of deploying voice biometrics and other speech technologies in connection with gdpr, spitch.ch

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

בינה מלאכותית
כללי	מבחן טיורינג • היסטוריה של הבינה המלאכותית • ציר הזמן של בינה מלאכותית • התקדמות הבינה המלאכותית (אנ') • AI-שלמות מערכת מומחה • אסדרת בינה מלאכותית • בינה מלאכותית צרה • בינה חישובית • הסברתיות בינה מלאכותית • הפרדוקס של מורבק • סוכן תבוני • אתיקה של בינה מלאכותית
תחומים	עיבוד שפה טבעית • ראייה ממוחשבת • בינה מלאכותית יוצרת • אומנות בינה מלאכותית
סוגי למידת מכונה	מערכת לומדת • למידה מונחית • למידה בלתי מונחית • למידה עמוקה • למידת חיזוק • סיווג בייסיאני נאיבי • רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון • עץ החלטה • מכונת וקטורים תומכים • Bag of words • אלגוריתם k-מרכזים • אלגוריתם מיקסום התוחלת • הורדת ממד • אלגוריתם שכן קרוב • Q-learning •‏ T-SNE •‏ Tf–idf • חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית • רשת זרימה קדימה • רשת עצבית רקורסיבית • טרנספורמר • Attention •‏ GAN
עיבוד שפה טבעית	מודל שפה • שיכון מילים (אנ') • בלשנות חישובית • תרגום מכונה • חילוץ מידע (אנ') • ניתוח סנטימנט • זיהוי חלקי דיבר (אנ') • מערכת זיהוי דיבור • זיהוי ישויות • כריית טקסט • תיוג תפקידים סמנטי • Word2vec • מודל שפה גדול • GPT •‏ BERT (אנ') • מודל Bag-of-words (אנ') • יצירת טקסט בשפה טבעית (אנ') • מילת עצירה • ניתוח מחרוזות • Stemming (אנ') • למטיזציה (אנ')
יישומים לבינה מלאכותית (אנ')	צ'אטבוט • זיהוי דובר • זיהוי עצמים • זיהוי תבניות • עוזר וירטואלי • זיהוי תווים אופטי • מחולל תמונות (הזיות (אנ'))
מערכות בינה מלאכותית	אלייזה • ChatGPT •‏ DALL-E •‏ Midjourney •‏ Gemini •‏ Perplexity •‏ GitHub Copilot • דיפ־פייק • סירי • Google Assistant • אמזון אלכסה
סוגיות בטיחות בינה מלאכותית (אנ')	סכנה קיומית מבינה מלאכותית כללית • בינה מלאכותית חזקה • יישור בינה מלאכותית (אנ') • בקרת יכולות בינה מלאכותית (אנ') • השתלטות בינה מלאכותית (אנ') • בינה מלאכותית ידידותית (אנ') • התכנסות אינסטרומנטלית (אנ') • סינגולריות טכנולוגית
ספריות בשימוש נרחב	TensorFlow •‏ PyTorch •‏ Torch •‏ Hugging Face •‏ Keras •‏ spaCy (אנ') •‏ Caffe
לקטגוריית הבינה המלאכותית