תשובה קצרה: הטיפול של מודלי שפת חזית בעברית השתפר באופן דרמטי בין 2024 ל-2026, אבל עברית עדיין אזרחית סוג ב' ברוב מערכות ה-AI בייצור — לא כי המודלים לא יודעים אותה, אלא כי הסטאק שמסביב (טוקנייזרים, מודלי embedding, ASR, evals) נבנה אנגלית-תחילה וסופג עברית בצורה גרועה. הצוותים שמריצים AI עברי טוב ב-2026 למדו סט קטן של החלטות שחשובות הרבה יותר מבחירת המודל הראשי: איך chunks מטוקנים, איזה מודל embedding משמש, איך מטפלים בניקוד ובמורפולוגיה באחזור, ואיך נורמליזציה של טקסט מעורב עברית-אנגלית. הכתבה הזו היא סקירה ניטרלית למצב ה-AI העברי בייצור, כתובה למהנדסים ולמקבלי החלטות שצריכים לשלוח מוצרים בעברית השנה.
למה עברית קשה ל-LLM
עברית שוברת מודלי שפה בדרכים שאנגלית לא, ומהסיבות שמדוברות בשפה — לא רק סטטיסטיות. חמש מהן דומיננטיות ב-2026:
- מורפולוגיה עשירה. מילים בעברית אורזות נושא, מושא, שייכות, זמן ומילות יחס לטוקן אחד. המילה "ולכשנפגוש" היא טוקן אחד בכתב עברי, אבל פונקציונלית חמש מילים באנגלית. טוקנייזרים שנבנו סביב אנגלית מפצלים זאת ל-4–8 sub-tokens עם מבנה סמנטי מועט, מה שעולה גם בתקציב הקשר וגם באיכות ה-embedding.
- ניקוד אופציונלי. עברית כתובה מודרנית משמיטה ניקוד, מה שמשאיר אי-בהירות משמעותית. המחרוזת הלא מנוקדת "ספר" יכולה להתפרש כספר, ספָּר, סַפֵּר או סָפַר תלוי בהקשר. מודלי חזית מבדילים בין אלה באופן מרשים על פי הקשר; מודלים קטנים יותר ומיושנים יותר לא.
- RTL עם LTR משובץ. טקסט ישראלי אמיתי מערבב עברית (RTL) עם מילים באנגלית, מספרים, URL-ים, קוד ושמות מותגים (LTR) באותו משפט. גם הטוקנייזרים וגם שכבות הרינדור מועדים. באגי רינדור Bidi (דו-כיווני) בממשקי צ'אט נשארים מקור לפלט באיכות נמוכה שנים אחרי שהיו אמורים להיפתר.
- Code-switching כנורמה. אנשי מקצוע ישראלים מערבבים באופן שגרתי עברית ואנגלית באמצע משפט ("בוא נעשה quick sync על ה-pipeline"). זה לא באג שצריך לתקן; זה ה-register שמשתמשים באמת כותבים בו. מודלים שאומנו בעיקר על עברית חד-לשונית או אנגלית חד-לשונית שניהם מאבדים דיוק כאן.
- תת-משאב באימון מקדים. הנפח הכולל של טקסט עברי איכותי באינטרנט הפתוח קטן בסדרי גודל מאנגלית. גם עם over-sampling מכוון, עברית מקבלת פרוסה דקה יותר באימון של מודלי חזית ממה שהשוק של 9 מיליון דוברים מצדיק.
אף אחת מאלה אינה מכריעה. כולן מעצבות את החלטות הסטאק שבהמשך.
איך מודלי החזית באמת משווים בעברית
אין benchmark ציבורי מקובל לעברית שמכסה את כל מה שצוותים אכפת להם — שטף שיחה, נאמנות RAG, טיפול ב-code-mixed, מילוי הוראות, דיוק עובדתי על ידע ספציפי לישראל. רוב המעשיים מריצים evals פנימיים משלהם. מה שמופיע בהמשך הוא הקונצנזוס הרחב מפריסות ייצור שנצפו ב-SaaS, פיננסים ותוכן ישראליים בתחילת 2026, לא benchmark פורמלי.
| משפחת מודל | שטף עברית | Code-mixed עברית/אנגלית | נאמנות RAG עברי | הערות |
|---|---|---|---|---|
| Claude (Anthropic) | מצוין | מצוין | חזק | הטוב ביותר בכתיבת עברית ארוכת-טווח; שמרני על הלוצינציות |
| GPT-4o / GPT-4.1 (OpenAI) | מצוין | טוב מאוד | חזק | מעט יותר בטוח במקרי קצה — לפעמים יותר מדי בטוח |
| Gemini 2.5 (Google) | טוב מאוד | טוב | טוב | חזק בשאילתות עובדתיות; לעיתים register מעט מסורבל |
| Mistral Large / Mixtral | טוב | בינוני | בינוני | השתפר דרמטית ב-2025; עדיין מאחור לחזית בעברית אידיומטית |
| AI21 Jamba (ספק ישראלי) | טוב מאוד | טוב מאוד | טוב | טיפול בעברית הוא פוקוס ברור; יתרון של חלון הקשר ארוך |
| DictaLM / Hebrew-Mistral (פתוח, ממוקד עברית) | חזק בעברית, חלש יותר באנגלית | חלש | חזק (כשעברית בלבד) | בחירה נכונה לזרימות עברית-בלבד שבהן data residency או עלות פוסלות מודלים סגורים |
| AlephBert (פתוח, ממוקד עברית, קטן יותר) | לא מודל צ'אט — embedding משפט / סיווג | — | — | בשימוש כמודל embedding ל-RAG עברי, לא לייצור |
שני דברים לא ברורים מאליהם מופיעים שוב ושוב. ראשית, הפער בין Claude / GPT-4 / Gemini לדרג הבא (Mistral Large, AI21 Jamba) קטן הרבה יותר בעברית מאשר באנגלית — עברית "קשה" יותר לכולם, מה שמכווץ את ה-leaderboard. שנית, מודלים פתוחים ממוקדי-עברית (DictaLM, Hebrew-Mistral) יכולים לנצח מודלים סגורים של חזית במשימות עברית חד-לשוניות תוך אובדן כבד בכל דבר שדורש אנגלית או code-mixing. זה הופך אותם להתאמה מעניינת לפריסות עברית-בלבד צרות, והתאמה גרועה למקרה השימוש העסקי הישראלי הטיפוסי, שהוא code-mixed.
שכבת הצ'אט: מה לפרוס מתי
לחוויית צ'אט עברית פונה-ללקוח — תמיכה, מכירות, Q&A פנימי — ברירת המחדל הנכונה ב-2026 היא אחד ממודלי החזית הסגורים (Claude, GPT-4o/4.1, Gemini 2.5). ההבדלים ביניהם בעברית קטנים מההבדלים בתמחור, ב-rate limits ובארגונומיית המפתח. הכתבה העמוקה על Claude לעומת ChatGPT לעומת Gemini לעסקים מכסה את ההשוואה בעומק רב יותר.
החריגים אמיתיים ושווים ציון. דרישות data residency (בריאות ישראלית, חלקים מסוימים בפיננסים) לעיתים פוסלות לחלוטין את המודלים הסגורים המארחים בארה"ב, מה שדוחף פריסות לכיוון AI21 Jamba (תשתית ישראלית), מודלים פתוחים ממוקדי-עברית שמורצים עצמית, או Mistral מאוחסן ב-EU. מקרי שימוש בנפח גבוה ורגישי עלות — סיווג בנפח, ניתוב כוונה פשוט — לעיתים מריצים מודל פתוח קטן שעבר fine-tuning על נתוני דומיין עבריים במקום לשלם תעריפי פר-טוקן של חזית.