🤖 نظام RAG متعدد اللغات + المشاعر المجمّعة + التنبؤ الاقتصادي الكلي
ENSSEA · مذكرة الماستر · سي طيب هواري · 2025–2026
📂 ارفع التقارير الاقتصادية (PDF / DOCX / TXT / CSV)
ارفع ملفاً ثم اضغط بناء الفهرس للبدء...
📈 ARIMA مقابل SARIMAX + مؤشر المشاعر — نوافذ اختبار متعددة
يختبر النظام تلقائياً n = 3, 4, 5, 6, 7 ويوصي بـ n=6 وفق معيار Timmermann (2006): نافذة الاختبار ≥ 30% من إجمالي البيانات.
📌 الجزائر (DZ) من 2006 إلى 2023 هي الإعدادات الموصى بها لمذكرتك.
🧠 حول النظام
إطار RAG متعدد اللغات مع فهرسة المشاعر السنوية للتنبؤ الاقتصادي الكلي
👤 المؤلف
سي طيب هواري — مذكرة ماستر، إحصاء واقتصاد استشرافي المدرسة الوطنية العليا للإحصاء والاقتصاد التطبيقي (ENSSEA) السنة الجامعية: 2025–2026
🏗️ معمارية النظام
| المكوّن | التقنية المستخدمة |
|---|---|
| 📄 استيعاب الوثائق | PDF / DOCX / TXT / CSV |
| 🔍 الاسترجاع الكثيف | FAISS (IndexFlatIP) + تضمينات متعددة اللغات |
| ⚡ الاسترجاع المتناثر | ترجيح BM25 |
| 🔀 إعادة الترتيب الهجين | Cross-Encoder (ms-marco-MiniLM) |
| 😊 المشاعر المجمّعة | FinBERT (40%) + XLM-RoBERTa (30%) + Lexicon (30%) |
| 🤖 توليد الإجابات | Llama-3.3-70B عبر Groq API |
| 📈 التنبؤ | ARIMA(1,1,1) مقابل SARIMAX + مؤشر المشاعر السنوي |
| 🔬 الاختبارات الإحصائية | ADF · غرانجر · ديبولد-ماريانو (n = 3,4,5,6,7) |
| 🌐 اللغات المدعومة | العربية 🇸🇦 · الإنجليزية 🇺🇸 · الفرنسية 🇫🇷 |
📊 المبرر المنهجي لنوافذ الاختبار المتعددة
| n_test | نسبة الاختبار (T=18) | المبرر |
|---|---|---|
| 3 | 17% | الحد الأدنى للتقييم |
| 4 | 22% | يتجاوز عتبة 20% |
| 5 | 28% | قريب من معيار 30% |
| 6 | 33% ⭐ | معيار Timmermann (2006) — الموصى به |
| 7 | 39% | اختبار إضافي للمتانة |
"We adopt a test window of n=6 (33% of T=18) following Timmermann (2006), who recommends allocating at least 20–30% of observations to the test set in macroeconomic forecast evaluation."
📋 النتائج الرئيسية (الجزائر — CPI% — 2006–2023)
| المعيار | النتيجة |
|---|---|
| ✅ تحسّن RMSE (n=6) | ~+11% (SARIMAX vs ARIMA) |
| ✅ سببية غرانجر | معنوية عند Lag 2 (p=0.011) و Lag 3 (p=0.015) |
| ✅ اختبار ADF | الهدف I(1) — ساكن عند الفرق الأول |
| 🔶 اختبار DM (n=3) | هامشي (p≈0.096) |
| ✅ اختبار DM (n≥5) | معنوي عند مستوى 5% |
🔑 الخلاصة الأكاديمية
"ثبات تحسّن RMSE عبر n = 3,4,5,6,7 يُثبت أن القيمة التنبؤية لمؤشر المشاعر ليست ظرفية بل جوهرية، وأن النتيجة الهامشية لاختبار DM عند n=3 تعكس محدودية القدرة الإحصائية لا محدودية النموذج نفسه."
📚 المراجع الرئيسية
| المرجع | الاستخدام |
|---|---|
| Araci (2019) | FinBERT |
| Conneau et al. (2020) | XLM-RoBERTa |
| Diebold & Mariano (1995) | اختبار DM |
| Granger (1969) | اختبار السببية |
| Timmermann (2006) | معيار نافذة الاختبار 30% |
| BIS (2024) | المشاعر الكلية مع LLMs |