النموذج الخطي المعمم
في الإحصاء، النموذج الخطي المعمم[1] هو تعميم مرن من الانحدار الخطي العادي الذي يسمح للمتغيرات التي لديها أخطاء في نماذج توزيع أخرى من التوزيع الطبيعي. ويعمم الانحدار الخطي من خلال السماح النموذج الخطي يجب أن تكون متصلة متغير الاستجابة عن طريق دالة الاتصال وذلك بالسماح بمقدار التباين في كل قياس لتكون دالة من قيمته المتوقعة. صيغت النماذج الخطية المعممة من قبل جون نيلدور وروبرت ويديربون كوسيلة لتوحيد نماذج إحصائية أخرى مختلفة، بما في ذلك الانحدار الخطي، والانحدار اللوجستي وانحدار بواسون.
واقترحوا طريقة المربعات الصغرى المتكرره للحصول على أقصى تقدير احتمال للنموذج. يبقى تقدير الحد الأقصى الأكثر شيوعاً، والأسلوب الافتراضي على العديد من حزم الحوسبة الإحصائية. المناهج الأخرى، بما في ذلك النهج النظرية الافتراضية والمربعات يناسب لتباين الردود، تم وضعها.
نبذة بديهية
ويتنبأ الانحدار الخطي العادي القيمة المتوقعة لكمية غير معروفه معطاه (متغير الاستجابة، متغير عشوائي) كتركيبة خطية من مجموعة من القيم الملاحظة (منبئات). وهذا يعني أن تغيير مستمر في مؤشرًا يؤدي إلى تغير مستمر في متغير الاستجابة (أي نموذج خطي الاستجابة). يكون هذا مناسباً عندما يكون متغير الاستجابة له توزيع عادي (بديهيا، عندما متغير الاستجابة يمكن أن يختلف أساسًا إلى أجل غير مسمى في الاتجاه مع عدم وجود ثابت 'قيمة صفر'، أو أكثر عموما لأي كمية إلا أن يختلف حسب كمية صغيرة نسبيا، مثل مرتفعات البشرية).
ومع ذلك، هذه الافتراضات غير ملائمة لبعض أنواع متغيرات الاستجابة. على سبيل المثال، في الحالات حيث من المتوقع أن متغير الاستجابة يكون دائماً إيجابي ومتفاوت على نطاق واسع، تغييرات الإدخال المستمر يؤدي إلى اختلافا هندسيا، بدلاً من استمرار متفاوت لتغيرات الإخراج. على سبيل مثال، نموذج التنبؤ قد توقع أن يؤدي انخفاض درجة الحرارة 10درجات إلى 000 1 عدد أقل من الناس يزورون الشاطئ من غير المحتمل أن التعميم أكثر من الشواطئ الصغيرة على حد سواء (مثل تلك حيث كان الحضور المتوقع 50 في درجة حرارة معينة) والشواطئ الكبيرة (مثل تلك حيث كان الحضور المتوقع 10,000 عند درجة حرارة منخفضة). يعني المشكلة مع هذا النوع من نموذج للتنبؤ بانخفاض درجة الحرارة 10 درجات سوف تؤدي إلى 1000 شخص أقل زيارة للشاطئ، شاطئ وكان حضورهم المتوقع 50 في درجة حرارة أعلى حيث الآن يمكن التنبؤ بقيمة الحضور المستحيلة -950. منطقياً، النموذج الأكثر واقعية بدلاً من ذلك: التنبؤ بمعدل ثابت لزيادة الحضور في الشاطئ (مثل زيادة 10 درجات يؤدي إلى مضاعفة في حضور الشاطئ، وانخفاض في 10 درجات يؤدي إلى تخفيض إلى النصف في الحضور). يسمى هذا نموذج نموذج الاستجابة الأسية (أو نموذج سجل الخطية، حيث ان لوغاريتم الاستجابة من المتوقع أن يختلف خطيا).
وبالمثل، النموذج الذي يتنبأ احتمال اتخاذ قرار نعم/لا (متغير Bernoulli) هو أقل ملاءمة كنموذج خطي الاستجابة، نظراً للاحتمالات التي يحدها على طرفيه (التي يجب أن تكون بين 0 و 1). تخيل، على سبيل المثال، نموذج يتنبأ باحتمال شخص معين الذهاب إلى الشاطئ كدالة لدرجة الحرارة. يمكن التنبؤ نموذجا معقولاً، على سبيل المثال، أن إجراء تغيير في درجة الحرارة 10 درحات يجعل شخص أكثر أو أقل احتمالاً للذهاب إلى الشاطئ مرتين. ولكن ماذا يعني من حيث احتمال 'مرتين كاحتمال' ؟ لا يمكن أن تعني حرفيا لمضاعفة قيمة الاحتمال (مثلاً يصبح 50 100، 75 يصبح 150، إلخ.). بدلاً من ذلك، هو أن احتمالات أن يتم مضاعفة: من 2:1 الصعاب، بخلاف 4:1، بخلاف 8:1، وما إلى ذلك. هذا النموذج هو نموذج سجل-الصعاب.
نماذج خطية معممة تشمل جميع هذه الحالات عن طريق السماح لاستجابة المتغيرات التي لها توزيعات عشوائيه (بدلاً من مجرد التوزيعات الاعتيادية)، ودالة عشوائيه حيث ان متغير الاستجابة (وظيفة الارتباط) تتفاوت خطيا مع القيم المتوقعة
(بدلاً من افتراض أن الاستجابة نفسها يجب أن تختلف خطيا). على سبيل المثال، القضية أعلاه لتوقع عدد الحضور للشاطئ أن عادة أن تكون على غرار مع توزيع بواسون وارتباط سجل، في حين أن عادة أن تكون على غرار حالة توقع احتمال الحضور للشاطئ مع توزيع برنولي (أو التوزيع ذي الحدين، اعتماداً على كيف كانت صيغته المشكلة بالضبط)، وخلاف سجل (أو اللوغاريتمية) ربط الدالة.
نظرة عامة
في نموذج خطي معمم (GLM)، كل نتائج المتغيرات التابعة، Y، يفترض أن يكون إنشاؤها من توزيع خاصة في الأسرة الأسى، ومجموعة كبيرة من التوزيعات الاحتمالية التي تتضمن (عادي، ذات الحدين، توزيع بواسون، وتوزيع غاما، بين أمور أخرى). المتوسط μ، التوزيع يعتمد على المتغيرات المستقلة، X، من خلال:
حيث E(Y))) هي القيمة المتوقعة من Y؛ Xβ هو التوقع الخطي، تركيبة خطية من المعلمات الغير معروفه β؛ g هي وظيفة الارتباط. وفي هذا الإطار، الفرق عادة دالة، V, بمعنى:
فالأفضل إذا كان V يتبع ا التوزيع الأسى، ولكن قد يكون ببساطة أن الفرق دالة للقيمة المتوقعة. وتقدر المعلمات الغير معروفه، β، عادة مع احتمال الحد الأقصى أو الحد الأقصى لاحتمال شبه تقنيات النظرية الافتراضية.
مكونات النموذج
النموذج الخطي المعمم يتكون من ثلاث عناصر:
- التوزيع الاحتمالي من المجموعة الأسية.
- المؤشر الخطيη = Xβ .
- دالة الربط g بحيث E(Y) = μ = g−1(η).
التوزيع الإحتمالي
المجموعة الأسية على مدى تشتت التوزيعات هي تعميم نموذج التوزيعات للمجموعة الأسية وتشتت الأسي وتشمل تلك التوزيعات الاحتمالية، الرموزτ,θ ، التي لها دالة f (أو دالة احتمال كتلة الكثافة، لحالة توزيع منفصلة) يمكن التعبير عنها في شكل:
τ يطلق عليها مقدار التشتت، معروف في الغالب، وعادة ما يرتبط التباين في التوزيع، الدوال (h(y,τ,b(θ),T(y),A(θو (d(τ معلومين وهي من من التوزيعات الأكثر شيوعا في هذه المجموعة. لقيمة مدرجة ل و هذا يقلل إلى:
تتعلق بمتوسط التوزيع، لو أن هي دالة منفردة، ثم يقال توزيع ليكون في شكل الكنسي (أو شكل طبيعي ). لاحظ أن أي توزيع يمكن تحويلها إلى شكل قانوني عن طريق إعادة كتابة كـ ثم تطبيق التحويلات . فمن الممكن دائماً تحويل في صورة بارميتر جديدة حتي لو ليس [دالة[واحد إلى واحد | واحد إلى واحد]]. انظر التعليقات في الصفحة على المجموعة الأسية. إذا، بالإضافة إلى ذلك، منفردة و قيمة معروفة، ثم يطلق عليها و البارميتر الكنسي (أو البارميتر الطبيعي ) ويرتبط إلى المتوسط من خلال: لقيمة مدرجة ل و هذا يقلل إلى: وفي ظل هذا السيناريو، التباين في توزيع يمكن أن تظهر أن يكون: لقيمة مدرجة ل و هذا يقلل إلى:
التنبؤ الخطي
التنبؤ الخطي هي الكمية التي تتضمن معلومات حول المتغيرات المستقلة في النموذج. والرمز η (اليونانية «ايتا») يدل على تنبؤ خطي. ويعود ذلك إلى القيمة المتوقعة للبيانات (وبالتالي، «مؤشرا») من خلال دالة الإتصال.
وبعرف η كالتركيبات الخطية (وبالتالي، «خطية») من المعلمات غير معروفة β. يتم تمثيل المعاملات التركيبة الخطية مثل المصفوفة من المتغيرات المستقلة X. ويتم التعبير عن η:-
دالة الإتصال
توفر دالة الإتصال العلاقة بين المؤشر الخطي ومتوسط دالة التوزيع. هناك العديد من دوال الربط الشائعة، واختيارهم يمكن أن يكون تعسفيا إلى حد ما. فمن المنطقي محاولة التناسق مع مجال دالة الرابط ومجموعة من متوسط دالة التوزيع. عند استخدام دالة التوزيع مع الكنسي المعلمة θ، وظيفة الارتباط الكنسي هي وظيفة التي تعبر عن θ من حيث , i.e. . لتوزيعات الأكثر شيوعا، يعني هي واحدة من المعلمات في النموذج القياسي لدالة الكثافة للتوزيع، ومن ثم هي وظيفة على النحو المحدد أعلاه أن خرائط الكثافة وظيفة في شكلها المتعارف عليه. عند استخدام وظيفة الربط الكنسي،، والذي يسمح أن يكون كافيا إحصائية ل .
وفيما يلي جدول عدة توزيعات المجموعة الأسية في الاستعمال الشائع والبيانات عادة ما تستخدم ل، جنبا إلى جنب مع وظائف الارتباط الكنسي والعكوس الخاصة (التي يشار إليها أحيانا على أنها وظيفة المتوسط، كما فعلت هنا).
التوزيع | دعم التوزيع | الاستخدامات المتعددة | اسم الرابط | دالة الربط | متوسط الدالة |
---|---|---|---|---|---|
عادي | حقيقي: | استجابة البيانات الخطية | غير متكرر | ||
أسي | جقيقي: | استجابة البيانات الأسية، نطاق الدوال | معكوس | ||
جاما | |||||
المعكوس جاوس |
حقيقي: | معكوس التربيعي | |||
بواسون | عدد صحيح: | مرات التكرار في كمية محددة من الزمن / الفضاء | لوج | ||
برنولي | رقم صحيح: | نتائج نعم واحد / عدم حدوث ذلك | لوجت | ||
ذو الحدين | integer: | عد من # من "نعم" الحوادث من ن نعم / لا الحوادث | |||
القاطع | رقم صحيح: | نتائج حدوث K-طرق المفردة | |||
K-متجه صحيح: , حيث عنصر واحد بالضبط في المتجه له قيمة 1 | |||||
متعدد الحدود | K-متجه أرقام صحيحة: | عد من الحوادث من أنواع مختلفة (1 .. K) من ن K-طرق الحدوث |
في حالات التوزيعات الأسية وجاما، مجال دالة الربط الكنسي ليست هي نفسها كما النطاق المسموح به للمتوسط. على وجه الخصوص، قد يكون المؤشر الخطي سلبيا، الذي من شأنه أن يعطي متوسط سلبي مستحيل. عندما تعظيم الاحتمالات، ويجب اتخاذ الاحتياطات اللازمة لتجنب ذلك. والبديل هو استخدام دالة الارتباط الغير كنسية.
نلاحظ أيضا أنه في حالة برنولي، توزيع ذات الحدين، الفئوية ومتعددة الحدود، بدعم من توزيعات ليست هي نفس النوع من البيانات كالمتغير الذي يتم توقعه. في كل هذه الحالات، المتغير المتوقع هو واحد أو أكثر الاحتمالات، أي أن الأعداد الحقيقية في نطاق . ومن المعروف أن النموذج الناتج باسم الانحدار اللوجستي (أو الانحدار متعدد الحدود اللوجستي في حالة أن K-الطريقة بدلا من القيم الثنائية يجري توقع).
التوزيعات الفئوية ومتعددة الحدود، المعلمة أن توقع هو K - متجه الاحتمالات، مع تقييد المزيد من أن جميع الاحتمالات يجب أن تضيف ما يصل إلى 1. كل الاحتمالات تشير لاحتمالية حدوث واحدة من K القيم الممكنة. لتوزيع متعدد الحدود، وللنموذج متجه توزيع القاطع، القيم المتوقعة من عناصر مكافحة ناقلات يمكن أن تكون ذات صلة إلى احتمالات توقع على نحو مماثل لتوزيعات ذات الحدين وبرنولي.
التركيب
الحد الأقصي للاحتمال
تقديرات الحد الأقصي للاحتمال يمكن العثور عليها باستخدام إعادة التوزيع المتكررة أقل مسافة مربعة الساحات خوارزمية أقل باستخدام طريقة نيوتن رافسون مع تحديثات النموذج:
حيث هي مصفوفة المعلومات (سلبية للمصفوفة هس) و is في وظيفة بنتيجة؛ أو [[التسجيل] فيشر] طريقة:
حيث هي المعلومات مصفوفة فيشر. لاحظ أنه إذا تم استخدام دالة الارتباط الكنسي، ثم أنها هي نفسها.[2]
طريقة بييز
بشكل عام، التوزيع الخلفي لا يمكن العثور عليها في شكل مغلق ولذا يجب تقتريبه، وعادة ما تستخدم تقريبية لابلاس أو أي نوع من سلسلة ماركوف مونت كارلو مثل جيبس أخذ العينات.
أمثلة
النماذج الخطية العامة
وهناك نقطة ممكنة من الارتباك لديها ما تفعله مع التمييز بين النماذج الخطية المعمم والنموذج الخطي العام، واثنين من نماذج إحصائية واسعة النطاق.ويمكن الاطلاع على النموذج الخطي العام كحالة خاصة من طراز خطي المعمم مع وصلة بالهوية والردود موزعة بشكل عادي. كما يتم الحصول على معظم النتائج الدقيقة المرغوبة فقط عن النموذج الخطي العام، والنموذج الخطي العام شهدت تطورا إلى حد ما يعد للتطور التاريخي.نتائج النموذج الخطي المعمم مع وصلة غير الهوية مقاربة (تميل للعمل بشكل جيد مع عينات كبيرة).
الإنحدار الخطي
مثال بسيط ومهم جدا من النموذج الخطي المعمم (أيضا مثالا للنموذج الخطي العام) هو الانحدار الخطي. في الانحدار الخطي، استخدام مقدر المربعات الصغرى التي كتبها نظرية جاوس-ماركوف له ما يبرره، والتي لا نفترض أن التوزيع طبيعي.
من وجهة نظر النماذج الخطية المعممة، ومع ذلك، فإنه من المفيد أن نفترض أن دالة التوزيع هو توزيع العادي مع التباين الثابت وربط الوظيفة معرفة، التي هي الرابط الأساسي إذا كان من التباين معروف.
بالنسبة للتوزيع الطبيعي، النموذج الخطي المعمم لديه شكل صيغة مغلقة لتقديرات الحد الأقصى-الاحتمالات، هي مناسبة. معظم GLMs الاخري ينقصها تقديرات النموذج المغلقة.
البيانات ذات الحدين
عندما تكون البيانات المستجابة، Y، ثنائية (مع أخذ القيم 0 و1 فقط )، يتم اختيار وظيفة التوزيع عموما أن يكون توزيع برنولي وتفسير μi بعد ذلك احتمال، P، من Y وأخذ قيمة واحدة. هناك عدة دوال اتصال معروفة للوظائف ذات الحدين؛ الأكثر شيوعا هو الرابط القانونكل:
GLMs مع هذا الإعداد هي نماذج الانحدار اللوجستي (أو نماذج الوجت). بالإضافة إلى ذلك، معكوس أي دالة توزيع تراكمي مستمر يمكن استخدامها للاتصال حيث ان نطاق التوزيع التراكمي المستمر هو [0,1]، مدي متوسط الحدين. التوزيع التراكمي المستمر الطبيعي فاي هو أشهر اختيار وتعطي النموذج الاحتمالي. واتصالها هو
سبب استخدام نموذج الاحتمالية هو أن التوسع المستمر للمتغير الداخل إلى التوزيع التراكمي المستمر الطبيعي (والتي يمكن استيعابها من خلال التوسع يعادل كافة العوامل) تؤدي الي دالة مطابقة عمليا إلى دالة الوجت، ولكن النماذج الاحتمالية هي أكثر مرونة في بعض الحالات من نماذج الوجت. (في إطار النظرية الافتراضية التي يتم وضع التوزيعات السابقة عادة على العوامل، العلاقة بين دوال الاتصال الطبيعية السابقة ودوال الاتصال للتوزيع التراكمي المستمر الطبيعي يعني أن نموذج الاحتمالية يمكن حسابها باستخدام عينات جيبس، في حين أن نموذج الوجت لا يمكنها عموما).
والدالة المكملة لدالة log-log هي (((log(−log(1−p) يمكن أيضا أن تستخدم.دالة الاتصال هذه غير متناظرة، وكثيرا ما تعطي نتائج مختلفة عن دوال الاتصال الاحتمالية والوجت. [بحاجة لمصدر]
كما يتم استخدام دالة الوحدة بعض الأحيان لبيانات ذات الحدين لانتاج نموذج الاحتمال الخطي، ولكن المشكلة في هذا النموذج هو أن الاحتمالات المتوقع يمكن أن تكون أكبر من واحد أو أقل من الصفر. في التنفيذ فمن الممكن لإصلاح الاحتمالات التي لا معنى لها خارج [0,1]، ولكن تفسير المعاملات يمكن أن يكون صعبا.الجدارة الأولية للنموذج هي أن تكون الاحتمالية بالقرب من 0.5 وهو ما يقرب من تحويل خطي من الاحتمالية والوجت الاقتصادي ويسمي هذا أحيانا نموذج هارفارد.
ودالة التباين للبيانات ذات الحدين تعطي ب :
حيث عادة ما يتم ضبط معامل التشتت τ ليكون واحد بالضبط. عندما لا يكون كذلك، النموذج الناتج شبه احتمال كثيرا ما يوصف بأنه ذات الحدين متسع التشتت أو شبه الحدين
الإنحدار متعدد الحدود
حالة ذات الحدين يجوز تمديدها بسهولة للسماح لتوزيع متعدد الحدود كاستجابة (أيضا، وهو نموذج الخطي المعمم للتعدد، مع مجموعه مقيدة). هناك نوعان من الطرق التي تتم عادة:
الاستجابة المرتبة
إذا كان المتغير المستجيب هو قياس ترتيبي، ثم واحدة تناسب دالة النموذج تكون علي الشكل التالي:
حيث
حيث m > 2 , مختلف الروابط تؤدي إلى نماذج فردية نسبية أو نماذج احتمالية مرتبة
الاستجاب الغير مرتبة
إذا كان المتغير المستجيب هو القياس الا سمي أو البيانات لا تفي افتراضات نموذج مرتب، يمكن أن نستخدم نموذجا علي الشكل التالي:
- حيث
حيث m> 2. روابط مختلفة g تؤدي إلى نماذج لوجت متعددة الحدود أو نماذج احتمالية متعددة الحدود. هذه هي أعم من نماذج الاستجابة المرتبة، وعوامل أكثر يمكن تقديرها
عد البيانات
مثال آخر علي النماذج الخطية المعممة تتضمن انحدار بواسون النماذج التي تحسب فيها البيانات باستخدام توزيع بواسون. هذا الرابط هو بالضبط اللوغاريتم، الرابط الأساسي. دالة التباين يتناسب مع المتوسط
حيث عادة ما ضبط معامل التشتت τ ليكون واحد بالضبط. عندما لا يكون كذلك، النموذج الناتج شبه احتمال كثيرا ما يوصف بأنه ذات الحدين متسع التشتت أو شبه الحدين
الملحقات
النموذج الخطى المعمم القياسى يفترض ان الملاحظات غير مترابطة [الإنجليزية]. وقد وضعت ملحقات للسماح لوجود علاقة بين الملاحظات، كما يحدث على سبيل المثال في الدراسات الطولية والتصاميم العنقودية:
البيانات المترابطة أو عنقودية
• معادلات التقدير المعمم : وهذه المعادلات تسمح بوجود علاقة بين الملاحظات بدون استخدام نموذج احتمال واضح لأصل الارتباط ولذلك فانه يس هناك احتمال واضح وصريح. وتعتبر مثل هذه المعادلات مناسبة عندما تكون التأثيرات العشوائية والفروق ليست ذات الفائدة الكامنة، كما أنها تسمح للارتباط ووجود علاقة بين الملاحظات دون أن يوضح مصدره. وينصب التركيز على تقدير امتوسط بالنسبة للعينة كلها (أثار متوسط العينة) بدلا من بارامترات الانحدار التي من شأنها أن تمكن من التنبؤ بتأثير تغيير واحد أو أكثر من عناصر X على شخص معين.وتستخدم معادلات التقدير المعمم بالتزامن مع أخطاء هوبر وايت القياسية [الإنجليزية] .
• نماذج مختلطة خطية معممة : وهى تعتبرامتداد للنماذج الخطية المعممة التي تتضمن التأثيرات العشوائية في التنبؤ الخطي، عن طريق إعطاء نموذج احتمال واضح يفسر أصل الارتباط. وتعتبر نواتج تقديرات المعامل للمواضيع المحددة مناسبة عندما يكون التركيز على تقدير تأثير تغيير واحد أو أكثر من عناصر X على شخص معين. وتسمى هذه النماذج أيضا بالنماذج متعددة المستويات [الإنجليزية] أو النموذج المختلط [الإنجليزية] .وبشكل عام يعتبر التلائم باستخدام النماذج المختلطة أكثر حسابيا وتعقيدا من معادلات التقدير المعمم .
نماذج مضافة العامة
وتعتبر النماذج المضافة العامة [الإنجليزية] امتداد اخر للنموذج الخطى المعمم والتي لا تقتصر على التنبؤ الخطي η أن يكون خطيا في المتغيرات X ولكن هو مجموع وظائف التجاننس [الإنجليزية] مطبقة على المتغيرات xis : η=β_0+ f_1 (X_1)+ f_2 (X_2)+..… ويتم تقدير وظائف التجانس f_i من البيانات . وبشكل عام هذا يتطلب وجود عدد كبير من نقاط البيانات وغير مكثفة حسابيا.
الخلط بينها وبين النماذج الخطية العامة
مصطلح «النموذج الخطي المعمم»، وخاصة في اختصار GLM يمكن الخلط بينه وبين النموذج الخطي العام. وقد أعرب جون John Nelder [الإنجليزية] هن أسفه عن هذا في محادثة مع ستيفن سين Stephen Senn:
- سين: يجب أن أعترف إلى وجود بعض الالتباس لدى عندما كنت إحصائي مبتدئ بين النماذج الخطية العامة والنماذج الخطية المعممة. هل تأسف على هذه المصطلحات؟
- جون Nelder: أعتقد ربما أفعل. وأظن أننا يجب أن نقوم باختيار اسم أكثر تخيلا وتفهما للموضوع لأنه سيكون مترسخا أكثر في الذهن ولا يتم الخلط بينه وبين النموذج الخطي العام، على الرغم من عام ومعمم ليست تماما نفس الشيء. أستطيع أن أرى لماذا ربما كان من الأفضل أن يكون التفكير في شيء آخر.
انظر أيضا
المراجع
- معجم البيانات والذكاء الاصطناعي (PDF) (بالعربية والإنجليزية)، الهيئة السعودية للبيانات والذكاء الاصطناعي، 2022، ص. 72، QID:Q111421033
- McCullagh and Nelder (1989), Page 43.
- بوابة إحصاء
- بوابة رياضيات