الدلالة (الثقل) الاحصائي – Statistical significance

كل يوم ينزل دراسات (علمية و انسانية) يقولك اثبتت الدراسات ان كل الرجالة بينامو 8 بليل و ان كل الاطفال من جيل الايباد و الحاجات الغريبة دي , لكن اي حد خد ب-جنيه احصا في ثانوي عارف ان الداتا دي بتكون “متوسط احصائي” او متوسط عينة معينة , مش معمولة اكيد علي كل البشر سوا عشان نقول “كل الناس”

ازاي بيتقال بقي عالداتا انها بتتفق مع كل الناس , وازاي باستخدام نفس المبدأ بيتعمل دراسات تحت بير السلم , الموضوع كله ليه علاقة بال Statistical significance , اقرب ترجمة ليها هي “الدلالة او الثقل الاحصائي” , واللي بتعبر بناء علي عدة حاجات عن هل النتايج دي بجد حقيقية ولا ﻷ ؟

في الاول خالص كل حاجة في الكون بتكون حاجة من اتنين, يا اما “determinant – محددة” يا اما “stochastic – عشوائية” (في اخر البوست فيه الفرق بين الrandom والstochastic) , في عالمنا الجميل, اغلب الاشياء بتكون فيها noise او ضوضاء بتغطي عالداتا الحقيقية, بتلعب في الارقام و ساعات بيكون معانا داتا مش كاملة , و ظهرت علوم الاحصاء والاحتمالات عشان نقدر وسط الnoise و الداتا الدخيلة و عدم اكتمال البيانات ده , اننا نطلع نتايج نقدر بشكل تقريبي نعمل بيها نماذج نشتغل بيها.

احصائية يعني بناء علي “احصاء” للبيانات , و اجراء شوية عمليات عليها عشان نشوف السببية و الصلة ما بين المتغيرات اللي فيها و بعضها, زي هل مرض القلب مرتبط فعلا بالاكل الغير صحي ولا دي اشاعة من الدكاترة, عشان الاحصاء ده يكون ليه معني او دلالة “significance” لازم بيكون بيتبع 3 حاجات :

– اختبار الفروض (Hypothesis Testing)
– التوزيع الطبيعي للبيانات (normal distribution)
– احتمالية ان البيانات متكونش عشوائية تماما (p-values)

—-

اختبار الفروض , هو اختبار بعمله للفرض بتاعي قبل ما ابدأ الدراسة العلمية بتاعتي و بشوف حاجة من الاتنين يا اما ال null اللي هو الفرض لا يساوي الحقيقة, او الalternative لما يكون الفرض بتاعي بيساوي الحقيقة بناء علي كذا نوع من الاختبارات (اشهرهم ال z-test)

التوزيع الطبيعي للبيانات, او منحني الجرس, او منحني جاوس (guassian curve) عبارة عن النمط التقريبي اللي بتاخده البيانات في الحقيقة (زي الexp , معدل التزايد الطبيعي و اللوغاريتم الطبيعي, كلها نماذج تقريبية للانماط في اطبيعة) , في المنحني ده بنحسب قيمة المتوسط (mean) بتاع البيانات كلها, بيكون عند انهي قيمة, و قبله قد ايه و بعده قد ايه , قد ايه المتوسط ده دقيق و معبر عن الداتا بتاعتي فعلا بيتقاس بحاجة اسمها معدل الانحراف المعياري (Standard deviation) و ده عشان لما اقول “اغلب” بيكون ده متوسط العينة + انحراف معياري او اكتر, بدل ما بستعمل الانحراف المعياري طوالي , بستعمل قيمة ابسط اسمها ال z-score , ده اللي مبني علي الz-test عشان اتأكد فعلا البيانات دي قد ايه بتتوافق مع ال null او ال alternative بتاعي

اول حاجتين دول ممكن يتلعب فيهم ب-أني اجيب داتا متقيفة او قليلة اوي منها اقدر اثبت الفرض بتاعي , لكن الاسهل استخدام الفرض التالت عشان العب بالدراسة بتاعتي

“احتمالية ان البيانات متكونش عشوائية تماما”

ده رقم, علي حسب حساسية الدراسة بتاعتي و مجالها بيتفرض في الاول, قبل ما اقيس , انه كام في المية من النتايج ممكن يطلع عشوائي تماما و بيخدم عال null hypothesis , اشهر قيمة للاستخدامات الطبيعية بتكون 5% ان الداتا تكون عشوائية, لكن بتوصل ل1 من مليون في الفيزيا و الماشين ليرننج و التطبيقات العسكرية

حسب الz-score بحس الp-value , كل ما بتعلي النسبة دي, فرصة ان الداتا تكون هي سبب النتيجة مش ان الناتج عشوائي, بتزيد, و باللعب في القيمة دي , اقدر اختار قيمة قليلة اوي قبل الدراسة ما تبدأ , لما اجي احسب و الاقي الحقيقية قريبة منها اقول ده كلامي بجد , او حد يعمل دراسة بدقة معينة و انا اعمل نفس الدراسة بp-value اقل دقة و اقول كلام الراجل غلط

—-

في نهاية اليوم, مش كل دراسة لازم نصدقها قبل ما نقراها و نتأكد من ال3 حاجات دول, ﻷن سهل جدا التلاعب بيها و اننا نقنع الناس ان الدنيا جميلة اوي, او وحشة اوي , زي ما انا عايز ده يخدم علي فكرتي او منتجي او ايا كان, و كله بالماث وبما يرضي الله 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

A WordPress.com Website.

Up ↑

%d bloggers like this: