آمار و آماری
همه چیز درباره ی آمار
آمار زيستي شاخهاي از آمار (كاربردي) است كه تمركز و تأكيد آن بر توسعه و استفاده از روشهاي آماري است كه در راستاي حل مسائل و پاسخ به سئوالاتي كه در بهداشت، پزشكي و ژنتيك و بيولوژي انساني مطرح ميشوند. تاريخچه رشته و پيشرفتهاي جديد از آغاز قرن هفدهم تا امروز، پديده هاي اساسي بيولوژيكي (مخصوصاً مرگ و مير و ابتلاء به بيماريها) و جمعآوري دادهها در اين زمينه ها بسيار مورد توجه بوده است. تاريخچه آمار زيستي در مملكت ما به اواسط قرن بيستم بر ميگردد درحاليكه اولين گروه آمار زيستي در ايران و در دانشكده بهداشت دانشگاه تهران در سال 1345 شمسي توسط دكتر نهاپتيان پي ريزي شد. در آن زمان گروه آمار زيستي فوق با ارائه دورة فوق ليسانس آمار زيستي شروع به آموزش و تحقيق در زمينة آمار زيستي نمود و همزمان به كل دانشگاه تهران خدمات آموزشي و مشاورة تحقيقاتي ارائه داد. گروه آمار زيستي فوقالذكر در سال 1352 شمسي با گروه اپيدميولوژي دانشگاه ادغام و از آن زمان تاكنون به پذيرش و آموزش دانشجو در مقطع كارشناسي ارشد و در سالهاي اخير در مقطع دكتري تخصصي (Ph.D) ادامه ميدهد. به كارگيري كامپيوترها با سرعت بسيار بالا مخصوصاً در دهههاي اخير تأثيري شگرف بر تمامي عرصههاي حيات انسان از جمله علوم داشته است. از اين ميان علم آمار زيستي نيز همچون ساير علوم متأثر از پيشرفتهاي محاسباتي دستخوش تحولات و پيشرفتهاي بسيار چشمگيري شده است. اجراي روشهاي آماري كه حتي در بيست سال پيش غيرقابل تصور بودند امروز به صورت كار روزمره هر كاربر آمار زيستي درآمده است. در اين راستا: منبع:http://www.ssc85.mihanblog.com/ (۳۰مرداد .شیراز ) با توجه به تمام شدن این دوره نشریه امار این تعداد از سوالات را منتشر کرد . آدرس ورژن نرم افزار --- Amelia --- aML --- IVEware 1.0 LEM --- Mx --- NORM 1.76 Optimal Design 2.5.1 R 1.4.1 WinBugs نرم افزارهای آماری که به طور رایگان عرضه نمی شوند در زیر لیست شده اند:
ورژن نرم افزار 7 Amos - Egret 6.1 EQS 5.1 EViews 6.04 HLM 7 JMP 4.0 LatentGold 8.0 Limdep 8.8 Lisrel 8.8 8 LogXact 15 Minitab 2.02 MLwiN 4.21 Mplus 2005 PASS 6.3 Rats 2.0 Sample Power 9.1.3 SAS 9 Snap 3.0 Solas 8 S-plus 15.0.1 SPSS 10 Stata IC / Stata SE / Stata MP 7 Statistica 9 StatTransfer 8 StatXact 9.0.1 SUDAAN 11 Systat 4.2 WesVar با تشکر از : نمودار پرا کنش در مطالعه رابطه بین دو متغیر ، اولین قدم رسم داده ها به صورت نقاطی بر روی یک صفحه نمودار است . شکل حاصل که نمودار پراکنش نامیده می شود ، چگونگی خوشه ایی شدن نقاط در اطراف یک خط مستقیم یا یک نوع منحنی مشخص را نشان می دهد و نیز برداشتی عینی از میزان پراکندگی دادها پیرامون خط یا منحنی را فراهم می کند در بیشتر موقعیتها رابطه نظری پیشین معلومی وجود ندارد که ان را به کار ببریم ، بنابرین ، اطلاع منعکس در نمودار پراکنش برای جستجو یک مدل ریاضی مناسب مفید است . در بسیاری از موقعیتها ، رسم نومدار پراکنش نشان می دهد که یک رابطه ، هر چند وجود دارد ، ولی از خطی بودن دور است . رسم نمودار پرا کنش در رگرسیون اهمیت زیادی دارد و بین دو مجموعه داده استفاده می شود تا نوع رابطه بین دو داده را حدس بزنیم در حقيقت حدس مي زند که يک رابطه به شکل يک خط بين دو متغير وجود دارد و سپس به جمع آوري اطلاعات کمي از دو متغير مي پردازد و اين داده ها را به صورت نقاطي در يک نمودار دو بعدي رسم مي کند. اين نمودار که به آن نمودار پراکندگي [scatter plot] گفته مي شود نقش بسيار مهمي را در تحليل هاي رگرسيوني و نمايش ارتباط بين متغيرها ايفا مي کند. y = a x + b که در آن a عرض از مبدأ و b شيب اين خط است. پیر یسمون ( مارکوس لاپلاس ) قضیه حد مرکزی در ابتدا تئسط پیرسیمون ( مروف به مارکوس لاپلاس ) ریا ضیدان فرانسوی بیان و اثبات شد .مارکوس لاپلاس از مشاهده خطای اندازه گیری های خود ( که معمولا به عنوان مجموع تعداد زیادی از نیروهای کوچک در نظر گرفته می شود ) که دارای توزیع نرمال است بدین قضیه دست یافت . لاپلاس در ضمن یک ستتاره شناس ( معروف به نیوتن فرانسه ) و یکی از بزرگترین نویسندگان پیشین در مبا حث آمار و احتمال بود .همچنین عامل اشاعه فرهنگ به کار گیری احتمال در زندگی روزمره بود او شدیدا به اهمیت این موضوع واقف بود و در جمله ای از کتاب خود تحت عنوان ((نظریه تحلیل احتمال )) بیان می کند که ( نظریه احتمال در حقیقت همان عقل سلیم است که تا مرتبه محاسبه تنزل پیدا کرده است این نظریه ما را قادر می سازد که با دقت هر آنچه را که اذهان منطقی با کمک غریزه ادراک می کنند ، در یابیم با این تفاوت که غالبا نمی توانیم چگونگی انرا توضیح دهیم .... فوق العاده است که این علم در آغاز برای بررسی بازیهای شانس ابداع شد ه بود ولی امروزه باید به عنوان مهمترین دانش بشری در آید ... مهمترین سوالات عمده زندگی بشری در بسیاری از موارد حقیقتا مساءل احتمال هستند . کاربد قضیه حد مرکزی در نشان دادن اینکه مقادیر خطاهای اندازه گیری دارای توزیع تقریبا نرمالی هستند کمک شایانی به علوم قلمداد می شود از اینرو در قرون 17 و 18 از قضیه حد مرکزی به نام (( قانون فراوانی خطاها )) یاد می شده است و به عنوان یک پیشرفت عمده در علوم تلقی می شود . به کلام فرانسیس گالتون ( برگرفته از کتاب ( وراثت طبیعی ) وی منتشر شده در سال 1889 ) توجه کنید : ( به عقیده من شگفت انگیز ترین موضوعی که قانون فراوانی خطاها ان را توضیح داده و بیشترین تاثیر را بر قوه تخیل انسان گذاشته همان نظم کیهانی است اگر یونانیان باستان از قانون فراوانی خطاها آگاه بودند قطعا انرا را به عالم انسانی تعمیم می دادند و ادعای خدایی می کردند این قانون با تانی و متانت در بطن آشفتگیها و بی نظمیها ،عالم هستی را تحت استیلای خود دارد .هر چه میزان این آشفتگیها و بی نظمیها بیشتر باشد سلطه ان نیز کاملتر خواهد بود این قانون حاکم بلا منازع عرصه بی نظمیهاست .) مبانی احتمال/شلدون راس/ترجمه احمد پارسیان و علی زینل همدانی همبستگی در مطالعه میزان و نوع ارتباط بین دو متغیر بر حسب این که دو متغیر از چه رده ایی باشند یکی از سه ضریب همبستگی زیر مورد استفاده قرار می گیرد : 1- ضریب همبستگی خطی پیرسن 2- ضریب همبستگی کندال 3- ضریب همبستگی اسپیرمن ضریب همبستگی خطی پیرسن ، میزان ارتباط خطی دو متغیر کمی را می دهد. ضریب همبستگی کندال ، میزان ارتباط بین دو متغیر رتبه ای و اسمی را می دهد .از ضریب همبستگی اسپیرمن برای تعیین میزان ارتباط بین دو متغیر رتبه ایی استفاده می شود . همبستگی جزیی در مورد متغیر های کمی نوع خاصی از همبستگی موسوم به همبستگی جزیی نیز تعریف می شود .بیشترین کاربرد همبستگی جزیی در رگرسیون است . گیریم x، y z ، سه متغیر کمی باشند ، ممکن است بخشی از رابطه بین x، y با رابطه بین x، z مشترک باشد .و قتی گفته می شود همبستگی جزیی x، zدر حضور y بدان معنی است که اگر میزان ارتباط y، z را بدانیم آن گاه با در نظر گرفتن سهم ارتباط y، z دو متغیر x، z به چه میزانی با هم ارتباط دارند فیزیک آماری یکی از نظریه های بنیادی فیزیک است که از روشهای آمار برای حل مسئلههای فیزیک استفاده میکند. این شاخه از فیزیک زمینههای بسیاری با ماهیت کاتوره ای را در بر میگیرد؛ مثل مقولاتی در شاخههای زیست شناسی، شیمی، عصب شناسی و حتی علوم اجتماعی مثل جامعه شناسی. عبارت «فیزیک آماری» اشاره به رویکردهای آماری و احتمالاتی به مکانیک کلاسیک و مکانیک کوانتومی دارد. بنابراین گاهی از عبارت مکانیک آماری هم به همین معنی برای آن استفاده میشود. همچنین گاهی اوقات که تفکیک بین این عبارات لازم است، از عبارتهایی چون مکانیک آماری کلاسیک و مکانیک آماری کوانتومی استفاده میشود. رویکرد آماری برای سیستمهای کلاسیک در مواقعی که تعداد درجات آزادی (و بنابراین تعداد متغیرها) زیاد و حل دقیق دشوار یا غیرقابل استفاده است، خیلی خوب کار میکند. همچنین مکانیک آماری در دینامیک غیر خطی،نظریه آشوب، فیزیک گرمایی، دینامیک شاره (به خصوص در عدد نودسن پایین)، و فیزیک پلاسما قابل استفاده است. اگرچه بسیاری از مسئلهها در فیزیک آماری به کمک تقریب و بسط، قابل حل تحلیلی هستند، در بیشتر پژوهشهایی که هماکنون انجام میشود از توان محاسباتی رایانهها برای شبیهسازی یا حل تقریبی استفاده میشود. یک رویکرد متداول برای مسئلههای آماری استفاده از شبیه سازی مونت-کارلو برای گرفتن دید کلی از دینامیک مسئله است. در مکانیک آماری با سیستمهای بزرگ سر و کار داریم. یعنی سیستمهایی که در آنها تعداد ذرات زیاد است (N ≈ 1023). و انواع متفاوتی دارد :مکانیک آماری کلاسیک - مکانیک آماری کوانتومی -مکانیک تصادفی -مکانیک کوانتومی و.. در چنین سیستمهایی به دنبال یافتن پاسخ صریح به سوالات زیر هستیم: چگونه ذرات خود را در این سطوح توزیع میکنند؟ اگر شرایط سیستم عوض شود (مثلا با تغییر دما) توزیع ذرات چگونه تغییر میکند؟ با معلوم بودن تابع توزیع چگونه میتوان کمیتهای تعریف کننده خواص گرمایی سیستم را بدست آورد؟ گر چه سیستمهای ماکروسکوپی (بزرگ) را مطالعه میکنیم، اما رفتار ذرات را بطور جداگانه بررسی میکنیم. یعنی دیدگاه میکروسکوپی بکار میبریم. در چنین برخوردی میدانیم که تعیین دقیق تاریخچه ذرات کاملا مشخص نیست. از اطلاعات قبلی میتوان گفت که یک ذره تحت تأثیر نیروی معینی قرار میگیرد. دیدگاه مکانیک آماری میکروسکوپی است. بدین معنی که در این دیدگاه تا حد امکان جزئیات ساختاری سیستمها منظور میشود. لذا به علت زیاد بودن تعداد ذرات صحبت به زبان احتمال خواهد بود. مثلا احتمال یافتن ذره در یک سطح انرژی یا تراز انرژی. بطور اصولی میتوان ذرات را بطور جداگانه انتخاب نموده و صور مختلف آرایشهای آنها را در نظر گرفت. اما چون احتمال مربوط به اشکال مختلف آرایشها اختلاف چندانی ندارند، پس متوسط گیری در این مقوله زیاد بد نمیباشد. آمار حیاتی یا زیست سنجی یک نوع از امار کاربردی است که دارای دامنه تغییرات وسیعی در زیست شناسی است که این نوع خاص کاربرد چشمگیری در پزشکی و همچنین در کشاورزی دارد تحلیل رگرسیون فن و تکنیکی آماری برای بررسی و به مدل در آوردن ارتباط بین متغیرهاست . کاربردهای رگرسیون متعدد است . و تقریباً در هر زمینه ای از جمله مهندسی ، فیزیک ، اقتصاد ، مدیریت ، علوم زیستی و بیولوژی و علوم اجتماعی صورت می پذیرد . در حقیقت تحلیل رگرسیونی ممکن است فن و تکنیک آماری با بیشترین و وسیع ترین کاربرد بین تکنیک های آماری باشد . 2- برآورد پارامترها 4- کنترل
منبع : http://sepideh_statistic.persianblog.ir/ دو بخش اصلی رگرسیون در آمار وجود دارد : پارامتری و ناپارامتری.
در رگرسیون پارامتری نوع ارتباط بین متغیر های وابسته و مستقل شناخته شده است، اما ممکن است پارامترها مقادیری را شامل شوند که ناشناخته بوده و صلاحیت برآورد مجموعهء داده ها را نداشته باشند. برای مثال یک خط راست برازش داده شده،
f(x)=ax+b
بر حسب یک دسته از نقاط،
{( xi , ŷi )} : i=1,…,p
رگرسیون پارامتری می باشد چرا که نوع ارتباط وابستگی y را روی x نشان می دهد هر چند تمام مقادیر a و b نیستند.
نوعاً در هر مسئله پارامتری معین، پارامترهای آزاد بهتر از متغیر های وابسته و مستقل دارای تفسیر معنادار هستند، مانند " سطح میزان آب اولیه" یا " میزان سرعت حرکت آب".
علائم ویژه رگرسیون ناپارامتری زمانی مشاهده می شود که آگاهی قبلی در مورد نوع واقعی تابعی که قرار برآورد شود وجود ندارد.تابع مورد استفاده مدلی است با معادله ای که در بردارندهء پارامترهای آزاد می باشد، اما روشی که کلاس پهناوری از توابعی که نمایانگر مدل می باشند را می پذیرند.
در رگرسیون پارامتری نوعاً یک تعداد کم از پارامترها، که اغلب آنها تفسیر فیزیکی( طبیعی) دارند، وجود دارد. به عبارت دیگر هدف اصلی رگرسیون می تواند، و اغلب هم هست، برآورد مقادیر پارامتری باشد چرا که مفهوم اصلی آنها می باشد.
مقدمات رگرسیون ناپارامتری :
تحلیل رگرسیون ناپارامتری، رگرسون بدون فرض خطی می باشد . هدف رگرسو ن ناپارامتری پهنه وسیعی از هموار سازی می باشد که ارتباط بین دو متغیر در نمودار پرا کنش، تحلیل رگر سیون چند گانه و مدلهای رگرسیونی کلی را دربردارد. ( برای مثال رگرسیون لجستیک ناپاراتی برای یک متغیر پاسخ دو تایی )
تا چند سال پیش روشهایی از تجزیه و تحلیل رگرسیون ناپاراتی که به طور کاربردی به وسیله پیشرفت در آمار و علم حساب به عمل حساب آمده باشد، دور از ذهن به نظر می رسد و هم اکنون یک شق مهمتر از مدلسازی سنت گرای رگرسیون پارامتری می باشد. این حرکت کوتاه پهنه از مقدمه رگرسیون ناپاراتی راکه عناوین ارائه شده راپوشش می دهد تامین می کند.
معرفی رگرسیون ناپارامتری :
معدل گیری موضعی برآورگرها ی کرنل رگرسیون ناپارامتری نیرومند،رگرسیون و هموار سازی دسته های باریک، استناج آماری برای رگرسیون ناپارامتری در تجزیه و تحلیل داده ها ، رگرسیون چند متغیر ناپارامتری به انضمام مدلهای رگرسیون افزایشی ، رگرسیون ناپارامتری تعمیم یافته و مدلهای تعمیم یافته افزایشی.
رگرسیون ناپارامتری معمولاً در فرضیات خطی آزاد می باشد و شما را به
شرح داده های بصری ، ساختار غیرپوششی در داده ها که ممکن است
به نحوی گمشده باشد ، قادر می سازد. بنابراین خیلی از روشهای
رگرسیون ناپارامتری هنگامی که تعداد متغیر های مستقل در مدل زیاد
می باشد به خوبی اجرا نمی شوند.پراکندگی داده ها در این مجموعه
سبب می شود بر آوردهای واریانس به اندازه غیر قابل پذیرش بزرگ شود،
مگر آنکه حجم نمونه فوق العاده بزرگ باشد. قابلیت تفسیر یکی دیگر از
مسایل رگرسیون ناپارامتری است که بر پایه کرنل و هموارسازی برآورد
گرهای خط sp می باشد. اطلاعات این برآورد گرها شامل رابطه بین متغیرهای مستقل و وابسته می باشد که اغلب درک آنها دشوار است.
برای بر طرف کردن این مشکلات،استون(1985)مدلهای جمع پذیر را پیشنهاد کرد.این مدلها یک تقریب فزآینده ی تابع رگرسیون چند متغیره را
برآورد می کنند. مزایای یک تقریب فز آینده حداقل دو مورد است.اول اینکه هر کدام از اصطلاحات جمع پذیر با استفاده از یک صافی یک متغیری منحصر فرد تخمین زده می شوند. دوم اینکه ظوابط منحصر به فرد توضیح می دهند که چگونه متغیر وابسته با وجود متغیرهای مستقل برآورد می شود.
توسعه مدل جمع پذیر به سوی یک میدان وسیع از خانواده های توزیع؛ هاستی و تیب شیرانی (1990) مدلهای جمع پذیر تعمیم یافته را پیشنهاد دادند. این مدلها قادرند میانگین متغیر وابسته را به یک دستگاه جمع پذیر از طریق یک تابع خطی ربط دهند. این مدل اجازه می دهد توزیع احتمال متغیر پاسخ هر عضو، از طریق خانوادهء نمائی باشد.
در خیلی مواردمدلهای آماری در یک دستهء خاص مورد استفاده قرار می گیرند؛ آنها مدلهای جمع پذیر برای داده های نرمال، مدلهای لجستیک ناپارامتری برای داده های دوجمله ای و مدلهای لگ خطی ناپارامتری برای داده ها ی پواسن را در بر دارند.
تحلیل رگرسیون ناپارامتری:
رگرسیون ناپارامتری فرضیات کمینه در مورد وابستگی میانگین Y بر روی X ها را درست می کند. این جریان کوتاه برآوردگرهای رگرسیون ناپارامتری را به دو صورت برای تحلیل رگرسیون ساده(یک X تنها) - - موسوم به نمدار پراگندگی هموارساز- - و تحلیل رگرسیون چند متغیره(چندین X) معرفی می کند.
ما به طور طبیعی این برآوردگرها را، برآوردگر کرنل( میانگین وزن دار شده)، برآوردگرهای چندجمله ای(lowess) و مدلهای جمع پذیر رگرسیون ناپارامتری، توضیح می دهیم. چند ملاحظه نیز برای روشهای استنتاج آماری برای رگرسیون ناپارامتری وجود دارد، که شبیه بکار گرفته شده برای حداقل مربعات خطی می باشد.
مفاهیم اساسی آمار جامعه نمونه دادهای آماری متغیر متغیر کمی کیفی شاخص های گرایش مرکزی میانگین میانه نما چارک میانگین حسابی هندسی هارمونیک پیراسته ......... شاخص های پراکندگی دامنه واریانس انحراف معیار متغیر های استاندارد ضریب تغییر یا تعیین انحراف چارکی گشتاور همه موارد با لا را توضیح کافی خواهم داد و بعلاوه ادامه مطالب دیگر ...... df درجه آزادی مفهوم درجه آزادی را با یک مثال ساده توضیح می دهم من هم با این مثال ساده این مفهوم را درک کردم فرض کنید در یک اتاق که چهار دیواری قصد رنگ کردن اتاق را داشته باشیم خوب ما این توانایی را نداریم که چهار دیوار را همزمان با هم رنگ کنیم چون ما داری چهار دست نیستیم پس می توانیم از 4 دیوار یکی را انتخاب کنیم پس درجه ازادی ما 3=1-4 است چرا ؟ چون ازادی عمل انتخاب یکی از 4 تا است برای 3 دیوار بعد 2 درجه ازادی داریم امیدوارم با این مثال گیجتون نکرده باشم پس این مطلب پایین که علمی تر بیان کرده کمک بگیرید صاحبنظران علم آمار به یکی از دو گونهء زیر درجه آزادی را توضیح می دهند: 1. تعداد درجه های آزادی همواره برابر است با تعداد مشاهدات منهای تعداد رابطه های ضروری که بین این مشاهدات وجود دارد ۲ و هیشه این طور نیست که درجه ازادی برابر تعداد مشاهدات یکی کمتر شود و بسته به محدودیت های که عمال میشه به تعداد محدودیت ها کم میشود سعی می کنم توضیح کامل تری برای درجه آزادی توی این پست بگذارم پس ادامه دارد
ادامه مطلب



در صورتي که نمودار نشان دهنده اين باشد که داده ها تقريباً (نه لزوماً دقيق) در امتداد يک خط مستقيم پراکنده شده اند، حدس تحليل گر تأييد شده . و اين ارتباط خطي به صورت زير نمايش داده مي شود:


سطوح انرژی قابل دسترس کدامند؟



ادامه مطلب


http://espadana.mihanblog.com/Post-35.aspx



