Thursday, 7 December 2017

استيفاء البيانات المفقودة في فوركس ستاتا


لذلك، لدي بيانات لوحة تبدو كالتالي: البيانات المفقودة، لأننا لم نتمكن من العثور على بيانات كاملة في التقارير السنوية للبنوك المدرجة في مجموعة البيانات. ليس هناك نمط حقيقي للقيم المفقودة، وبصرف النظر عن بعض الفترات كما هو موضح في الصورة، والقيم المفقودة هي في معظمها عشوائية. على سبيل المثال، قيمة مفقودة واحدة في عام 2000، قيمة أخرى مفقودة في 2002، وهلم جرا. وقد بلغ إجمالي عدد البنوك خمسة، ونقوم بتضمين بيانات ربع سنوية للفترة من 1998 إلى 1 إلى الربع الأول من عام 2013. لدينا سلسلة كاملة لأحد المتغيرات، بيتا. والأربعة الأخرى جميعها تفتقد بعض القيم. لقد بحثت، ولكن لم يكن قادرا على الحصول على إجابة على الأسئلة التالية: 1) هل من المهم أن مجموعة البيانات لديها القيم المفقودة في بعض المتغيرات 2) ما هي الطريقة الصحيحة لاستخدام لملء تلك القيم المفقودة إذا كان لها ممكن، يمكنك توضيح ذلك باستخدام ستاتا نيك هذا السؤال هو صراحة حول إمبوتينغ البيانات المفقودة، وبالتالي هو مباشرة على موضوع على هذا الموقع. هيرمان: نحن نفعل، ومع ذلك، نشجع الناس على طرح الأسئلة بطريقة أكثر محايد البرمجيات: بدلا من السؤال كوثو لا أفعل X في ستاتا، وننظر في طلب كوثو لا أفعل X. وإذا كنت 39re قادرة، يرجى توضيح إجابتك مع Stata. quot أن يفتح سؤالك لخبراء أكثر بكثير (معظمهم لا تستخدم ستاتا)، وزيادة كبيرة في فرصة سوف تحصل على إجابة جيدة. نداش ووبر 9830 جول 26 13 في 20:14 لقد استخدمت الخيار إنتيربولات واستقراء، ويبدو أن القيام بعمل جيد بمعنى أن القيم ولدت تشبه جيدا البيانات، وأنه ولدت مجموعة من التقديرات المتوازنة من القيم المفقودة. أعتقد أنني سوف التمسك بذلك، ومعرفة ما إذا كان يمكنني العثور على بعض المشورة مع أحد أساتذتي. شكرا لك على إجابتك نيك نداش هيرمان هوغلاند يوليو 26 13 في 22:38 I39m لا خبير ستاتا، للأسف، ولكن أنا أعلم أن R لديها مجموعة قوية من الحزم دعم اعتزام البيانات سلسلة مستعرضة الوقت. أميليا إي خصوصا يتبادر إلى الذهن، لأنها بنيت لهذا الغرض الصريح. نداش سيكوراكس 14 نوفمبر 14 في 19: 40Missing القيم هذه القضية هي الأولى في سلسلة من المقالات التي تستكشف الجانب إعداد البيانات من تحليل سلسلة زمنية. غالبا ما يتم تجاهل إعداد البيانات من قبل المحللين، ولكننا نعتقد أنها مرحلة حيوية تمارس تأثيرا واسعا على التحليل الشامل وعملية النمذجة. تفترض الغالبية العظمى من السلاسل الزمنية ونظريات الاقتصاد القياسي أن السلاسل الزمنية للمدخلات ثابتة ومتجانسة، مع وجود ملاحظات وقيم متباعدة على قدم المساواة وقيم موجودة وحقيقية. وفي الممارسة العملية، غالبا ما نعالج العينات ذات القيم المفقودة، والمراقبة المتباعدة غير المتساوية المحتملة، والتبعية المعنوية، ونطاقات القيم المقيدة، وغير ذلك من الظواهر. والهدف من هذه السلسلة من المقالات هو معالجة كل من هذه المشاكل وإدخال أساليب عملية للتغلب عليها. في هذه القضية، نبدأ مع افتراضات أخذ العينات من السلاسل الزمنية: التباعد على قدم المساواة واكتمال. ثم ننظر في سلسلة زمنية مع القيم المفقودة ومناقشة كيفية تمثيلها في إكسيل، مع المعونة من معالجة نومكسل. وأخيرا، فإننا ننظر إلى السلاسل الزمنية غير المتساوية، وكيفية وصولها إلى حيز الوجود، وكيفية ارتباطها بسيناريو القيم المفقودة، وماذا نفعلها. أخذ عينات السلاسل الزمنية إن الوضع العام (المثالي) لعينة السلاسل الزمنية هو نموذج يحتوي على ملاحظات متباعدة على نحو متساو ويعرض القيم لجميع النقاط. وينشأ هذا إما لأن الملاحظات تتم عمدا حتى على فترات (عملية مستمرة). أو لأن العملية تولد فقط النواتج في هذه الفترة في الوقت (عملية منفصلة). علاوة على ذلك، يمكن أن تكون الوحدة الزمنية لفترة أخذ العينات (أي الخطوة) بين ملاحظتين متتاليتين مطلقتين (على سبيل المثال، يومية أو أسبوعية أو شهرية أو سنوية)، أو استنادا إلى تقويم عطلة (أي تعديل لعطلة نهاية الأسبوع والأعياد). على سبيل المثال، تستند سلسلة زمنية مالية يومية لأسعار إغلاق الأسهم لشركة عب إلى تقويم عطلة نيويورك، لذلك يتم أخذ كل ملاحظة في يوم تداول في بورصة نيويورك (أوبينكلوس). فيما يتعلق بنمذجة السلاسل الزمنية والتنبؤ، ليس من المهم ما إذا كنا نستخدم الوقت المطلق أو إذا ضبطنا لعطلات نهاية الأسبوع والأعياد. ما هو مهم هو كيفية تفسير التواريخ خارج العينة، كما أنها تستند أيضا على نفس طريقة أخذ العينات. المقبل، يتيح فحص بعض الحالات حيث سلسلة الوقت المدخلات ليست مثالية جدا. المشكلة 1: القيم المفقودة في بعض الحالات، واحد أو أكثر من مواعيد المراقبة تعطي قيم غير صحيحة أو مفقودة. يتم تعيين هذه القيم على أنها ليست القيم، أو نان قصيرة. في إكسيل، يتم تعريف نان من خلال تمثيل نا خاص، ويمكن استخدام عدد قليل من الوظائف المضمنة للكشف (مثل نا ()، إيسنا (.)، إيفيرور (.)، إلخ) أو تجاهلها (على سبيل المثال مين (. )، ماكس (.))، وغيرها من المهام ليست داعمة. في تحليل السلاسل الزمنية، غالبا ما نواجه القيم المفقودة الظواهر، سواء في سلسلة الوقت الخام الأصلي أو نتيجة لمشغل سلسلة زمنية (على سبيل المثال تأخر، الاختلاف، وما إلى ذلك). س: ماذا يمكننا أن نفعل مع سلسلة زمنية مع القيم المفقودة نومكسل اثنين من قواعد بسيطة: يتم تجاهل القيم المفقودة في بداية أو نهاية السلسلة الزمنية ببساطة. نومكسل اقتطاع سلسلة الوقت الإدخال لبدء من قيمة 1 غير المفقودين وتنتهي مع آخر قيمة غير مفقودة. تعتبر القيم المفقودة المتوسطة عيوب خطيرة في سلسلة زمنية الإدخال، و نومكسل غير قادر على معالجتها. هذه القواعد تطرح السؤال: كيف يمكننا التعامل مع القيم الوسيطة المفقودة تم اقتراح العديد من التقنيات للتعامل مع السلاسل الزمنية مع البيانات الناقصة، ولكن يمكننا تلخيص هذه المقترحات مع مبدأين: تجاهل واستيفاء. الحل تجاهل ببساطة يسقط القيمة المفقودة من السلاسل الزمنية. يمكنك استخدام الدالة نومكسل رمنا (.) لهذا الغرض. ومع ذلك، يجب عليك التعامل مع هذا الحل بحذر لأنه يغير أخذ العينات من السلاسل الزمنية نفسها. الإنتربول يستبدل النهج الاستيفائي القيم المفقودة بقيم مستكملة. هناك العديد من الاستكمال الداخلي في خوارزميات إكسيل: الخطي، متعدد الحدود، التنعيم، الخيط، الترشيح، الخ. الاستكمال الداخلي في إكسيل لا يغير تردد أخذ العينات، ولكنه قد يؤثر على الديناميات المتصورة للعملية الأساسية إذا تم استخدامه لعدة نقاط في السلسلة الزمنية. نومكسل يأتي مع استيفاء في إكسيل وظيفة إنتيربولات - الذي يدعم أربعة (4) الاستيفاء مختلفة في خوارزميات إكسيل: الأمام أمب الخلف الاستيفاء شقة في إكسيل الخطي أمبير مكعب الاستكمال الداخلي الاستكمال في إكسيل ملاحظة: الدالة إنتيربولات تجاهل جميع النقاط مع القيم المفقودة، لذلك نحن يمكن استخدام وظيفة مباشرة على مجموعة البيانات الخام دون أي إعداد وسيطة. المسألة 2: السلاسل الزمنية المتفاوتة بشكل غير متكافئ شائعة في العديد من تطبيقات الحياة الحقيقية عندما تكون القياسات مقيدة بظروف عملية. ويمكن أن يكون لعدم انتظام الملاحظات عدة أسباب أساسية. أولا، أي عملية جمع يحركها الحدث (التي يتم فيها جمع الملاحظات عند حدوث بعض الأحداث) هي بطبيعتها غير منتظمة. ثانيا، في تطبيقات مثل شبكات الاستشعار أو أي بنية تحتية رصد موزعة، يتم توزيع جمع البيانات وكلاء جمع لا يمكن مزامنة بسهولة مع بعضها البعض. وبالإضافة إلى ذلك، قد تكون فترات أخذ العينات والسياسات مختلفة. وأخيرا، لا يمكن إجراء القياسات بانتظام أو قد يتعين وقفها بسبب بعض الأحداث (سواء كانت متوقعة أم لا). ملاحظة: خلافا لحالة السلسلة الزمنية المتساوية المسافات، يمكن إسقاط الملاحظات الوسيطة ذات القيم الناقصة بأمان من السلسلة الأصلية دون أي فقدان للمعلومات، ومن الواضح أن السلسلة الناتجة متباعدة بشكل غير متساو أيضا. وقد تم اقتراح العديد من التقنيات للتعامل مع السلاسل الزمنية مع البيانات الناقصة، والتي يمكن النظر إليها في الحد على أنها عينات غير منتظمة. في ممارسة تحليل البيانات، وعدم انتظام هو سمة البيانات المعترف بها، والممارسين التعامل معها بشكل مجاز. الحل 1: تحويل إلى سلسلة زمنية متساوية المسافات إغنور عدم انتظام في العصر ومعالجة البيانات كما لو كانت منتظمة. ريسامل باستخدام معدل أخذ عينات أقل. ويؤدي هذا التخفيض إلى تبسيط المشكلة إلى مشكلة سبق تحليلها بدقة، وتتوفر بشأنها العديد من النهوج. ملاحظة: بالنسبة لسلسلة زمنية للسعر، يتطلب أخذ العينات من أسفل أخذ الملاحظة الأخيرة في فترة العينة الجديدة. وبالنسبة لعودة سجل االستراتيجية هذه، فإن عائد إعادة العينات هو العوائد التراكمية لجميع الفترات في فترات العينة األصلية. إنتيربولات: استيفاء القيم الوسيطة المفقودة وتحويل السلسلة إلى عينة ذات أوقات أخذ عينات متساوية التباعد. في حين أن هذا أمر منطقي معقول للتعامل مع القيم المفقودة، فإن عملية الاستيفاء في إكسيل تؤدي عادة إلى تحيز كبير (مثل تمهيد البيانات) الذي يغير ديناميات العملية، وبالتالي لا يمكن تطبيق هذه النماذج إذا كانت البيانات غير متكافئة حقا متباعدة. نواة تجانس براونيان سد: اقترح عدد من المؤلفين استخدام عمليات نشر الوقت المستمر للعثور على القيم المفقودة. من حيث المبدأ، لاستكمال قيمة مفقودة، نفترض حركة براونية بين القيم مباشرة قبل وبعد الملاحظات غير المفقودة. ملاحظة: اعتبارا من تاريخ هذه المشكلة، نومكسل لا يدعم براونيان سد الاستيفاء في طريقة إكسيل. الحل إي - استخدام السلاسل الزمنية غير المتكافئة بشكل متساو النماذج هذه النماذج أكثر تعقيدا بقليل من النماذج المناظرة متساوية التباعد، ويمكن اعتبار العديد منها امتدادا لنماذج السلاسل الزمنية المتساوية على قدم المساواة.

No comments:

Post a Comment