معلومة

كيف يتم تنفيذ نماذج بايز في NEF؟

كيف يتم تنفيذ نماذج بايز في NEF؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

واحدة من المشاكل الموثقة كثيرًا لمقاربات بايز للنمذجة المعرفية هي أنه لا يوجد الكثير من التأريض العصبي. يمكن استخدام NEF لحساب الحسابات الاحتمالية بسهولة (انظر الفصل 9 من الهندسة العصبية) ، ولكن هل تم استخدام هذا في نموذج منشور من قبل؟ هل هناك عيوب تجعل دمج NEF مع أساليب النمذجة Bayesian غير ممكن من حيث الموارد المطلوبة؟


كيف يتم تنفيذ نماذج بايز في NEF؟ - علم النفس

برنامج تعليمي عن نماذج بايزي للإدراك

يحتوي هذا المستودع على كود ماتلاب المرتبط بالورقة:

إذا وجدت الورقة و / أو الرمز مفيدًا ، فإن أفضل طريقة لشكري هي من خلال الاستشهاد بي :)

تم نشر هذا الرمز بموجب ترخيص MIT ، راجع LICENSE.txt.

لا يمكنك الحصول على الكود للعمل، فلا تتردد في إرسال بريد إلكتروني وسأبذل قصارى جهدي للرد لتوضيح الأمور.

تريد استخدام الرمز للتعلم بجانب الورقة، فلا تتردد في استنساخ هذا المستودع أو تفكيكه ، أو تنزيل ملف zip من الكود.

إذا وجدت خطأ، من ثم:

إذا وجدت الورقة مفيدة في عملك الأكاديمي ، أو عدلت أيًا من الرموز لعملك الخاص ، فيرجى مشاركة الحب واستشهد بالورقة.

  • تولد وتحفظ مجموعة من البيانات المشتركة التي يمكن استخدامها مع جميع النماذج. ليست هناك حاجة لتشغيل هذا لأن البيانات النموذجية مضمنة بالفعل في الملفات commondata_model * .mat.
  • model1runme.m من خلال تغيير متغير الإدخال <'gridApprox'، 'mcmcJAGS'، 'mcmcCustom'> هذا الملف سوف يقوم بتنفيذ 3 خطوات للاستدلال باستخدام الطرق المختلفة ذات الصلة:
    • ستجري شبكة Approx تقدير المعلمة عبر تقريب الشبكة.
    • سيجري mcmcCustom تقدير المعلمات مع تنفيذ خوارزمية أخذ العينات Metropolis-Hastings (انظر mhAlgorithm.m).
    • سيستخدم mcmcJAGS برنامج الاستدلال JAGS لإجراء تقدير المعلمة باستخدام طرق MCMC.

    خيارات عند تشغيل الكود

    • إذا كان لديك جهاز كمبيوتر به عدة مراكز CPU ، فيمكنك تشغيل سلاسل MCMC بالتوازي عن طريق تعيين mcmcparams.doparallel = 1 في الملف /funcs/define_mcmcparams.m.
    • يمكنك اختيار إجراء استنتاجات بناءً على مجموعة البيانات المشتركة التي تم إنشاؤها بواسطة الملف /generate_common_data.m عن طريق تعيين DATAMODE = 'load'. خلاف ذلك ، يمكن إنشاء سلوك مراقب محاكى جديد بواسطة DATAMODE = "إنشاء".
    • تم إنشاء هذا الرمز واختباره باستخدام ماتلاب 2014a.
    • ال صندوق أدوات ماتلاب الإحصاء مطلوب للمرحلة 3 من النموذج 1 ، عند استخدام تقريب الشبكة.
    • تتطلب النماذج التي تستخدم JAGS لعمل الاستدلالات ما يلي:
      • JAGS، والتي يمكن تنزيلها من http://mcmc-jags.sourceforge.net
      • ماتجاج م تم تضمينه في / funcs ويعمل مع الكود هنا. يمكن العثور على الإصدارات المحدثة في المستودع https://github.com/msteyvers/matjags ولكن بالطبع التغييرات المستقبلية قد تؤدي إلى عدم التوافق.

      إعادة فحص للدراسات التي صممها فرانك وتيننباوم (2011)

      في هذا القسم ، سأفكر في تجارب فرانك وتيننباوم (2011) التي تمت محاكاتها ، وأسأل عما إذا كانت توفر وصفًا مناسبًا لهذه التجارب.

      ماركوس وآخرون. (1999)

      ماركوس وآخرون. (1999) أن الأطفال الرضع بعمر سبعة أشهر يمكنهم تعلم أنماط التكرار مثل AAB و ABB. بالنظر إلى أن نماذج فرانك وتيننباوم (2011) تحتوي على أجهزة كشف التكرار الفطرية ، فربما يكون من غير المفاجئ أن يتعلموا أنماط التكرار.

      ومع ذلك ، فإن نظرة أكثر تفصيلاً على نتائج فرانك وتيننباوم (2011) تثير التساؤل عما إذا كان نموذجهم قد تعلم بالفعل أنماط التكرار. في الواقع ، تعلم النموذج قاعدتين. أنماط التكرار والقاعدة التي تتوافق معها جميع التوائم الثلاثة تلقائيًا (يطلق عليها & # x0201c (.) & # x0201d بواسطة Frank & # x00026 Tenenbaum، 2011). في سياق معظم التجارب التي نظر فيها فرانك وتيننباوم (2011) ، فإن القاعدة & # x0201call البنود مصنوعة من مقاطع لفظية & # x0201d سيكون صحيحًا لجميع الثلاثة توائم.

      كما أقر فرانك وتيننباوم (2011) ، يفضل نمط التكرار حصريا نظرًا لافتراض أن المتعلمين يفضلون قواعد أكثر تحديدًا هي & # x0201charder & # x0201d لتتوافق بدون هذا الافتراض ، لا يمكن للنموذج الاختيار بين نمط التكرار والقاعدة التي تتوافق معها جميع التوائم الثلاثة تلقائيًا. ومع ذلك ، كما ذكر أعلاه ، فإن هذا الافتراض غير مدعوم بالبيانات الواردة في الملحق أ.

      بالطبع ، يفضل النموذج ABB إلى AAB ثلاثة توائم عند الإلمام بها ABB ثلاثة توائم ، ولكن هذه النتيجة ليست مفاجئة بالنظر إلى أن كاشف التكرار ، وحساسية للمواضع في التسلسل وإمكانية الجمع بين التكرارات والمواقف ، وبالتالي ، إمكانية التمييز بين AAB و ABB تم توصيله بشكل صريح بالنموذج. بشكل حاسم ، ومع ذلك ، فإن الافتراض الذي سمح للنموذج برفض القواعد النحوية غير المناسبة لا يدعمه السلوك البشري. نتيجة لذلك ، فشل النموذج في حساب بيانات Marcus et al. (1999).

      إندريس وآخرون (2007)

      إندريس وآخرون حاول (2007) تقديم دليل على أن التكرارات هي أنماط بارزة بشكل خاص ، وأن بروزها لا ينتج عن أي عوامل رسمية أو إحصائية واضحة. في تجاربهم ، استخدموا نغمات البيانو لمقارنة نوعين من الأنماط. كان على بعض المشاركين تعلم الأنماط القائمة على التكرار ABB و ABA. تعلم آخرون ما Endress et al. (2007) يسمى الأنماط الثنائية & # x0201cordinal & # x0201d. تم ترتيب النغمات في هذه المجموعات الثلاث إما كـ & # x0201clowest-top-middle & # x0201d (LHM) ، أو كـ & # x0201cmiddle-most-low & # x0201d (MHL انظر الشكل 1). أظهرت النتائج أن المشاركين تعلموا بسهولة أنماط التكرار على النقيض من ذلك ، كانوا أسوأ بكثير في النمط الترتيبي ، وظلوا قريبين من أداء الصدفة حتى بعد مئات التجارب مع التغذية المرتدة.

      في تجارب Endress et al. (2007) ، كان على المشاركين تعلم & # x0201cordinal & # x0201d الأنماط المنخفضة والعالية والمتوسطة والمتوسطة والمتوسطة المنخفضة. ينتج عن إعادة ترتيب النغمات في النموذج أنماط منخفضة - متوسطة - عالية (مرتفعة) وعالية - متوسطة - منخفضة (هبوط). يتوقع نموذج Frank & # x00026 Tenenbaum (2011) أنه يجب أن يكون من الصعب بنفس القدر تعلم الأنماط الترتيبية لتعلم الأنماط الصاعدة والهابطة. توضح التجربة 3 (الواردة في الملحق ب) أن الأمر ليس كذلك.

      اقترح فرانك وتيننباوم (2011) حسابًا بديلاً لهذه النتائج. فيما يتعلق بتعلم أنماط التكرار ، يتعلم نموذج فرانك وتيننباوم (2011) بشكل تفضيلي أنماط التكرار على القاعدة التي تنطبق على جميع العناصر نظرًا لافتراض أن المتعلمين يفضلون أنماطًا أكثر تحديدًا على أنماط أقل تحديدًا. كما نوقش أعلاه ، فإن هذا الافتراض غير مدعوم بالتجارب المقدمة في الملحق أ.

      فيما يتعلق بصعوبة المشاركين في الأنماط الترتيبية ، واجه النموذج مشاكل في تعلم القواعد الترتيبية لأن القواعد المتعددة تتوافق مع الثلاثة توائم. على سبيل المثال، LHM تتوافق ثلاثة توائم مع العديد من القواعد المختلفة ، بما في ذلك: (1) النغمة الأولى أقل من الثالثة ، (2) النغمة الأولى أقل من الثانية ، (3) النغمة الثانية أعلى من الثالثة ، (4) ) النغمة الأولى أقل من الثانية و الثالث وهكذا. وبالتالي ، يجب على النموذج & # x0201cchoose & # x0201d الأكثر صلة بهذه الأنماط. وفقًا لـ Frank and Tenenbaum (2011) ، يواجه المشاركون صعوبات في تعلم الأنماط الترتيبية لأن النموذج لا يمكنه الاختيار بين القواعد المتعددة التي تتوافق مع الثلاثة توائم.

      يقدم هذا الحساب تنبؤًا غير قابل للتصديق إلى حد كبير: يجب ألا يكون الناس قادرين على التمييز بين الأنماط التي تتكون من الألحان الصاعدة مقابل الألحان المتساقطة. على وجه التحديد ، كما هو موضح في الشكل 1 ، إعادة ترتيب النغمات بتنسيق LHM و MHL أنماط تؤدي إلى LMH و HML الأنماط ، وهذا هو ، ببساطة لخطوط الارتفاع والهبوط. توقع فرانك وتيننباوم (2011) أن الناس يجب أن يواجهوا مشاكل في تعلم خطوط الارتفاع والهبوط ، لأن هذه الألحان تتوافق مع نفس عدد القواعد الزائفة مثل تلك الألحان التي يستخدمها Endress et al. (2007). ومن ثم ، فإن النموذج يفشل في تعلم خطوط الارتفاع مقابل السقوط بشكل أفضل من أنماط Endress et al. (2007).

      مما لا يثير الدهشة ، أن التجربة الموضحة في الملحق ب توضح أن الناس يميزون بسهولة بين الارتفاع من المنحنيات المتساقطة: بعد التعرف على التوائم الثلاثة المتساقطة أو ارتفاع ثلاثة توائم ، يكون معظم المشاركين في السقف يميزون الارتفاع من التوائم الثلاثة المتساقطة ، باستخدام نفس نغمات Endress et al. (2007). على عكس ادعاءات فرانك وتيننباوم (2011) ، فإن عدد القواعد الزائفة المتوافقة مع الأنماط اللحنية ، بالتالي ، لا علاقة له بنجاح البشر الفعليين في تعلم مثل هذه الأنماط. نتيجة لذلك ، فشل Frank and Tenenbaum (2011) في تقديم حساب لبيانات Endress et al. (2007).

      فرانك ، سليممر وآخرون. (2009)

      فرانك ، سليممر وآخرون. (2009) اقترح أن الأطفال بعمر 5 أشهر هم أفضل في تعلم أنماط التكرار عندما يتم تقديم هذه الأنماط في طريقتين في وقت واحد (أي الأشكال التي تلوح في الأفق مصحوبة بمقاطع) مقارنة بالظروف أحادية الوسائط حيث تتكون ثلاثة توائم من أشكال أو مقاطع.

      يقدم فرانك وتيننباوم (2011) تفسيرين ، كلاهما إشكالي. يعتمد التفسير الأول على افتراضهم بأن المتعلمين يفضلون قواعد أكثر تحديدًا وأصعب توافقًا معها. وهذا يعني أن الرضع قد يولدون 262144 توائمًا متعددة الوسائط جميعها ، ويجدون أن التوائم الثلاثة المتوافقة مع أنماط التكرار أقل عددًا بـ 64 مرة من التوائم الثلاثة التي تتوافق مع القاعدة التي تنطبق تلقائيًا على كل ثلاثة توائم. في الحالة الأحادية ، على النقيض من ذلك ، فإن النسبة بين هذه الأنواع الثلاثة هي 8 فقط بدلاً من 64. ومن ثم ، فإن ميزة الخصوصية تكون أكثر وضوحًا في حالة الوسائط المتعددة عنها في الحالة أحادية الوسائط وفقًا لـ Frank and Tenenbaum (2011) ، وهذا ما يفسر سبب الرضع أفضل في تعلم القواعد متعددة الوسائط.

      بينما تُظهر التجارب في الملحق أ أن المتعلمين الفعليين لا يفضلون بالضرورة قواعد أكثر تحديدًا وأصعب توافقًا مع القواعد ، فمن المفيد أخذ تفسير فرانك وتيننباوم (2011) في ظاهره. إذا كان الأطفال يصلون إلى جميع التوائم البالغ عددها 262144 ، وتحققوا من جميع القواعد الممكنة في تجربة مدتها 5 دقائق ، فعليهم التحقق من حوالي 900 ثلاثة توائم في الثانية. يبدو من المعقول أن نستنتج أن مثل هذا النموذج يتطلب مزيدًا من الدعم التجريبي. بالطبع ، يدعي فرانك وتيننباوم (2011) أن نموذجهما هو نموذج مراقب مثالي (لكن انظر أدناه) ، ولكن حتى في هذه الحالة ، قد يتساءل المرء كيف يمكن للعقل الرضيع أن يعرف أن القواعد متعددة الوسائط أكثر تحديدًا من uni- القواعد الشكلية ، وإذا كان لدى الرضع معرفة فطرية بالخصوصية النسبية للقواعد ، فلماذا قد يكون لديهم مثل هذه المعرفة في المقام الأول.

      يستند التفسير الثاني لفرانك وتيننباوم (2011) لبيانات فرانك ، سليممر وآخرون (2009) على افتراض أن الأطفال قد يفكرون باستمرار في احتمال أن يكونوا قد أساءوا فهم أو أخطأوا في تذكر ثلاثة توائم أو أي شيء يصادف أن يدركوه. يفترض فرانك وتيننباوم (2011) أن الأطفال لديهم احتمالية معينة لسوء تذكر أو فهم ثلاثة توائم ، وأنه يمكنهم تعديل احتمالات الأنماط المختلفة وفقًا لذلك. وفقًا لفرانك وتيننباوم (2011) ، يعتقد الأطفال أنه من المرجح أن يخطئوا في تذكر المنبهات أحادية الوسائط أو يسيئون فهمها مقارنة بالمنبهات متعددة الوسائط. عندما يسيء الأطفال فهم العناصر أو يتذكرونها بشكل خاطئ ، فإنهم يختارون بشكل عشوائي قاعدة لهذه العناصر. للوهلة الأولى ، يبدو أن الحساب الثاني لفرانك وتيننباوم (2011) مجرد وصف للتجارب بدلاً من تفسيره: من خلال تغيير المعلمة التي تتحكم في ما يعتبره النموذج سوء فهم / احتمالية خطأ في التذكر ، يصبح من الأسهل تعلم الأنماط متعددة الوسائط مقارنة بالنموذج الأحادي. أنماط - رسم.

      ومع ذلك ، فإن هذا الحساب يثير مشكلة مهمة. إذا كان الأطفال يتتبعون ما قد (يخطئون) في تذكره ، فهم متعلمون مجمّعون ، ويتعلمون الأنماط من خلال تذكر جميع التوائم الثلاثة بإخلاص ثم تقييمهم. ومع ذلك ، لا يوجد دليل على أن الأطفال يتذكرون أيًا من التوائم الثلاثة الذين سمعوا. علاوة على ذلك ، ليست هناك حاجة لتذكر أي ثلاثة توائم أيضًا: لتعلم الأنماط ، يحتاج الأطفال فقط إلى تذكر أنماط - رسم من التوائم الثلاثة ، ولكن ليس الثلاثة أنفسهم. في حالة عدم وجود دليل على نموذج التعلم الجماعي ، فإنه يبدو غير معقول من الناحية النفسية ، ويتطلب أدلة تجريبية.

      في حين أن نماذج فرانك وتيننباوم (2011) يمكن تحويلها بسهولة إلى متعلم عبر الإنترنت ، فإن حساباتهم ستثير السؤال عما إذا كان الأطفال يتتبعون المفاهيم الخاطئة على الإطلاق ، ويستبدلونها ذهنيًا بقاعدة منتقاة عشوائيًا. في الواقع ، يبدو أن أكثر الافتراضات الطبيعية هو أن الأطفال يتجاهلون ببساطة مجموعة فرعية من المحفزات التي لا يتذكرونها. ونتيجة لذلك ، فإنهم سوف يتصورونهم بشكل أقل إذا تم تقديمهم عدة مرات. ومع ذلك ، فإن معلمة الضوضاء هذه سيكون لها تأثير محدود فقط على أداء التعلم في نماذج Frank and Tenenbaum (2011). ومن ثم ، لتلائم نموذجهم مع البيانات ، يفترض فرانك وتيننباوم (2011) أن العناصر & # x0201cm التي يتم تذكرها / فهمها بشكل خاطئ & # x0201d مرتبطة بقاعدة منتقاة عشوائيًا. لسوء الحظ ، لم يقدم فرانك وتيننباوم (2011) أي دليل لصالح هذا الحساب. على أي حال ، فشل النموذج في تفسير تعلم أنماط التكرار في المقام الأول ، لأن البشر قد لا يفضلون قواعد أكثر تحديدًا لقواعد أقل تحديدًا.

      جيركين (2006)

      قام Gerken (2006) بالتحقيق في عمومية القواعد التي يمكن للأطفال تعلمها. في حالة واحدة ، تم التعرف على الرضع AAB أو ABA ثلاثة توائم تقريبًا كما في تجارب ماركوس وآخرون (1999). في الحالة الأخرى ، تم التعرف على الأطفال مرة أخرى AAB أو ABA ثلاثة توائم. بشكل حاسم ، ومع ذلك ، فإن ب كان المقطع دائمًا / di / ، مما ينتج عنه أنماط من النموذج AAدي و أديأ. في كلتا الحالتين ، تم اختبار الرضع على ثلاثة توائم ليس تحتوي على المقطع / دي /.

      عند الإلمام ب AAB أو ABB ثلاثة توائم ، يميز الأطفال بشكل متسق عن العناصر غير المتسقة على النقيض من ذلك ، عند التعرف عليهم AAدي أو أديأ العناصر ، فشل الأطفال في التمييز بين هذه العناصر ، على الرغم من أن الظروف لم تختلف بشكل كبير. ومع ذلك ، عند اختبارها على الرواية AAدي أو أديأ العناصر ، يميز الأطفال العناصر غير المتسقة من العناصر المتسقة.

      في الحالتين اللتين نجح فيهما الأطفال ، نجح نموذج فرانك وتيننباوم (2011) أيضًا لأن قاعدة & # x0201cwinning & # x0201d أكثر تحديدًا وأصعب في التوافق معها من القواعد البديلة (على سبيل المثال ، القاعدة التي تنطبق تلقائيًا على كل ثلاثة توائم). ومع ذلك ، كما هو مذكور أعلاه ، فإن فرضية Frank and Tenenbaum (2011) بأن القواعد الأكثر تحديدًا يتم تعلمها بشكل تفضيلي لا تدعمها البيانات المقدمة في الملحق أ.

      بينما فشل نموذج فرانك وتيننباوم (2011) في شرح سبب إمكانية تعلم قواعد التكرار في المقام الأول ، فإنه يفشل أيضًا في تفسير سبب فشل الأطفال عند التعرف عليهم. AAدي أو أديأ العناصر واختبارها على العناصر التي لا تحتوي على / di /. على وجه التحديد ، يفترض فرانك وتيننباوم (2011) أن الأطفال الرضع على دراية AAثلاثة توائم تحافظ على ثلاث قواعد مميزة: (1) تبدأ ثلاثة توائم بتكرار (2) تنتهي ثلاثة توائم بـ / di / (iii) تبدأ ثلاثة توائم بتكرار و تنتهي بـ / di /. أي ، في حين أن القاعدة الثالثة هي اقتران الأولين ، يُزعم أن الأطفال يحتفظون بها بشكل منفصل. نظرًا لأن القاعدة الأخيرة هي الأكثر تحديدًا والأصعب في التوافق معها ، فإن النموذج يفضلها. 3 ومع ذلك ، كما ذكر أعلاه ، فإن الافتراض القائل بأن القواعد الأكثر تحديدًا يتم تعميمها بشكل تفضيلي لا تدعمه التجارب الواردة في الملحق أ.

      في الواقع ، لا يعتمد تفسير Frank and Tenenbaum (2011) لبيانات Gerken (2006) فقط على الافتراض غير المدعوم بأن القواعد الأكثر تحديدًا يتم تعلمها بشكل تفضيلي ، ولكن أيضًا على افتراضات أخرى لا يوجد دليل عليها. على وجه التحديد ، يفترض فرانك وتيننباوم (2011) أن الأطفال يربطون القاعدة (1) والقاعدة (2) ، ويجمعون بينهما في قاعدة اقتران. ومع ذلك ، لا يوجد دليل على أن الأطفال الرضع يربطون بين القاعدتين. إذا احتفظوا بكلتا القاعدتين بشكل مستقل ، فلا ينبغي أن تكون أي من القاعدتين أكثر تحديدًا. نتيجة لذلك ، يجب ألا يفضل النموذج أيًا من القاعدتين ، مما يشير مرة أخرى إلى أن النماذج تفشل في توفير حساب لبيانات Gerken (2006).

      جيركين (2010)

      سأل Gerken (2010) عما إذا كانت الخبرة المحدودة للغاية ستسمح للرضع بإظهار دليل على تعلم أنماط التكرار عند التعرف عليها AAدي أو أديأ ثلاثة توائم. كما هو الحال في تجارب Gerken (2006) ، تم التعرف على الأطفال الرضع AAدي أو أديأ ثلاثة توائم ، ثم اختبارها على AAB أو ABA ثلاثة توائم لا تحتوي على / di /. ومع ذلك ، فقد أضافت بشكل حاسم خمسة توائم إضافية للتعريف ، ثلاثة منها تتوافق مع نمط التكرار نفسه مثل التوائم الثلاثة الأخرى ، لكنها لم تحتوي على / di /. اللافت للنظر أن هذا التغيير البسيط سمح للأطفال بالتمييز بين نمطي التكرار حتى لو لم تحتوي عناصر الاختبار على / di /. في حالة تحكم حرجة ، أظهر Gerken (2006) أن استبدال AAدي أو أديأ ثلاثة توائم مع الموسيقى (والاحتفاظ بآخر خمسة توائم مألوفة) لم تسمح للرضع بالتمييز بين أنماط التكرار ، مما يشير إلى أن الرضع لم يستخدموا التجارب الخمس الأخيرة فقط لتعلم نمط التكرار.

      كما هو الحال في عمليات المحاكاة التي تمت مراجعتها حتى الآن ، يشرح نموذج Frank and Tenenbaum (2011) نجاح التعلم من خلال تفضيل النموذج لقواعد أكثر تحديدًا ، والتي لا تدعمها البيانات المقدمة في الملحق أ.

      علاوة على ذلك ، فإن نموذج فرانك وتيننباوم (2011) يقدم تنبؤًا لم يتم اختباره ولكن يبدو أنه غير قابل للتصديق إلى حد كبير. على وجه التحديد ، تُظهر معادلات فرانك وتيننباوم (2011) (1) و (2) أن النموذج يتنبأ ، بغض النظر عن المدة التي يتعرف فيها الأطفال على AAدي أو أديأ العناصر ، أ غير مرتبطة العنصر الذي لا يحتوي على / دي / يؤدي إلى رفض جميع / دي / القواعد. 4 على سبيل المثال ، إذا كان البالغون على دراية بـ 10000 AAثلاثة توائم ، ثم أظهر واحد AAB ثلاثة توائم لا تحتوي على / دي / ، يجب أن ينسوا AAنمط di ، حتى لو كان 9999 من أصل 10000 ثلاثة توائم متوافقين معه. يبدو هذا التوقع غير قابل للتصديق.

      الأهم من ذلك ، أن هذا ليس اختبارًا غير عادل لنموذج فرانك وتيننباوم (2011). بالنظر إلى أن فرانك وتيننباوم (2011) يعتبران فضيلة النموذج أنه يمكن أن يتعلم & # x0201c مع كمية صغيرة فقط من الأدلة & # x0201d (ص 366) ، يبدو من المعقول أن نستنتج أن الجانب الآخر من هذه القدرة ، أي عدم التعلم & # x0201c مع قدر ضئيل فقط من الأدلة ، & # x0201d هي سمة أساسية ومهمة بنفس القدر للنموذج. ومن ثم ، فإن ميزة نموذج Frank and Tenenbaum (2011) التي تسمح لهم بتلائم بيانات Gerken (2010) تقدم تنبؤات غير صحيحة ، مما يشير إلى أنها فشلت في تقديم حساب للبيانات.

      ماركوس وآخرون. (2007)

      ماركوس وآخرون. (2007) سأل عما إذا كان الأطفال يتعلمون بشكل تفضيلي أنماط التكرار في بعض طرائق التحفيز أكثر من غيرها. باختصار ، أظهروا أن الأطفال يتعلمون بسهولة أنماط التكرار عندما يتم تنفيذها باستخدام مقاطع الكلام ، ومع ذلك ، فهم لا يظهرون أي تعلم مهم عندما يتم تنفيذ الثلاثة توائم باستخدام نغمات نقية أو جرس أو أصوات حيوانات أثناء كل من المألوف والاختبار.

      في تناقض ملحوظ ، عندما يتعرف الأطفال على ثلاثة توائم في الكلام تتوافق مع نمط التكرار ، فإنهم يميزون بنجاح النمط الذي سمعوه من الأنماط غير المألوفة & # x02014 حتى عند اختبارهم على النغمات أو الأصوات أو أصوات الحيوانات. ماركوس وآخرون. (2007) خلص إلى أن & # x0201cinfants قد يحللون الكلام بشكل أعمق من الإشارات الأخرى لأنه مألوف للغاية أو بارز للغاية ، لأنه ينتج من قبل البشر ، أو لأنه قادر بطبيعته على تحمل المعنى ، أو لأنه يحمل بعضًا ما لم - خاصية صوتية محددة تلفت انتباه نظام الحث على القواعد & # x0201d (ص 390).

      على الرغم من أن هذا الاستنتاج معقول بما يكفي ليتم اعتباره وصفًا دقيقًا لنتائج ماركوس وآخرين (2007) ، إلا أن فرانك وتيننباوم (2011) اعترضوا عليه ، لكنهم فشلوا في تقديم تفسير بديل مناسب. أولاً ، كما هو الحال في جميع التجارب الأخرى التي تمت مراجعتها حتى الآن ، فشل نموذجهم في تقديم تفسير لماذا يمكن للأطفال تعلم أنماط التكرار في المقام الأول ، لأن نجاح النموذج يعتمد على افتراض أن الأطفال يفضلون الأكثر تحديدًا والأصعب - التوافق مع القاعدة كما هو مذكور أعلاه ، هذا الافتراض غير مدعوم بالنتائج الواردة في الملحق أ.

      ثانيًا ، يشرح فرانك وتيننباوم (2011) بيانات ماركوس وآخرون (2007) من خلال التكهن بأن الأطفال يخطئون في فهم العناصر غير الكلامية أو يخطئون في تذكرها أكثر من عناصر الكلام ، وأنهم يختارون بشكل عشوائي قاعدة للعناصر التي تم فهمها بشكل خاطئ أو خطأ في تذكرها. لكن الأهم من ذلك هو أن فرانك وتيننباوم (2011) يفترضان أن هذه المشكلات الإدراكية خاصة بمرحلة التآلف ، بينما يكون لدى الرضع إدراك مثالي في مرحلة الاختبار بغض النظر عن نوع المحفزات التي يتعرضون لها. 5 مع هذا الافتراض ، ليس من المستغرب أن يتم تعلم الأنماط المطبقة في الكلام بشكل أفضل من الأنماط المنفذة مع العناصر غير الكلامية بعد كل شيء ، يُفترض أن الأطفال الرضع يخطئون في تذكرها أو يسيئون فهمها.

      ومع ذلك ، لا يوجد سبب لافتراض أن الأطفال يرون أو يتذكرون نفس الحافز بشكل مختلف اعتمادًا على ما إذا كان يظهر في مرحلة التعارف أو الاختبار. إذا افترض المرء أن الأطفال يعانون من نفس الصعوبات الإدراكية أو في الذاكرة أثناء الاختبار كما حدث أثناء التآلف ، فسوف يكون أداؤهم أسوأ بكثير عند اختبارهم على مادة غير كلام ، حتى بعد التعرف على عناصر الكلام.

      يعترف فرانك وتيننباوم (2011) بهذه المشكلة ، ويذكران في الحاشية 9 أنه إذا تم افتراض نفس مشكلات الذاكرة أو الإدراك أثناء التعارف وأثناء الاختبار ، فإنهما يجدان & # x0201 وجود فجوة ملحوظة في الأداء بين الكلام و [غير الكلام] & # x0201d. ومع ذلك ، تم دحض هذا التوقع بواسطة بيانات Marcus et al. (2007): في تجاربهم ، أدى التمييز بين العناصر المتسقة وغير المتسقة إلى حجم تأثير 0.86 في حالة الكلام ، و .745 في الحالة التي يكون فيها الرضع. تم التعرف على عناصر الكلام واختبارها على النغمات. باستخدام تقريب عادي للوحدات لأحجام التأثير ، يكون حجم التأثير ضمن نطاق ثقة بنسبة 12٪ لبعضهما البعض ، وبالتالي لا يختلفان بشكل كبير. هذا ، مع ذلك ، يتعارض مع نموذج فرانك وتيننباوم (2011).

      باختصار ، لا يقدم فرانك وتيننباوم (2011) حسابًا مناسبًا لبيانات ماركوس وآخرون (2007) ، لأن نموذجهم لا يمكن أن يفسر تعلم أنماط التكرار في المقام الأول ، ولأن روايتهم عن الاختلافات بين حالات الكلام وغير الكلام تجعل التنبؤات غير متسقة مع بيانات ماركوس وآخرون (2007).

      Saffran et al. (2007)

      Saffran et al. أظهر (2007) أن الأطفال الرضع يمكنهم تعلم أنماط التكرار للكلاب التي يتم تقديمها في وقت واحد. كما هو الحال مع التجارب الأخرى التي تمت مراجعتها حتى الآن ، فشل نموذج فرانك وتيننباوم (2011) في تفسير هذه النتيجة ، لأن الافتراض بأن المتعلمين يفضلون القاعدة الأكثر تحديدًا لا تدعمه البيانات المقدمة في الملحق أ.

      Saffran et al. (2007) أظهر أيضًا أن الأطفال الذين كانوا (وفقًا لتقرير الوالدين) & # x0201c مهتمون جدًا & # x0201d بالكلاب كان أداؤهم أفضل من الأطفال الذين كانوا فقط & # x0201cinterested. & # x0201d فرانك وتيننباوم (2011) يشرحون هذه النتيجة من خلال الادعاء بأن الأطفال الرضع الذين هم فقط & # x0201cinterested & # x0201d في الكلاب هم أكثر عرضة لسوء فهمهم أو تذكرهم بشكل خاطئ بعد ذلك ، فهم يختارون بشكل عشوائي قاعدة للعناصر التي أسيء تذكرها أو التي أسيء فهمها ، بدلاً من تجاهلها ببساطة. يؤدي هذا إلى وجود علاقة سلبية بين احتمال أن النموذج أخطأ في تذكر العناصر أو أخطأ في فهمها وأداء تعلم القواعد.

      ومع ذلك ، هناك سببان يجعلان تفسير فرانك وتيننباوم (2011) لتأثيرات الاهتمام بالكلاب غير قابل للتصديق. أولاً ، يُظهر الجزء الأيسر من الشكل 2 أن أكبر الاختلافات في أداء تعلم القواعد تنشأ عند افتراض احتمالات كبيرة بشكل غير معقول لسوء تذكر العناصر أو فهمها بشكل خاطئ. (يمكن ملاحظة ذلك من خلال الاحتفاظ بالقيمة على المحور السيني ثابتة ، وتغيير ما يسميه فرانك وتيننباوم (2011) & # x003b1نانوثانية على سبيل المثال ، لا يتغير الأداء بشكل أساسي إذا كان احتمال سوء التذكر / سوء الفهم هو 0 أو 10 أو 20 أو 30٪ على التوالي ، في المقابل توجد اختلافات كبيرة في الأداء عند افتراض احتمالية خطأ في التذكر / سوء فهم أكبر من 40٪. على سبيل المقارنة ، افترض فرانك وتيننباوم (2011) في سياق تجارب ماركوس وآخرون (2007) أن احتمال سوء التذكر / سوء الفهم بنسبة 10٪ سيكون معقولًا. هذا أمر مزعج بشكل خاص إذا كان نموذج Frank and Tenenbaum (2011) موجودًا على المستوى الحسابي بعد كل شيء ، فلا يوجد فرق في & # x0201 بنية الحساب & # x0201d لماركوس وآخرون (2007) وسافران وآخرون. (2007) التجارب التي تبرر زيادة أربعة أضعاف في احتمالية سوء التذكر ، مما يشير مرة أخرى إلى أن فرانك وتيننباوم (2011) لا يقدمان نماذج مراقب مثالي على المستوى الحسابي بل يضعان افتراضات تنفيذية مفصلة.

      نتائج بيانات G & # x000f3mez (2002) (خط متصل مع دوائر) ، وتنبؤان لنموذج Frank & # x00026 Tenenbaum (2011). (خط متقطع مع مثلثات) في تجارب G & # x000f3mez (2002) ، ثلاثة توائم مع 2 و 6 و 12 و 24 X العناصر تكررت 72 و 24 و 12 و 6 مرة على التوالي. بافتراض أن عدد التكرارات يزيد من قوة ذاكرة العناصر (Ebbinghaus ، 1885/1913) ، يجب أن تنخفض معلمة Frank & # x00026 Tenenbaum (2011) الخاطئة للتذكر مع عدد التكرارات. يؤدي اختيار أصغر معلمة خطأ في التذكر في Frank & # x00026 Tenenbaum's (2011) الشكل 3 على أنه احتمال خطأ في التذكير لـ 72 تكرارًا ، ثم قياس معلمة خطأ في التذكر بشكل متناسب مع لوغاريتم عدد التكرارات ينتج عنه أخطاء في التذكير باحتمالات 10 و 30 و 50 و 60 النسبة المئوية المقابلة لـ 72 و 24 و 12 و 6 تكرارات على التوالي. في ظل هذه الافتراضات ، يتوقع نموذج Frank & # x00026 Tenenbaum (2011) أن المشاركين يجب أن يكونوا أفضل مع اثنين X العناصر ، في حين أن المشاركين في الواقع هم الأفضل مع 24 عنصرًا X عنصرًا. (خط منقط مع تقاطعات) طريقة مختلفة لتفسير معلمة Frank & # x00026 Tenenbaum (2011) الخاطئة في التذكير هي اعتبار تجارب G & # x000f3mez (2002) بمثابة تجارب ذاكرة (على الرغم من أنها ليست كذلك بوضوح) ، والنظر في النسبة المئوية للاستجابات غير الصحيحة في كل حالة كمعامل Frank & # x00026 Tenenbaum (2011) الخاطئ في التذكير. يُظهر اختيار احتمالات التذكر الخاطئ في Frank & # x00026 Tenenbaum's (2011) الشكل 3 الأقرب إلى النسب المئوية للإجابات غير الصحيحة في تجربة G & # x000f3mez (2002) أن النموذج يتوقع أن يكون المشاركون في الحد الأقصى من الحجم المحدد 12 فصاعدًا. تكرر هذه النتيجة ارتباط معلمة التذكر الخاطئ بالأداء. الأهم من ذلك ، أن نمط النتائج لا يتناسب مع سلوك المشاركين في G & # x000f3mez (2002).

      ومن ثم ، فشل فرانك وتيننباوم (2011) في تقديم نموذج مناسب لبيانات Saffran et al. (2007) ، وذلك لأن نموذجهما يفشل في تعلم أنماط التكرار في المقام الأول ، ولأن تفسيرهما لتأثيرات الرضع. يعتمد الاهتمام بالكلاب على تغيير معلمة مخصصة يعرفونها مسبقًا لربطها بأداء تعلم القواعد.

      G & # x000f3mez (2002)

      حقق G & # x000f3mez (2002) في دور التباين في تبعيات التعلم بين العناصر غير المتجاورة ، سواء في البالغين أو عند الرضع. في التجارب مع البالغين (تلك التي صممها Frank & # x00026 Tenenbaum ، 2011) ، استمع المشاركون إلى ثلاثة توائم من النموذج اكسد, bXe و cXf. أ, ب, ج, د, ه و F لم تكن كلمات محددة X أتى من فصول بها 2 أو 6 أو 12 أو 24 عضوًا. كان حجم الفصول متنوعًا بين المشاركين. الأهم من ذلك ، أن G & # x000f3mez (2002) يساوي عدد تكرارات أ & # x02026 F الكلمات في ظروف حجم الفصل المختلفة. أي ، تم تقديم كل ثلاثة توائم 72 و 24 و 12 و 6 مرات لأحجام الفصل 2 و 6 و 12 و 24 على التوالي. بعد هذا التعريف ، تم تقديم عناصر الاختبار للمشاركين ، وكان عليهم اختيار ما إذا كانوا قد سمعوها أم لا. كانت هذه العناصر إما عناصر سمعوا عنها بالفعل ، أو رقائق حيث تم كسر الانتظام بين الكلمة الأولى والأخيرة في الثلاثي (أي ، كان للرقائق الشكل فأس, bXf أو cXd). عندما X جاءت الكلمات من فئات مكونة من 2 أو 6 أو 12 عنصرًا ، وميز المشاركون التوائم الثلاثة الصحيحة من الرقائق فقط عند مستويات منخفضة وهامشية من الأداء. في المقابل ، متى X مأخوذ من مجموعة من 24 عنصرًا ، كان الأداء ممتازًا.

      لحساب هذه البيانات ، قام Frank and Tenenbaum (2011) أولاً بتعديل نموذجهم لتمكينه من تعلم قواعد متعددة في وقت واحد ، أي ، قاموا بتعديله حتى يتمكن من تعلم جميع التبعيات الثلاثة بين الكلمات الأولية والنهائية. ثانيًا ، افترضوا أن المشاركين يسيئون التذكر أو يسيئون الفهم بالضبط 60٪ من ثلاثة توائم سمعوا. .

      هذا الحساب إشكالي لثلاثة أسباب مهمة. أولاً ، كما هو الحال في جميع عمليات المحاكاة الأخرى التي تمت مراجعتها حتى الآن ، يختار النموذج القواعد المناسبة عن طريق اختيار القواعد الأكثر تحديدًا المتوافقة مع الإدخال يوضح الملحق أ أن هذه الافتراضات غير مدعومة. ثانيًا ، لملاءمة النموذج مع البيانات ، يتعين على Frank and Tenenbaum (2011) تعيين معلمة إلى قيمة محددة على الرغم من عدم وضوح السبب ، وفقًا لـ Frank and Tenenbaum (2011) ، & # x0201cthe الهيكل الحسابي & # x0201d للمشكلة تملي معدل النسيان بالضبط 60%.

      ثالثًا ، وهو أمر حاسم ، منح معلمة سوء التذكر لفرانك وتيننباوم (2011) معنى نفسيًا ، فإن افتراضهما أنه ثابت بالنسبة لظروف حجم الفصل المختلفة هو على الأرجح غير صحيح. كما هو مذكور أعلاه ، أبقى G & # x000f3mez (2002) عدد الرموز المميزة في كل حالة بحجم فئة ثابتة على سبيل المثال ، تم لعب كل ثلاثة توائم 72 مرة عندما X تم أخذ العناصر من مجموعة من كلمتين ، و 6 مرات X تم أخذ العناصر من مجموعة من 24 كلمة. ومن ثم ، يتوقع المرء أن تكون احتمالية سوء التذكر أعلى عندما X يتم أخذ العناصر من مجموعة مكونة من 24 كلمة مقارنة بما كانت عليه عندما يتم أخذها من مجموعة من كلمتين.

      في الشكل 2 ، أعدت النتائج المأخوذة من فرانك وتيننباوم (2011) الشكل 3 ، ولكن مع الأخذ في الاعتبار أن ثلاثة توائم تتكرر في كثير من الأحيان في حالة التباين المنخفض أكثر من ظروف التباين المرتفع. على وجه التحديد ، افترضت أن احتمال سوء التذكر هو الأدنى في حالة التباين المنخفض ، وأنه يتناقص بشكل متناسب مع لوغاريتم عدد التكرارات لكل ثلاثة توائم. كما هو مبين في الشكل 1 ، تتناقض النتائج بشكل مباشر مع بيانات G & # x000f3mez (2002): بينما كان أداء المشاركين أفضل في حالة التباين العالي ، كان أداء النموذج أفضل بالنسبة لظروف التباين المنخفض.

      هناك أيضًا طريقة ثانية لاستخدام معلمة سوء التذكر / سوء الفهم في سياق بيانات G & # x000f3mez (2002). بعد كل شيء ، سألت عن مدى احتمالية قيام المشاركين بتأييد العناصر التي سمعوها ، والأشياء التي لم يسمعوا بها وانتهاك تبعية r غير المجاورة. Hence, Gómez's (2002) experiments might be seen, at least in principle, as testing the memory of the items participants had heard, even though it is clear that participants' performance was not driven by memory for complete triplets. (After all, their performance was worse for triplets they had heard 72 times than for triplets they had heard 6 times.) For the sake of completeness, I plotted in Figure 2 the model predictions assuming that participants' actual performance was reflected in the misremembering/misperception parameter that is, for each set size, I used the misremembering/misperception probability that was closest to the participants' probability of غير صحيح استجابات.

      It should be noted that using the misremembering/misperception parameter in this way is circular given that Frank and Tenenbaum (2011) report in the context of Saffran et al. (2007) data that the misremembering/misperception probability is negatively correlated with performance, one would expect this to be case here as well. Hence, the model should perform better for larger class-sizes for this reason alone. Importantly, however, the model's results did not fit those of Gómez's (2002) participants, as it performed at ceiling for all class-sizes from 12 onwards.

      In sum, Frank and Tenenbaum's (2011) model fails to account for Gómez's (2002) data, both because it makes assumptions unsupported by the results reported in Appendix A, and because the model's results clash with those of actual participants.

      Kovผs and Mehler (2009a)

      Kovผsand Mehler (2009a) investigated how easy it is for infants to learn two patterns simultaneously. In their experiments, two patterns (e.g., AAB و ABA) predicted visual rewards on two different locations on a screen they measured whether, upon hearing a pattern, infants would show anticipatory looks to the location where the reward would appear. They showed that infants from bilingual households learned both rules, but monolinguals learned only one. Kovผs and Mehler (2009a) proposed that the bilingual advantage was due to bilinguals' well known advantage in executive function (e.g., Bialystok & Craik, 2010), which they had shown to be present already in infancy (Kovผs & Mehler, 2009b).

      Frank and Tenenbaum's (2011) explanation of Kovผs and Mehler's (2009a) results is to introduce an additional parameter controlling how likely the model is to postulate multiple rules, and to show that the model is more likely to posit multiple rules when the parameter is set to allow for multiple rules. They conclude that bilingual infants have 𠇊 more permissive prior on the number of regularities infants assume to be present in a particular stimulus. In practice this may be manifest via better executive control, as hypothesized by Kovผs & Mehler.” In other words, Frank and Tenenbaum (2011) found that a model that is designed to be more likely to admit more than one regularity is indeed more likely to learn more than one regularity, and conclude that bilinguals are somehow designed to be more likely to admit more than one regularity as well.

      However, Frank and Tenenbaum's (2011) simulations fail to provide an account of Kovผs and Mehler's (2009a) data. First, as in all other simulations reviewed so far, the model fails to provide an account of the learning of repetition-patterns because the underlying assumption is not supported by the data reported in Appendix A: human learners do not necessarily prefer more specific, harder-to-conform-to rules.

      Second, even though Frank and Tenenbaum's (2011) extra-parameter allowed them to fit their model to the data, their conclusion completely ignores the substantial literature on the effects of bilingualism on executive function. It is well established that bilingual adults and children have better executive function in a variety of tasks that are entirely unrelated to learning multiple regularities. These tasks include dimensional card sorting tasks (e.g., Bialystok, 1999 Bialystok & Martin, 2004), the Simon task (e.g., Bialystok et al., 2004), the Stroop task (e.g., Bialystok et al., 2008), and the Flanker task (Costa et al., 2008). In the case of reversal learning, the executive advantage can be observed even in early infancy (Kovผs & Mehler, 2009b). Further, the effects of the bilingual advantage are seen in domains such as Theory of Mind (Kovผs, 2009) that have no obvious relation to regularity learning either.

      It thus seems reasonable to conclude that Frank and Tenenbaum's (2011) additional parameter has no relation at all to the data presented by Kovผs and Mehler (2009a), on top of the fact that their model does not account for the learning of repetition-patterns in the first instance.


      The free energy principle

      Due to the second law of thermodynamics, the majority of your body’s possible states are death and dysfunction. You’re lucky that you’re alive and able to read this. Sooner or later, entropy will catch up with each of us, and we will enter the physiologically unexpected yet physically probable and inevitable state of death. Yet this is precisely what we evolved to avoid! Evolution “designed” us to struggle for survival, to fight chaos, to resist entropy. The human body evolved to maintain itself within expected states that are easily predictable.

      وفقا ل free energy principle, we achieve such maintenance by suppressing our free energy, the information-theoretic equivalent of overall (long-term average) prediction error. Everything we do (and everything any living creature does) is, on average and over time, done to minimize free energy, which corresponds to the brain’s job of minimizing prediction error.

      And all this to stay within expected, relatively stable states… Why? Because we can survive only within a certain range of physiological states. Too hot and we die, too cold and we die, too much oxygen and we die, too little oxygen and we die, et cetera. Too much or too little of anything will kill us, hence the fundamental physiological principle of التوازن.

      To make a long story short, the following principles are hypothesized to be equivalent, though operating at different levels of description:

      • cognitive level: minimize prediction error, maximize model fit
      • information-theoretic level: suppress free energy, 14 reduce surprisal 15
      • physiological level: maintain homeostasis
      • physical level: resist entropy
      • biological level: survive

      The upshot here is that predictive processing captures what the brain contributes to the body’s evolutionary fitness. 16 According to Friston (2009), the free energy principle also explains all structural and functional aspects of the brain, including its anatomy, connectivity, synaptic physiology, electrophysiology, and psychophysiology. I must concede, however, that there’s still much about free energy I don’t understand, and so much math I haven’t gone through yet, that it would be preposterous for me to keep writing as if I actually knew what I’m talking about here.


      Bayesian sampling-based approach for factor analysis models with continuous and polytomous data

      Factor analysis is an important technique in behavioural science research in explaining the interdependence and assessing causations and correlations of the observed variables and the latent factors. Recently, generalization of the model to handle polytomous variables has received a lot of attention. In this paper, a Bayesian approach to analysing the model with continuous and polytomous variables is developed. In the posterior analysis, the observed continuous and polytomous data are augmented with the latent factor scores and the unobserved measurements underlying the polytomous variables. Random observations from the posterior distributions are simulated via the Gibbs sampler algorithm. It is shown that the conditional distributions involved in the implementation of the algorithm are the familiar distributions, hence the simulation is rather straightforward. Joint Bayesian estimates of the unknown thresholds, structural parameters and the factor scores are produced simultaneously. The efficiency and accuracy of our approach are demonstrated by a real-life example and a simulation study.


      11.3 R implementation with rgeneric

      The rgeneric latent effect is a mechanism implemented in the INLA package to allow users to implement latent effects in R . This is possible because R can be embedded into other front-end programs in a way that allows R code to be run from C (R Core Team 2019b) . A detailed description of this feature can be accessed by typing inla.doc('rgeneric') .

      The definition of a new latent effect requires the definition of the latent effect as a GMRF. This means that the mean and precision matrix of the GRMF need to be defined, as well as the hyperparameters (m heta) involved and their prior distributions.

      Specifying the latent effect as a GMRF also requires a binary representation of the precision matrix to exploit conditional independence properties. i.e., a ‘graph’. This is simply a matrix of the same dimension as the precision matrix with entries equal to zero where the precision matrix is zero and 1 otherwise. When passing this graph matrix to define an rgeneric latent effect, the precision matrix can be used as well regardless of whether it is binary or not.

      To sum up, in order to define a new latent effect, the following need to be defined using several R functions:

      The mean of the latent effects (mu( heta)) .

      The precision of the latent effects (Q( heta)) .

      A ‘graph’, with a binary representation of the precision matrix.

      The initial values of ( heta) .

      A log-normalizing constant.

      Before starting coding all this, it is important to provide an internal representation of the hyperparameters that make numerical optimization easier. As a rule, it is good to have a reparameterization of the parameters so that the internal parameters are not bounded as this will simplify computations. In particular, we will use ( heta_1 = log( au)) and ( heta_2 = logit( ho)) .

      INLA will internally work with parameters (( heta_1, heta_2)) . For this reason, we will need first to define the following function to convert the hyperparameters from the internal scale to the model scale, i.e, to obtain parameters (( au, ho)) from (( heta_1, heta_2)) :

      A variable theta is defined by INLA in the code to store ( heta = ( heta_1, heta_2)) . So, the following function interpret.theta will take the parameters in the internal scale and return the precision and spatial autocorrelation parameters:

      Next, we will define the ‘graph’, which essentially defines what entries of the precision matrix are non-zero. Note that this is a matrix of the same size as the precision matrix and that (W) must be passed as a sparse matrix (as defined in package Matrix ) and the returned matrix must be sparse too.

      The precision matrix is defined in a similar way:

      The mean can be defined very easily now because it is zero:

      The logarithm of the normalizing constant in this case is the typical normalizing constant of a multivariate Gaussian distribution:

      Note that INLA will compute this normalizing constant if numeric(0) is returned, so this can be omitted.

      The log-prior must be specified in another function. For precision ( au) , we will be using a gamma distribution with parameters (1) and (0.00005) , and for ( ho) a uniform distribution on ((0,1)) :

      Note that the extra terms that appear in the definition of the log-density of the prior are due to the change of variable involved. INLA works with (( heta_1, heta_2)) internally, but the prior is set on (( au, ho)) . See Chapter 5 for details on how to set the prior properly.

      Finally, a function to set the initial values of the parameters in the internal scale must be provided:

      This implies that the initial values of ( au) and ( ho) are (1) and (0.5) , respectively.

      A quit() function is called when all computations are finished before exiting the C code. In this case, we will simply return nothing.

      The actual definition of the latent effect is done via function inla.rgeneric.define . This function takes as first argument the functions defined before and some extra arguments needed to evaluate the different functions:

      Then, the model is defined to be used by INLA using function inla.rgeneric.define as follows:

      Note that inla.rgeneric.define() takes as first argument the function that defines the latent effect followed by a sequence of named arguments with variables that are required in the computation of the latent effect. In this case, matrix W is the adjacency matrix required by the CAR latent effect but more arguments could follow when needed.

      The model can now be fitted as follows:

      A summary of the model can be obtained as usual:

      The marginals of the hyperparameters are in the internal scale and they need to be transformed:

      Figure 11.2: Posterior marginals of parameters ( au) and ( ho) of the proper CAR latent model for the SIDS dataset.

      Figure 11.2 shows the posterior marginals of ( au) and ( ho) . These show a strong spatial autocorrelation. Finally, summary statistics on these parameters can be obtained with inla.zmarginal (see Section 2.6):

      Posterior means of the random effects have been plotted in a map in Figure 11.3. It shows the underlying spatial pattern of the risk from SIDS. It should be mentioned that the spatial pattern of the proportion of non-white births is very similar to the one shown in Figure 11.3 and that is why when this covariate is included in the model (as discussed in Section 2.3.2) it accounts for most of the overdispersion in the data and random effects are not required any more.

      Figure 11.3: Posterior means of the CAR random effects.


      Simple examples of Bayesian inference [ edit | تحرير المصدر]

      From which bowl is the cookie? [ edit | تحرير المصدر]

      To illustrate, suppose there are two full bowls of cookies. Bowl #1 has 10 chocolate chip and 30 plain cookies, while bowl #2 has 20 of each. Our friend Fred picks a bowl at random, and then picks a cookie at random. We may assume there is no reason to believe Fred treats one bowl differently from another, likewise for the cookies. The cookie turns out to be a plain one. How probable is it that Fred picked it out of bowl #1?

      Intuitively, it seems clear that the answer should be more than a half, since there are more plain cookies in bowl #1. The precise answer is given by Bayes' theorem. يترك correspond to bowl #1, and to bowl #2. It is given that the bowls are identical from Fred's point of view, thus , and the two must add up to 1, so both are equal to 0.5. The event is the observation of a plain cookie. From the contents of the bowls, we know that و . Bayes' formula then yields

      Before we observed the cookie, the probability we assigned for Fred having chosen bowl #1 was the prior probability, />, which was 0.5. After observing the cookie, we must revise the probability to />, which is 0.6.

      False positives in a medical test [ edit | تحرير المصدر]

      False positives result when a test falsely or incorrectly reports a positive result. For example, a medical test for a disease may return a positive result indicating that patient has a disease even if the patient does not have the disease. We can use Bayes' theorem to determine the probability that a positive result is in fact a false positive. We find that if a disease is rare, then the majority of positive results may be false positives, even if the test is accurate.

      Suppose that a test for a disease generates the following results:

      • If a tested patient has the disease, the test returns a positive result 99% of the time, or with probability 0.99
      • If a tested patient does not have the disease, the test returns a positive result 5% of the time, or with probability 0.05.

      Naively, one might think that only 5% of positive test results are false, but that is quite wrong, as we shall see.

      Suppose that only 0.1% of the population has that disease, so that a randomly selected patient has a 0.001 prior probability of having the disease.

      We can use Bayes' theorem to calculate the probability that a positive test result is a false positive.

      يترك أ represent the condition in which the patient has the disease, and ب represent the evidence of a positive test result. Then, probability that the patient actually has the disease given the positive test result is

      , or 98%.

      Despite the apparent high accuracy of the test, the incidence of the disease is so low that the vast majority of patients who test positive do not have the disease. Nonetheless, the fraction of patients who test positive who do have the disease (.019) is 19 times the fraction of people who have not yet taken the test who have the disease (.001). Thus the test is not useless, and re-testing may improve the reliability of the result.

      In order to reduce the problem of false positives, a test should be very accurate in reporting a نفي result when the patient does not have the disease. If the test reported a negative result in patients without the disease with probability 0.999, then

      ,

      so that now is the probability of a false positive.

      On the other hand, false negatives result when a test falsely or incorrectly reports a negative result. For example, a medical test for a disease may return a negative result indicating that patient does not have a disease even though the patient actually has the disease. We can also use Bayes' theorem to calculate the probability of a false negative. In the first example above,

      denote the event that the defendant is guilty.

    • يترك denote the event that the defendant's DNA matches DNA found at the crime scene.
    • يترك denote the probability of seeing event if the defendant actually is guilty. (Usually this would be taken to be near unity.)
    • يترك denote the probability that the defendant is guilty assuming the DNA match (event ).
    • يترك denote the juror's personal estimate of the probability that the defendant is guilty, based on the evidence غير ذلك the DNA match. This could be based on his responses under questioning, or previously presented evidence.

    Bayesian inference tells us that if we can assign a probability p(G) to the defendant's guilt before we take the DNA evidence into account, then we can revise this probability to the conditional probability ، حيث

    Suppose, on the basis of other evidence, a juror decides that there is a 30% chance that the defendant is guilty. Suppose also that the forensic testimony was that the probability that a person chosen at random would have DNA that matched that at the crime scene is 1 in a million, or 10 −6 .

    The event E can occur in two ways. Either the defendant is guilty (with prior probability 0.3) and thus his DNA is present with probability 1, or he is innocent (with prior probability 0.7) and he is unlucky enough to be one of the 1 in a million matching people.

    Thus the juror could coherently revise his opinion to take into account the DNA evidence as follows:

    The benefit of adopting a Bayesian approach is that it gives the juror a formal mechanism for combining the evidence presented. The approach can be applied successively to all the pieces of evidence presented in court, with the posterior from one stage becoming the prior for the next.

    The juror would still have to have a prior estimate for the guilt probability before the first piece of evidence is considered. It has been suggested that this could reasonably be the guilt probability of a random person taken from the qualifying population. Thus, for a crime known to have been committed by an adult male living in a town containing 50,000 adult males, the appropriate initial prior probability might be 1/50,000.

    For the purpose of explaining Bayes' theorem to jurors, it will usually be appropriate to give it in the form of betting odds rather than probabilities, as these are more widely understood. In this form Bayes' theorem states that

    Posterior odds = prior odds x Bayes factor

    In the example above, the juror who has a prior probability of 0.3 for the defendant being guilty would now express that in the form of odds of 3:7 in favour of the defendant being guilty, the Bayes factor is one million, and the resulting posterior odds are 3 million to 7 or about 429,000 to one in favour of guilt.

    A logarithmic approach which replaces multiplication with addition and reduces the range of the numbers involved might be easier for a jury to handle. This approach, developed by Alan Turing during World War II and later promoted by I. J. Good and E. T. Jaynes among others, amounts to the use of information entropy.

    In the United Kingdom, Bayes' theorem was explained to the jury in the odds form by a statistician expert witness in the rape case of Regina versus Denis John Adams. A conviction was secured but the case went to Appeal, as no means of accumulating evidence had been provided for those jurors who did not want to use Bayes' theorem. The Court of Appeal upheld the conviction, but also gave their opinion that "To introduce Bayes' Theorem, or any similar method, into a criminal trial plunges the Jury into inappropriate and unnecessary realms of theory and complexity, deflecting them from their proper task." No further appeal was allowed and the issue of Bayesian assessment of forensic DNA data remains controversial.

    Gardner-Medwin argues that the criterion on which a verdict in a criminal trial should be based is ليس the probability of guilt, but rather the probability of the evidence, given that the defendant is innocent (akin to a frequentist p-value). He argues that if the posterior probability of guilt is to be computed by Bayes' theorem, the prior probability of guilt must be known. This will depend on the incidence of the crime, which is an unusual piece of evidence to consider in a criminal trial. Consider the following three propositions:

    A: The known facts and testimony could have arisen if the defendant is guilty,

    B: The known facts and testimony could have arisen if the defendant is innocent,

    C: The defendant is guilty.

    Gardner-Medwin argues that the jury should believe both A and not-B in order to convict. A and not-B implies the truth of C, but the reverse is not true. It is possible that B and C are both true, but in this case he argues that a jury should acquit, even though they know that they will be letting some guilty people go free. See also Lindley's paradox.

    Other court cases in which probabilistic arguments played some role were the Howland will forgery trial, the Sally Clark case, and the Lucia de Berk case.

    Search theory [ edit | تحرير المصدر]

    In May 1968 the US nuclear submarine برج العقرب (SSN-589) failed to arrive as expected at her home port of Norfolk, Virginia. The US Navy was convinced that the vessel had been lost off the Eastern seaboard but an extensive search failed to discover the wreck. The US Navy's deep water expert, John Craven USN, believed that it was elsewhere and he organised a search south west of the Azores based on a controversial approximate triangulation by hydrophones. He was allocated only a single ship, the Mizar, and he took advice from a firm of consultant mathematicians in order to maximise his resources. A Bayesian search methodology was adopted. Experienced submarine commanders were interviewed to construct hypotheses about what could have caused the loss of the برج العقرب.

    The sea area was divided up into grid squares and a probability assigned to each square, under each of the hypotheses, to give a number of probability grids, one for each hypothesis. These were then added together to produce an overall probability grid. The probability attached to each square was then the probability that the wreck was in that square. A second grid was constructed with probabilities that represented the probability of successfully finding the wreck if that square were to be searched and the wreck were to be actually there. This was a known function of water depth. The result of combining this grid with the previous grid is a grid which gives the probability of finding the wreck in each grid square of the sea if it were to be searched.

    This sea grid was systematically searched in a manner which started with the high probability regions first and worked down to the low probability regions last. Each time a grid square was searched and found to be empty its probability was reassessed using Bayes' theorem. This then forced the probabilities of all the other grid squares to be reassessed (upwards), also by Bayes' theorem. The use of this approach was a major computational challenge for the time but it was eventually successful and the برج العقرب was found about 740 kilometers southwest of the Azores in October of that year.

    Suppose a grid square has a probability ص of containing the wreck and that the probability of successfully detecting the wreck if it is there is ف. If the square is searched and no wreck is found, then, by Bayes' theorem, the revised probability of the wreck being in the square is given by


    Bayesian approaches to brain function

    Bayesian approaches to brain function investigate the capacity of the nervous system to operate in situations of uncertainty in a fashion that is close to the optimal prescribed by Bayesian statistics. [1] [2] This term is used in behavioural sciences and neuroscience and studies associated with this term often strive to explain the brain's cognitive abilities based on statistical principles. It is frequently assumed that the nervous system maintains internal probabilistic models that are updated by neural processing of sensory information using methods approximating those of Bayesian probability. [3] [4]


    Implementing Bayesian Vancomycin Dosing: Operational Considerations

    Implementing Bayesian vancomycin dosing requires an institution to decide which software best suits its needs. There are many available options with varying user interfaces, features, and companion applications. The selection of the tool will depend on the needs, wants, and goals of the institution. Once a software tool is chosen, the institution must budget to pay the third-party vendor. Additionally, clinical staff will need to dedicate time for training in proper use of the software to ensure quality of patient care.

    If teams decide to calculate AUC via two levels (peak and trough), education and training for all relevant clinical staff will be necessary. The benefit of Bayesian-model dosing, however, is that exact timing of levels will need not be as strict. If doses are given or levels are taken outside of scheduled times, the information will still be useful for Bayesian interpretations.

    If teams opt for single-level monitoring, the transition to AUC monitoring may be a little easier. Clinical staff will benefit from understanding that levels can be drawn without waiting for steady-state to be achieved. This practice change may increase both efficiency in workflow and flexibility in laboratory interpretation for clinical staff.

    Finally, Bayesian software can be integrated into electronic health record systems, allowing for even faster data entry and interpretation. If this path is chosen, information technology support will likely be necessary at the beginning of implementation. Once integrated, data such as prior doses, serum vancomycin concentration levels, serum creatinine, and patient demographics can be automatically imported into the software and incorporated into PK models.

    Overall, Bayesian-guided AUC monitoring provides a solution for adherence to the new vancomycin therapeutic monitoring guidelines, and healthcare institutions should be aware of the many practice implementation considerations.

    Request a free trial of the leading Bayesian vancomycin dosing and monitoring software—InsightRX Nova.


    End Notes

    The aim of this article was to get you thinking about the different type of statistical philosophies out there and how any single of them cannot be used in every situation.

    It’s a high time that both the philosophies are merged to mitigate the real world problems by addressing the flaws of the other. Part II of this series will focus on the Dimensionality Reduction techniques using MCMC (Markov Chain Monte Carlo) algorithms. Part III will be based on creating a Bayesian regression model from scratch and interpreting its results in R. So, before I start with Part II, I would like to have your suggestions / feedback on this article.

    Did you like reading this article ? As a beginner, were you able to understand the concepts? Let me know in comments.

    You can test your skills and knowledge. Check out Live Competitions and compete with best Data Scientists from all over the world.


    Bayesian estimation and test for factor analysis model with continuous and polytomous data in several populations

    The main purpose of this paper is to develop a Bayesian approach for the multisample factor analysis model with continuous and polytomous variables. Joint Bayesian estimates of the thresholds, the factor scores and the structural parameters subjected to some simple constraints across groups are obtained simultaneously. The Gibbs sampler is used to produce the joint Bayesian estimates. It is shown that the conditional distributions involved in the implementation are the familiar uniform, gamma, normal, univariate truncated normal and Wishart distributions. The Bayes factor is introduced to test hypotheses involving constraints among the structural parameters of the factor analysis models across groups. Two procedures for computing the test statistics are developed, one based on the Schwarz criterion (or Bayesian information criterion), while the other computes the posterior densities and likelihood ratios by means of draws from the appropriate conditional distributions via the Gibbs sampler. The empirical performance of the proposed Bayesian procedure and its sensitivity to prior distributions are illustrated by some simulation results and two real-life examples.


    شاهد الفيديو: السلالم المحززة من الأسفل #السلم المقلوب (أغسطس 2022).