معلومة

ما البرنامج / النهج الذي يجب استخدامه لبناء رسم بياني يعتمد على ارتباط التعبير الجيني للمصفوفة الدقيقة؟

ما البرنامج / النهج الذي يجب استخدامه لبناء رسم بياني يعتمد على ارتباط التعبير الجيني للمصفوفة الدقيقة؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

ما هي البرامج التي يجب استخدامها لإنشاء رسم بياني على أساس الارتباط المتبادل للتعبير الجيني للمصفوفة الدقيقة؟

لقد جربت Reactome FI من Cytoscape ووصفة من كتاب طبخ R bioinformatics ، ومع ذلك ، فأنا بحاجة إلى برنامج قوي أكثر موثوقية أو برنامج تعليمي R / Python حول كيفية عمل رسم بياني باستخدام العقد الجينية والحواف المبنية على قاعدة كبيرة (p <0 ، 05) الارتباطات الإيجابية والسلبية بين بيرسون / سبيرمان.


نهج التجميع لاختيار الميزة في تصنيف بيانات المصفوفات الدقيقة باستخدام Random Forest

الملخص: تلعب بيانات المصفوفة الدقيقة دورًا أساسيًا في تشخيص السرطان واكتشافه. يسمح تحليل ميكروأري بفحص مستويات التعبير الجيني في عينات خلايا محددة ، حيث يمكن تحليل آلاف الجينات في وقت واحد. ومع ذلك ، فإن بيانات المصفوفات الدقيقة تحتوي على بيانات عينة قليلة جدًا وأبعاد بيانات عالية. لذلك ، لتصنيف بيانات المصفوفة الدقيقة ، يلزم إجراء عملية تقليل الأبعاد. يمكن أن يؤدي تقليل الأبعاد إلى القضاء على التكرار في البيانات ، وبالتالي ، فإن الميزات المستخدمة في التصنيف هي ميزات لها ارتباط كبير بفئتها فقط. هناك نوعان من تقليل الأبعاد ، وهما اختيار الميزة واستخراج الميزة. في هذا البحث ، استخدمنا خوارزمية k-mean كنهج التجميع لاختيار الميزات. يمكن استخدام النهج المقترح لتصنيف الميزات التي لها نفس الخصائص في مجموعة واحدة ، بحيث تتم إزالة التكرار في بيانات المصفوفة الدقيقة. يتم ترتيب نتيجة التجميع باستخدام خوارزمية الإغاثة بحيث يتم الحصول على أفضل عنصر تسجيل لكل مجموعة. يتم تحديد أفضل عناصر كل مجموعة واستخدامها كميزات في عملية التصنيف. بعد ذلك ، يتم استخدام خوارزمية Random Forest. بناءً على المحاكاة ، حققت دقة النهج المقترح لكل مجموعة بيانات ، وهي القولون وسرطان الرئة وورم البروستات ، دقة 85.87٪ و 98.9٪ و 89٪ على التوالي. وبالتالي ، فإن دقة النهج المقترح أعلى من الطريقة التي تستخدم بها Random Forest بدون تجميع.

الكلمات الدالة: التصنيف ، التجميع ، تقليل الأبعاد ، المصفوفة الدقيقة ، الغابة العشوائية


خلفية

تم تطوير العديد من الأساليب الحسابية على مدى العقدين الماضيين لاستنتاج التفاعل بين الجينات بناءً على تعبيرها [1]. استخدم العمل المبكر خلاصات كبيرة من بيانات المصفوفة الدقيقة [2] بينما ركز العمل الأحدث على تسلسل الحمض النووي الريبي و تسلسل سكرنا [3]. في حين أن تحديد التفاعلات الزوجية كان هدف العديد من الدراسات التي اعتمدت على مثل هذه الأساليب ، استخدم البعض الآخر النتائج كميزات في إطار تصنيف [4] أو كخطوات معالجة مسبقة لإعادة بناء شبكات التفاعل البيولوجي [5]. ركز معظم العمل حتى الآن على التفاعلات داخل الخلايا والشبكات. في مثل هذه الدراسات ، نبحث عن جينات متفاعلة تشارك في مسار أو في تنظيم جينات أخرى داخل خلية معينة. في المقابل ، استخدمت دراسات التفاعلات خارج الخلية (أي تفاعلات الجينات أو البروتينات في الخلايا المختلفة) بشكل أساسي التجارب الصغيرة التي تمت فيها دراسة عدد من الروابط وأزواج المستقبلات في سياق خط أو نسيج خلوي [6]. ومع ذلك ، فإن الأساليب التي تم تطويرها مؤخرًا لنسخ النسخ المكانية توفر الآن معلومات عالية الإنتاجية حول كلاهما ، التعبير عن الجينات داخل خلية واحدة والعلاقات المكانية بين الخلايا [7،8،9،10،11]. تفتح مثل هذه المعلومات الباب لتحليل واسع النطاق للتفاعلات خارج الخلية.

ركزت الطرق الحالية لاستنتاج التفاعلات خارج الخلية من النسخ المكانية في الغالب على التحليل القائم على الارتباط غير الخاضع للإشراف. على سبيل المثال ، قامت طريقة جيوتو بحساب التأثير على التعبير الجيني من أنواع الخلايا المجاورة [12]. على الرغم من أن هذه الأساليب تؤدي أداءً جيدًا في بعض الحالات ، إلا أنها قد لا تحدد التفاعلات التي تقتصر على منطقة معينة أو أنواع خلايا معينة أو مرتبطة بأنماط أكثر تعقيدًا (على سبيل المثال ، التفاعلات ثلاثية الاتجاهات).

للتغلب على هذه المشكلات ، نقدم طريقة جديدة تعتمد على الرسم البياني للشبكات العصبية التلافيفية (GCNs). تم إدخال شبكات GCN في أدبيات التعلم الآلي منذ بضع سنوات [13]. ميزتهم الرئيسية هي أنه يمكنهم الاستفادة من قوة NN التلافيفية حتى في الحالات التي لا تكتمل فيها العلاقات المكانية [14 ، 15]. على وجه التحديد ، بدلاً من تشفير البيانات باستخدام مصفوفة ثنائية الأبعاد (أو متجه 1D) ، تستخدم شبكات GCN بنية الرسم البياني لتشفير العلاقات بين العينات. يتم تفكيك بنية الرسم البياني (ممثلة كمصفوفة تفاعل طبيعية) مع المعلومات الخاصة بكل عقدة في الرسم البياني المؤدي إلى NN التي يمكنها الاستفادة من القيم المشفرة في كل عقدة (في حالتنا التعبير الجيني) والعلاقة بين الخلايا التي تعبر عن هذه الجينات.

لتطبيق GCN على مهمة التنبؤ بالتفاعلات خارج الخلية من التعبير الجيني (GCNG) ، نقوم أولاً بتحويل بيانات النسخ المكانية إلى رسم بياني يمثل العلاقة بين الخلايا. بعد ذلك ، لكل زوج من الجينات ، نقوم بتشفير تعبيرهم واستخدام GCNG لربط بيانات الرسم البياني ببيانات التعبير. بهذه الطريقة ، لا يمكن لـ NN الاستفادة من العلاقات من الدرجة الأولى فحسب ، بل أيضًا العلاقات ذات الترتيب الأعلى في بنية الرسم البياني. نناقش التحول المحدد المطلوب لتشفير الرسم البياني والتعبير الجيني ، وكيفية تعلم معلمات GCNG ، وكيفية استخدامها للتنبؤ بالتفاعلات الجديدة.

اختبرنا نهجنا على ثلاث مجموعات بيانات من طريقتين للنسخ المكاني اللتين تحددان أكبر عدد من الجينات في الوقت الحالي ، SeqFISH + [16] و MERFISH [17]. كما أوضحنا ، يتحسن GCNG بشكل كبير على الأساليب القائمة على الارتباط عند محاولة استنتاج تفاعلات الجينات المطلقة وخارج الخلية التي تشارك في تفاعلات الخلية الخلوية. نحن نحلل بصريًا بعض الأزواج التي تم التنبؤ بها بشكل صحيح ونبين أن GCNG يمكنها التغلب على بعض قيود الطرق غير الخاضعة للإشراف من خلال التركيز فقط على مجموعة فرعية ذات صلة من البيانات. يُظهر تحليل الجينات المتوقعة أنه من المعروف أن العديد منهم يشاركون في مسار وظيفي مماثل يدعم ترتيبهم الأعلى.


نتائج ومناقشة

بناء شبكة التعبير المشترك والتحليل الطوبولوجي

بناء شبكات التعبير المشترك

تقوم معظم تحليلات التعبير المشترك الحالية بإنشاء شبكات قائمة على القيمة. نعتقد أن الأساليب القائمة على القيمة محدودة بشكل كبير من خلال استخدامها لعتبة متجانسة لجميع الجينات في الشبكة. في الواقع ، قد يتم تنظيم الجينات في مسارات وظيفية مختلفة من خلال آليات مختلفة ، وبالتالي قد تظهر أنماطًا مختلفة من التعبير المشترك. على وجه الخصوص ، قد يتم التعبير عن الجينات في مسار وظيفي واحد بشكل مشترك بقوة ، في حين أن الجينات في مسار وظيفي آخر قد يتم التعبير عنها بشكل ضعيف فقط. نتيجة لذلك ، إذا اخترنا عتبة عالمية صارمة ، فقد يتم فصل العديد من الجينات في المسار الضعيف التعبير المشترك. من ناحية أخرى ، إذا حاولنا ربط الجينات المعبر عنها بشكل ضعيف بالشبكة ، فقد تصبح العتبة منخفضة جدًا بحيث قد يكون للجينات الموجودة في المسار المعبر عنه بقوة روابط عديدة بالجينات في مسارات أخرى ، مما يجعل إجراء المزيد من التحليل صعبًا. . على سبيل المثال ، كما هو موضح في الشكل 1 ، لبناء شبكة تعبير مشترك لـ 3000 جين من الخميرة التي سنراها في القسم الفرعي التالي ، إذا سمحنا لـ 10٪ فقط من الجينات بعدم وجود اتصالات ، فإن معظم الجينات سيكون لديها أكثر من 300 اتصال ، بينما إذا قللنا الدرجة المتوسطة إلى 10 ، فإن أكثر من ثلث الجينات لن يكون لها أي اتصال على الإطلاق.

الدرجة المتوسطة وعدد العقد المفردة في شبكة التعبير المشترك الخميرة القائمة على القيمة. المحور الأفقي: عتبة معامل ارتباط بيرسون لبناء الشبكة على أساس القيمة. المحور الرأسي الأيسر: متوسط ​​عدد روابط التعبير المشترك لكل جين. المحور الرأسي الأيمن: عدد الجينات بدون ارتباط التعبير المشترك.

للتعامل مع هذه المشكلة ، نقترح طريقة بسيطة قائمة على الترتيب لبناء شبكات التعبير المشترك. نحسب أولاً معامل ارتباط بيرسون (أو بعض مقاييس التشابه الأخرى) بين كل زوج من الجينات. لكل جين ز أنا، فنحن نصنف جميع الجينات الأخرى حسب تشابهها مع ز أنا. ثم نربط كل جين بـ د الجينات التي تشبهها إلى حد كبير. بالمقارنة مع الطريقة القائمة على القيمة ، تستخدم الطريقة القائمة على الرتبة أساسًا عتبة تشابه محلية مختلفة لجينات مختلفة. من المهم أن نذكر أنه حتى مع وجود ملف د، فإن عدد الوصلات للجينات المختلفة ليس ثابتًا. هذا بسبب الطبيعة غير المتكافئة للترتيب. بمعنى آخر ، رتبة الجين أنا فيما يتعلق بالجينات ي لا يساوي بالضرورة رتبة الجين ي فيما يتعلق بالجينات أنا. لذلك ، على الرغم من الجينات أنا عنده فقط د الجينات على رأسها-د قائمة الجينات الأخرى غير الموجودة أناقد قائمة أنا كواحد من أفضلهم-د الجينات. متوسط ​​الدرجة بين د و 2د، الحد الأدنى للدرجة د، ويمكن أن تكون الدرجة القصوى كبيرة مثل ن - 1 ، مع ن كونه عدد الجينات في الشبكة.

قد يبدو أن الطريقة القائمة على التصنيف محدودة بسبب عيب مماثل للطريقة القائمة على القيمة - يستخدم الأول عتبة التصنيف العالمي والأخير يستخدم عتبة قيمة عالمية لجميع الجينات. ومع ذلك ، كما ناقشنا أعلاه ، في الشبكة القائمة على الرتبة ، يمكن أن يكون للجينات المختلفة عدد مختلف من الاتصالات ، على الرغم من أن جميع الجينات لها نفس عتبة الرتبة ، بسبب الطبيعة غير المتكافئة للترتيب. والأهم من ذلك ، أن هدفنا ليس التحديد الكل الجينات المعبر عنها بشكل مشترك لكل جين ، ولكن لبناء شبكة متفرقة بحيث يمكن تحديد الهيكل المعياري للنظام بنجاح. لتحقيق ذلك ، يجب أن تتمتع شبكة التعبير المشترك الجيدة بالخاصيتين التاليتين: (1) هناك عدد قليل جدًا من الاتصالات الإيجابية الخاطئة ، و (2) العقد داخل الوحدات النمطية متصلة جيدًا بمكون واحد ، بينما تكون الاتصالات بين الوحدات النمطية متناثر. لا يمكن للشبكة القائمة على القيمة أن توفر الخاصيتين في وقت واحد ، للأسباب المذكورة أعلاه. في المقابل ، فإن الفكرة الأساسية في طريقتنا القائمة على التصنيف هي أنه باستخدام قيمة صغيرة موحدة د، نحن نضمن أن (1) تحتوي الشبكة فقط على حواف موثوقة للغاية ، و (2) كل وحدة من وحدات الشبكة (تقريبًا) متصلة بالكامل بمكون واحد ، نظريًا وتجريبيًا (انظر أدناه). كما هو الحال في معظم خوارزميات التجميع ، نفترض أن التعبيرات الجينية في وحدات مختلفة يتم إنشاؤها بواسطة توزيعات مختلفة ، بينما يتم إنشاء التعبيرات الجينية في نفس الوحدة بواسطة توزيع مشترك (غير معروف). لذلك ، فإن الشبكة الفرعية للجينات القائمة على الرتبة من نفس الوحدة هي أقرب رسم بياني للجوار مبني على مجموعة من النقاط الهندسية العشوائية. نظريًا ، من المعروف أن الرسم البياني الأقرب للجوار على نقاط هندسية عشوائية لديه احتمالية عالية للاتصال حتى مع عدد صغير جدًا من الجيران (د) [31]. لاختبار هذا بشكل تجريبي وكذلك للعثور على نطاق د بالنسبة لبيانات المصفوفة الدقيقة النموذجية ، قمنا بشكل عشوائي بإنشاء مجموعة بيانات تحتوي على 1000 جين وأبعاد (ظروف) مختلفة باستخدام التوزيع الغاوسي. ثم أنشأنا شبكة تعبير مشترك قائمة على الرتبة باستخدام قيم مختلفة لـ د وقياس عدد المكونات غير المتصلة في الشبكة الناتجة. بشكل ملحوظ ، وجدنا أنه بالنسبة لبيانات البعد و GT 10 ، فإن أقرب رسم بياني للجوار يحتوي على 1000 عقدة دائمًا ما يكون مرتبطًا بشكل كامل بـ د = 2 جيران. حتى بالنسبة للبيانات ذات الأبعاد الأصغر ، يمكن توصيل الرسم البياني بأكثر من 4 جيران (الشكل 2). لا تختلف النتائج بشكل كبير عند تغيير عدد الجينات أو نوع التوزيع. في القسم الفرعي التالي ، نوضح أيضًا أن شبكة التعبير المشترك لجين الخميرة مرتبطة بـ د = 2. في الممارسة العملية نجد قيمة د ما بين 3 و 5 كافٍ لمعظم الحالات. يمكن أيضًا دمج طريقة إنشاء الشبكة البسيطة هذه مع الاستراتيجيات الأخرى التي تم تطويرها للشبكات القائمة على القيمة. على سبيل المثال ، يمكن تحسين قيم التشابه الخام من خلال مراعاة معلومات الجوار المحلي أو أقصر مسار قبل تحويل الرتبة [16] عند اختيار الحواف وفقًا للترتيب ، يمكن فرض حد على أساس قيم التشابه الخام في وقت واحد لضمان الثقة في الحواف التي يتم إنشاؤها . من الناحية المثالية ، يمكن أيضًا تطوير الأساليب لتحديد الخيار الأمثل تلقائيًا د، مثل [8]. يمكن أيضًا تطبيق الطريقة القائمة على الترتيب لإنشاء شبكات من الكيانات الأخرى ، طالما يمكن تحديد مقياس تشابه. أحد الأمثلة هو إنشاء شبكة من العينات من بيانات المصفوفة الدقيقة ، حيث تكون العقد عينات ويمكن قياس التشابه بين عينتين بواسطة معامل ارتباط بيرسون بين ملفات تعريف التعبير الجيني. سنعرض لاحقًا تطبيقًا لعينة من شبكة التعبير المشترك حيث تكون كل عينة عبارة عن نوع خلية.

اتصال شبكات التعبير المشترك القائمة على الترتيب على بيانات عشوائية. تحتوي كل مجموعة بيانات على 1000 نقطة هندسية عشوائية في عدد معين من الأبعاد ، تم إنشاؤها باستخدام التوزيع القياسي Gaussian. يُظهر المحور Y عدد المكونات غير المتصلة في شبكة التعبير المشترك التي تم إنشاؤها بواسطة النهج القائم على الرتبة.

طوبولوجيا شبكات التعبير المشترك للخميرة

قامت الدراسات السابقة بتحليل طوبولوجيا الشبكات المختلفة ، بما في ذلك الشبكات البيولوجية والاجتماعية ، واقترحت ثلاث خصائص طوبولوجية شائعة: خالية من المقاييس ، وعالم صغير ، ونمطية هرمية [26 ، 27 ، 32-34]. على الرغم من وجود جدل [35 ، 36] ، فمن المعتقد عمومًا أن هذه الخصائص قد تكون مرتبطة بقوة واستقرار الأنظمة الأساسية [26 ، 27 ، 32-34]. على سبيل المثال ، شبكة العالم الصغير لها قطر صغير ومعامل تجميع كبير (انظر الطرق) ، والذي يُعتقد أنه مرتبط بتدفق فعال ومنضبط للمعلومات [26 ، 34]. في شبكة خالية من المقاييس ، احتمالية امتلاك العقدة ك تتبع الحواف توزيع قانون القوة ، أي ص(ك) = ج × ك -γ . الآثار المترتبة على الخاصية الخالية من المقاييس هي أن عددًا قليلاً من العقد في الشبكة متصلة بشكل كبير ، وتعمل كمحاور ، في حين أن معظم العقد لديها درجات منخفضة. يُعتقد أن الشبكات الخالية من النطاق تكون قوية في مواجهة حالات الفشل العشوائية ، ولكنها عرضة للهجمات المتعمدة [27 ، 32]. بالمقارنة ، في شبكة عشوائية (على وجه التحديد ، شبكة Erdos-Renyi العشوائية [26]) ، تنتشر الاتصالات بشكل موحد تقريبًا عبر جميع العقد [26 ، 34]. علاوة على ذلك ، على الرغم من أن الشبكة العشوائية قد يكون لها أيضًا قطر صغير ، إلا أنها عادة ما يكون لها معامل تجميع قريب من الصفر [26 ، 34]. قامت العديد من الدراسات بتحليل شبكات التعبير المشترك للجينات القائمة على القيمة ، وقدمت بعض النتائج المثيرة للاهتمام ولكنها مثيرة للجدل [11-13 ، 25]. نقوم هنا بتحليل طوبولوجيا كل من الشبكات القائمة على التصنيف والشبكات القائمة على القيمة ، ومقارنتها بالنتائج السابقة.

حصلنا على مجموعة من بيانات التعبير الجيني للخميرة تم قياسها في 173 نقطة زمنية مختلفة في ظل ظروف إجهاد مختلفة [37] ، واخترنا 3000 جينًا أظهرت أعلى الاختلافات. قمنا ببناء أربع شبكات للتعبير المشترك للجينات باستخدام الطريقة القائمة على الترتيب مع د = 2 و 3 و 4 و 5 على التوالي. لكل شبكة قائمة على الرتبة ، أنشأنا شبكتين عشوائيتين على النحو التالي. أولاً ، قمنا بتبديل بيانات التعبير لكل جين بشكل عشوائي ، وقمنا ببناء شبكة قائمة على الرتبة باستخدام البيانات المخففة. ثانيًا ، قمنا بإعادة توصيل التوصيلات بشكل عشوائي في شبكة قائمة على الترتيب الحقيقي ، لكننا احتفظنا بالدرجة لكل عقدة [34]. للمقارنة ، قمنا أيضًا ببناء أربع شبكات قائمة على القيمة ، باستخدام معامل ارتباط بيرسون كمقياس تشابه. تم اختيار العتبات بحيث يكون متوسط ​​الدرجات 10 و 30 و 50 و 100 على التوالي في الشبكات الناتجة. على غرار الشبكات القائمة على الرتبة ، حصلنا على شبكتين عشوائيتين لكل شبكة قائمة على القيمة الحقيقية ، واحدة مبنية من بيانات متغيرة عشوائيًا والأخرى عن طريق إعادة توصيل الشبكة الحقيقية بشكل عشوائي.

يسرد الجدول 1 بعض الإحصائيات عن هذه الشبكات. في الشبكات القائمة على الرتبة ، ترتبط جميع الجينات تقريبًا بأكبر مكون بـ د صغيرة مثل 2. علاوة على ذلك ، بالمقارنة مع كل من الشبكات المعاد توصيلها عشوائيًا والشبكات التي تم إنشاؤها من البيانات التي تم تبديلها عشوائيًا ، فإن شبكات التعبير المشترك القائمة على الرتبة لها متوسط ​​أطوال وأقطار أكبر قليلاً ، ولكن معاملات التجميع أكبر بكثير ، مما يشير إلى أن تمتلك شبكات التعبير المشترك القائمة على الرتبة ملكية العالم الصغير. في المقابل ، تحتوي شبكات التعبير المشترك القائمة على القيمة الحقيقية على العديد من الأحرف الفردية. على سبيل المثال ، مع عتبة معامل ارتباط بيرسون 0.69 ، يكون حوالي 900 جينة مفردة ، على الرغم من أن متوسط ​​درجة العقدة أعلى بكثير مما هو عليه في الشبكات القائمة على الرتب. علاوة على ذلك ، على الرغم من أن الشبكات القائمة على القيمة لها معاملات تجميع عالية ، فإن نظيراتها المعاد توصيلها عشوائيًا لها معاملات تجميع عالية مماثلة تقريبًا. تشير هذه الملاحظة إلى أن معامل التجميع المرتفع للشبكات القائمة على القيمة يرجع جزئيًا إلى أن العقد غير المفردة متصلة بالكامل تقريبًا ، وفي هذه الحالة لا يمكن تدمير الهيكل بأي إعادة توصيل عشوائي.

يوضح الشكل 3 (أ) و 3 (ب) توزيعات الدرجة لهذه الشبكات. كما يتضح من العلاقة الخطية في مخطط السجل ، فإن الشبكات القائمة على الرتبة التي تم إنشاؤها من البيانات الحقيقية تعرض توزيعًا لدرجة قانون الطاقة لجميع د تعتبر القيم. يشير هذا إلى أن الهيكل العام الخالي من المقياس هو ميزة قوية إلى حد ما لشبكات التعبير المشترك. في المقابل ، تحتوي الشبكات التي تم إنشاؤها من بيانات التعبير الجيني التي تم تبديلها عشوائيًا على عدد أقل بكثير من العقد عالية الدرجة ، وتعرض توزيعات درجة أسية. يبدو أن الشبكات القائمة على القيمة تتبع توزيعات درجة قانون الطاقة أيضًا ، ومع ذلك ، فإن لديها عددًا أكبر بكثير من العقد ذات الدرجة العالية من الشبكات القائمة على الرتب.

الخصائص الطوبولوجية لشبكات التعبير المشترك. (أ) توزيع درجات شبكات التعبير المشترك القائمة على الرتب. (ب) توزيع درجات شبكات التعبير المشترك القائمة على القيمة. (ج) العلاقة بين معامل التجميع والدرجة في شبكات التعبير المشترك القائمة على الرتبة والقائمة على القيمة.

لتحديد الفرق بين توزيعات الدرجة للشبكات القائمة على القيمة والشبكات القائمة على الرتبة ، قمنا بتركيب وظيفة قانون الطاقة لتوزيع درجة كل شبكة لتحديدها γ معامل. قيم γ في الشبكات القائمة على الرتبة بشكل ثابت بين اثنين وثلاثة. هذا أمر نموذجي في العديد من الشبكات البيولوجية مثل شبكات PPI والشبكات الأيضية ، وكذلك في الشبكات الاجتماعية والتكنولوجية الواقعية [26 ، 34]. بالمقارنة ، فإن γ القيم في الشبكات القائمة على القيمة أقل من واحد (الشكل 3 ب). من الناحية النظرية ، من المعروف أن الشبكة الخالية من النطاق مع γ & lt 2 ليس لديه درجة متوسطة محدودة عندما ينمو حجمه إلى ما لا نهاية ، وتهيمن عليه العقد ذات الدرجات الكبيرة [26]. لذلك ، قيم صغيرة γ تم الإبلاغ عن شبكات التعبير المشترك في العديد من الدراسات السابقة كفرق كبير بين شبكات التعبير المشترك والشبكات البيولوجية الأخرى [15 ، 17]. تشير نتائجنا إلى أن هذا الاختلاف قد يكون مجرد قطعة أثرية لطريقة بناء الشبكة. ضع في اعتبارك أن الجينات في بعض الوحدات يتم التعبير عنها بقوة مع بعضها البعض ، في حين أن الجينات في بعض الوحدات الأخرى يتم التعبير عنها بشكل مشترك بشكل ضعيف. باستخدام الطريقة القائمة على القيمة ، عندما يتم تقليل قطع التشابه تدريجيًا ، سيتم أولاً توصيل الجينات الموجودة داخل الوحدات النمطية المعبر عنها بقوة ، إلى درجة أنها متصلة تمامًا تقريبًا ، قبل أي جين في الوحدات النمطية ضعيفة التعبير يمكن ربطها بشركائها داخل الوحدة. نتيجة لذلك ، سيكون لشبكة التعبير المشترك العديد من الجينات بدرجات كبيرة ، مما يؤدي إلى منحدر صغير في مخطط السجل. في المقابل ، مع الطريقة القائمة على الرتبة ، يمكن ربط الجينات في كل من الوحدات المعبر عنها بقوة وضعف ، حيث يتم استخدام عتبة تشابه مختلفة لكل جين. لذلك ، يمكن للشبكات القائمة على الرتب عادةً أن تلتقط طوبولوجيا كل من الوحدات النمطية القوية والضعيفة ، في حين أن الشبكات القائمة على القيمة غالبًا ما تهيمن عليها الوحدات النمطية المعبر عنها بقوة.

علاوة على ذلك ، أفادت الدراسات السابقة أن شبكات التعبير المشترك للجينات تفتقر إلى الخاصية المعيارية الهرمية [11 ، 12]. تتميز هذه الخاصية بعلاقة متبادلة بين درجة العقدة ومعامل التجميع الخاص بها [33]. مرة أخرى ، وجدنا أن هذا الادعاء ينطبق فقط على الشبكات القائمة على القيمة. كما هو مبين في الشكل 3 (ج) ، هناك علاقة متبادلة واضحة بين درجة العقدة ومعامل تجميع العقدة في الشبكات القائمة على الرتبة ، عند مقارنتها بالشبكات القائمة على القيمة. يشير هذا إلى أن شبكة التعبير الجيني المشترك يمكن أن يكون لها أيضًا هياكل هرمية.

تُظهر هذه التجارب معًا أن شبكات التعبير المشترك القائمة على الرتبة لها جميع الخصائص الطوبولوجية الشائعة للعديد من الشبكات البيولوجية الأخرى ، بينما يبدو أن الشبكات القائمة على القيمة تختلف اختلافًا كبيرًا. على الرغم من أن هذه لا تثبت بالضرورة أن الشبكات القائمة على الرتب أكثر أهمية من الناحية البيولوجية من الشبكات القائمة على القيمة ، يبدو أن الأولى قادرة على التقاط الهياكل الطوبولوجية الأساسية بشكل أفضل.

اكتشاف الوحدة وتحليلها في شبكات التعبير الجيني المشترك

يصعب تصور وفهم شبكات التعبير الجيني المشترك التي تحتوي على آلاف العقد. تتمثل الإستراتيجية المفيدة لتحليل مثل هذه الشبكة في تقسيمها إلى شبكات فرعية ، حيث تكون العقد الموجودة داخل كل شبكة فرعية متصلة بكثافة نسبيًا مع بعضها البعض ولكن لديها اتصالات أقل بالشبكات الفرعية الأخرى. في شبكات التعبير المشترك للجينات ، يمكن اعتبار هذه الشبكات الفرعية كمرشحين للوحدات الوظيفية ، حيث يتم التعبير عن الجينات داخل كل شبكة فرعية بشكل مشترك ، بينما يكون التعبير المشترك بين الجينات في الشبكات الفرعية المختلفة متناثرًا. تم تطوير العديد من خوارزميات تقسيم الرسم البياني في علوم الكمبيوتر [38]. على غرار التجميع ، تتمثل إحدى الصعوبات الرئيسية في تقسيم الرسم البياني في تحديد عدد الأقسام. لا تتطلب بعض الطرق تحديد ذلك صراحة مسبقًا ، ولكنها تتطلب معلمات أخرى يصعب الحصول عليها أيضًا. على سبيل المثال ، تتطلب MCL ، وهي واحدة من أفضل خوارزميات تقسيم الرسم البياني ، معلمة تضخم ، وقد يؤدي تعيين المعلمة إلى قيم مختلفة إلى نتائج مختلفة تمامًا [29].

لمعالجة هذه الصعوبة ، قدمنا ​​خوارزمية قمنا بتطويرها مؤخرًا لتحديد "المجتمعات" في الشبكات التعسفية [28]. الدافع الرئيسي للخوارزمية هو أن كل "مجتمع" ، أو شبكة فرعية ، يجب أن تحتوي على حواف داخل المجتمع أكثر مما هو متوقع بالصدفة إذا كانت الاتصالات عشوائية. مع هذا الدافع ، قمنا بتطوير خوارزمية لتحسين وظيفة موضوعية تسمى النمطية ، والتي يتم تعريفها بدقة على أنها النسبة المئوية للحواف داخل المجتمع مطروحًا منها التوقع العشوائي (انظر الطرق). الخوارزمية المسماة Qcut، أثبت فعاليته في العثور على أقسام الرسم البياني ذات الدلالة الإحصائية والمثيرة للاهتمام عمليًا في العديد من الشبكات التركيبية والشبكات الاجتماعية والشبكات البيولوجية ، دون أي معلمات يمكن ضبطها بواسطة المستخدم ، وقد تفوق على الخوارزميات الموجودة بناءً على دوافع مماثلة [28].

نحن نقيم أداء Qcut على شبكات التعبير الجيني المشترك بعدة طرق. نستخدم أولاً بيانات المصفوفات الدقيقة الاصطناعية حيث يُعرف الهيكل المعياري الحقيقي ، حتى نتمكن من قياس الدقة مباشرةً. ثم نستخدم مجموعتين من بيانات المصفوفات الدقيقة الحقيقية لتقييم الأهمية البيولوجية الشاملة لوحدات الجينات المحددة ، بمقياسين مختلفين. المقياس الأول هو نهج شائع الاستخدام يعتمد على إثراء مصطلحات محددة لعلم الجينات في الوحدات ، والتي قد تكون متحيزة بعدد الوحدات وأحجام الوحدات. والثاني هو مقياس جديد قدمناه بناءً على فكرة الشبكات المرجعية ، والتي يمكن الحصول عليها من مجموعة متنوعة من المصادر ، مثل التعليقات التوضيحية للجينات أو شبكات تفاعل البروتين البروتين (انظر الطرق).

التقييم باستخدام بيانات ميكروأري الاصطناعية

لتقييم دقة الوحدات التي تم اكتشافها بشكل موضوعي Qcut، قمنا باختباره على مجموعة كبيرة من بيانات التعبير الجيني الاصطناعي. تم استخدام مجموعات البيانات المتاحة على الموقع http://www.biostat.pitt.edu/bioinfo/publication.htm لتقييم العديد من خوارزميات التجميع في دراسة سابقة [39]. تحتوي كل مجموعة بيانات على بيانات تعبير محاكية لما يقرب من 600 جين تحت ظروف 50. تم تخصيص كل جين مسبقًا لواحدة من خمسة عشر مجموعة ، وكان للجينات الموجودة في نفس المجموعة ملفات تعريف تعبيرية تم إنشاؤها من التوزيع العادي للسجل العادي. ثم تمت إضافة الضوضاء الغوسية إلى مجموعة البيانات لمحاكاة الضوضاء التجريبية. يؤدي المستوى الأعلى من الضوضاء الغوسية عمومًا إلى صعوبة تجميع البيانات. نظرًا لأن المجموعات الصحيحة معروفة ، استخدمنا مقياسًا معروفًا يسمى مؤشر Rand المعدل لقياس دقة Qcut (انظر الطرق) [40].

قمنا أولاً بمقارنة دقة Qcut على شبكات التعبير المشترك التي تم إنشاؤها بواسطة ثلاث طرق: القائمة على القيمة ، والقائمة على الرتبة ، و CLR [19]. استخدمنا المسافة الإقليدية كأساس لقياس الاختلاف بين جينين. بالنسبة للطريقة القائمة على القيمة ، قمنا بتطبيع المسافة لتكون بين 0 و 1 ، وقمنا ببناء سلسلة من شبكات التعبير المشترك لكل مجموعة بيانات باستخدام قيم عتبة مختلفة. كما هو مبين في الشكل 4 (أ) ، فإن العتبة التي تؤدي إلى أفضل دقة في التجميع تختلف باختلاف مجموعة البيانات. لمزيد من البيانات المزعجة ، يلزم تعيين قيمة حد أكبر ، مما يشير إلى أن اختيار عتبة صحيحة أمر بالغ الأهمية للطريقة القائمة على القيمة. على النقيض من ذلك ، فإن طريقة CLR من خلال تحويل المسافات الأولية إلى درجات z ، وإزالة هذه التبعية بشكل فعال ويتم تحقيق أفضل دقة في التجميع عند نفس الدرجة z التي تساوي 2 ، المقابلة للقيمة p 0.05 ، لجميع مجموعات البيانات (الشكل 4 ب). ومن المثير للاهتمام ، بالنسبة للطريقة القائمة على الرتبة ، أن دقة التجميع ثابتة تقريبًا بالنسبة إلى قطع الرتب بين 2 و 8 (الشكل 4 ج). يوضح الشكل 4 (د) أفضل دقة يمكن تحقيقها على الأنواع الثلاثة للشبكات. كما يتضح ، من الواضح أن الشبكات القائمة على الرتب تتمتع بأعلى دقة للمستويات المتوسطة من الضوضاء (SD = 0.4 أو 0.8). بالنسبة للبيانات ذات الضوضاء الأقل ، نتج عن الطرق الثلاث دقة مثالية ، وبالنسبة لمجموعة البيانات ذات أعلى مستوى من الضوضاء (SD = 1.2) ، تتقارب الطرق الثلاث مع نفس الدقة تقريبًا. بعد ذلك قمنا بمقارنة دقة التجميع لـ Qcut على الشبكات القائمة على الترتيب مع العديد من خوارزميات التجميع المستخدمة على نطاق واسع بما في ذلك ك- يعني التجميع ، والتكتل الهرمي [1] ، والتكتل المحكم [39] ، المطبق مباشرة على بيانات التعبير الجيني دون اشتقاق شبكات التعبير المشترك. في هذا الاختبار ، Qcut تم تطبيقه على شبكات التعبير المشترك القائمة على الرتبة التي تم إنشاؤها باستخدام د قيم تساوي 4. بالإضافة إلى ذلك ، قمنا أيضًا باختبار واحدة من أفضل خوارزميات تقسيم الرسم البياني تسمى خوارزمية Markov Clustering (MCL) [29] ، والتي يتم تطبيقها على الشبكات القائمة على الترتيب أيضًا. نظرًا لأن نتائج MCL تعتمد بشكل كبير على اختيار معامل التضخم (أنا) ، طبقنا MCL على الشبكات القائمة على الرتبة التي تم إنشاؤها باستخدام د ثابت في 4 ، لكنه متنوع أنا من 1.3 إلى 1.7 ، بزيادة قدرها 0.1 ، وتم أخذ أفضل دقة تجميع ناتجة عن هذه المعلمات. استخدمنا تطبيق MATLAB (شركة MathWorks) لملف ك- الوسائل وخوارزميات التجميع الهرمي. ك-يعني التجميع تم تشغيله باستخدام ك يساوي 15 ، وتكرر 50 مرة لكل مجموعة بيانات للحصول على أفضل النتائج. تم إجراء التجميع الهرمي باستخدام متوسط ​​الارتباط ، وتم قطع شجرة الكتلة النهائية على عمق مناسب لتوليد 15 مجموعة. تم الحصول على دقة التجميع المحكم مباشرة من الدراسة الأصلية التي أجريت على نفس مجموعة البيانات [39]. تظهر نتائج التقييم لدينا أنه ، حتى بدون ضبط المعلمة ، Qcut تفوقت على الخوارزميات المنافسة في تحديد الهياكل المعيارية الحقيقية المضمنة في بيانات المصفوفات الدقيقة الاصطناعية. كما هو مبين في الشكل 5 ، دقة التجميع Qcut من الواضح أنه أفضل من التجميع الهرمي والتكتل الضيق. دقة Qcut مشابه ل ك- يعني ، باستثناء مجموعات البيانات ذات أعلى مستوى من الضوضاء. قد تمثل مجموعة البيانات التركيبية ذات أعلى مستوى من الضوضاء حالة قصوى في الممارسة العملية ، حيث لا يمكن تمييز العديد من المجموعات في مجموعة البيانات هذه بصريًا (الشكل S1 في ملف إضافي 1). لكن، ك- يعني تحقيق هذه الدقة مع إعطاء عدد من العناقيد صراحةً ، بينما Qcut لم يكن لديك هذه المعلومات على الإطلاق. في مجموعات البيانات التركيبية هذه ، يكون عدد المجموعات هو أهم عامل واحد و كمن المتوقع أن تعمل الوسائل بشكل جيد عندما يُعرف ذلك. حاولنا الجمع ك- يعني مع العديد من الطرق الشائعة لتحديد عدد المجموعات تلقائيًا ، بما في ذلك إحصاء الفجوة [41] و Silhouette [42] ومؤشر دان [43]. نتائجنا تشير إلى أنه إذا كانت قيم ك يتم تحديدها تلقائيًا ، ك-يعتبر أضعف بكثير من طريقتنا ، خاصة بالنسبة لمجموعات البيانات ذات SD ≥ 0.4 (الشكل 5). نتائج MCL ذات شقين. من ناحية ، عند اختيار معامل تضخم مناسب (أنا = 1.5 في هذه التجربة) ، تتمتع MCL بدقة مماثلة لتلك الخاصة بـ Qcut، باستثناء مجموعة البيانات ذات أعلى ضوضاء ، مما يشير إلى أداء متفوق للخوارزميات القائمة على الرسم البياني بشكل عام. من ناحية أخرى ، تعتمد دقة MCL على اختيار معامل التضخم ، وقد تكون أقل بكثير من خوارزميات التجميع إذا تم استخدام معلمة تضخم دون المستوى الأمثل (البيانات غير معروضة).

تأثير طرق بناء الشبكة على دقة التجميع في Qcut. (أ) دقة التجميع على الشبكات القائمة على القيمة ، كدالة لقطع المسافة. (ب) دقة التجميع على شبكات التعبير المشترك CLR ، كدالة لقطع Z- النتيجة. (ج) دقة التجميع على الشبكات القائمة على الرتب ، كدالة لتقليص الرتب. (د) أفضل دقة في التجميع على الأنواع الثلاثة للشبكات ، التي تم إنشاؤها باستخدام عمليات القطع المثلى. في جميع المخططات الأربعة ، تكون كل نقطة بيانات في المتوسط ​​على نتائج 100 مجموعة بيانات ميكروأري اصطناعية.


نقاش

تنتج الدراسات الجينومية قواعد بيانات كبيرة من المعلومات الجزيئية عن السرطانات وأنواع الخلايا والأنسجة الأخرى. كما هو معترف به عالميًا ، تمثل قواعد البيانات هذه فرصة لا مثيل لها للتقدم الصيدلاني. يتمثل التحدي في ربط البيانات بعمليات اكتشاف الأدوية وتطويرها. قدم نهج "كثيف المعلومات" 6 الذي تمت صياغته منذ عدة سنوات (بواسطة أحد المؤلفين والزملاء الحاليين) مخططًا لطريقة مثمرة واحدة لمواجهة هذا التحدي. لقد وفرت طريقة لتنظيم الأهداف العلاجية المحتملة والربط بينها ، والآليات الجزيئية لعمل المركبات المختبرة ومعدلات النشاط داخل خطوط الخلايا السرطانية. كما اقترحت طريقة لعرض المعلومات الجينومية على الخلايا المستخدمة للاختبار من خلال أنماط نشاط المركبات للخصائص الهيكلية الجزيئية لتلك المركبات. 6 ومع ذلك ، لم يتم متابعة هذا الاقتراح ، ولم يتم تحويله إلى منهجية جيدة للاستكشاف أو إلى حزمة برامج للقيام بذلك. كان المطلوب هو وسيلة لربط المعلومات الجينومية (أو البروتينية) مع التنقيب في البيانات القائمة على البنية لتوفير رؤى مثمرة للمتابعة في دراسات التركيب والنشاط التجريبي. قدمنا ​​هنا مثل هذه الطريقة ، استنادًا إلى نظام قاعدة البيانات العلائقية المخطط في الشكل 1. تم تضمين مستويات التعبير الجيني لـ 3748 جينًا في 60 خطًا خلويًا (T-matrix) ، وقيم النشاط لـ 4463 مركبًا في 60 خط خلية (A-matrix) ) ، والمؤشرات الثنائية لحدوث 27000 سمة هيكلية في 4463 مركبًا (S-matrix). كمثال لإثبات المبدأ على النهج ، استخدمناه لتحديد الفئات الفرعية من الكينونات المرتبطة جيدًا بالجينات التي يتم التعبير عنها بشكل انتقائي إما في الأورام الميلانينية أو في سرطان الدم. يتبع مناقشة موجزة لهذه العوامل وارتباطاتها الجينومية.

من بين 4463 مركبًا في مجموعة NCI المستخدمة في هذا التحليل ، 462 (10.4٪) عبارة عن كينونات أو كينونيمينات أو ميثيدات كينون. إن آليات التسمم الخلوي بالكينون 49،50،51 معقدة ومتنوعة. ومع ذلك ، هناك مساران رئيسيان راسخان. أولاً ، تعمل الكينونات كجزيئات نشطة الأكسدة والاختزال يمكن أن تخضع إما لتخفيضات 1 أو 2 إلكترون ، اعتمادًا على البيئة الخلوية. تتضمن آلية الحد من 1 إلكترون تدوير الأكسدة والاختزال بين حالات الكينون والسيميكينون الجذرية ، مما يؤدي إلى استهلاك NADH وتشكيل جذور الهيدروبيروكسي. اعتمادًا على البيئة الخلوية ، يمكن تشكيل أنواع الأكسجين التفاعلية الأخرى ، بما في ذلك الأكسيدات الفائقة وبيروكسيدات الهيدروجين وجذور الهيدروكسيل. يمكن أن تسبب هذه الأنواع التفاعلية ، بدورها ، أكسدة الدهون والأكسدة وانكسارات الخيوط في الحمض النووي ، واستهلاك المكافئات المختزلة (على سبيل المثال ، NAD (P) H أو الجلوتاثيون) ، وأكسدة الجزيئات الكبيرة الأخرى. في المسار الثاني ، تعمل الكينونات غير المعوقة كمستقبلات مايكل ، مما يتسبب في تلف الخلايا من خلال ألكلة الثيول أو المجموعات الأمينية من الجلوتاثيون والبروتينات والحمض النووي. على سبيل المثال ، يخضع Mitomycin C و E09 للألكلة المختزلة 53 بواسطة آليات تتضمن فتح حلقة aziridinyl.

في هذه الدراسة ، وجدنا أن العديد من الجينات التي يتم التعبير عنها بشكل انتقائي في الأورام الميلانينية لها أنماط تعبير مرتبطة جيدًا بأنماط نشاط فئة فرعية من البنزوديثيوفينيديون مجمعات سكنية. تظهر هذه الفئة تأثير بديل مميز: بإنزوديثيوفينيديونيُظهر es مع بدائل قوية لسحب الإلكترون (على سبيل المثال ، NSC 682991 انظر الشكل 5) ارتباطًا منخفضًا أو سلبيًا مع العديد من الجينات التي يتم التعبير عنها بشكل مفرط في الأورام الميلانينية (انظر الجدول 4 أ) ، في حين أن الأعضاء الذين لديهم بدائل متبرعة بالإلكترون (على سبيل المثال ، NSC 656238) تظهر ارتباطات إيجابية عالية مع تلك الجينات. على سبيل المثال ، NSC 656238 أقوى بعشر مرات ضد خطوط خلايا الورم الميلاني مقارنة بـ NSC 682991. تزيد بدائل سحب الإلكترون مثل مجموعات النيترو من إمكانية الاختزال في جزء الكينون ، مما يجعلها مؤكسدة أفضل مما هي عليه في المركبات ذات الإلكترون- مجموعات التبرع. فرضية معقولة عن السمية الخلوية لـ a البنزوديثيوفينيديون هو أنه قد يعطل عملية الأكسدة الخلوية الأساسية. تتوافق هذه الفرضية مع أدوار الجينات التي يتم التعبير عنها بشكل مفرط في الأورام الميلانينية. خاصه، رب 7 31،32،33 هو الجين الأكثر ارتباطًا بالتبرع بالإلكترون البنزوديثيوفينيديون. على سبيل المثال ، معامل الارتباط مع NSC 656238 هو 0.67. الجينات في راب العائلة عبارة عن بروتينات ربط GTP صغيرة تضمن خصوصية الالتحام لحويصلات النقل. خاصه، رب 7 تم تحديده مؤخرًا باعتباره بروتينًا تنظيميًا رئيسيًا لتجميع ودمج الجسيمات الحالة الداخلية المتأخرة. الخلايا التي تعبر عن سالب - سالب رب 7 متحولة لا تشكل مجاميع ليسوزومية. 31 تُظهر الليزوزومات المشتتة درجة حموضة أعلى بشكل حاد ، ويفترض أن ذلك يرجع إلى تعطل مضخة البروتون الفراغية. ومن المثير للاهتمام ، في هذا السياق ، أن هناك جينًا آخر وثيق الصلة بـ NSC 656238 هو ACP5 (ص = 0.51). ACP5 (Clone ID 127821) عبارة عن غشاء ليسوزومي فريد من نوعه ATPase مسؤول عن الحفاظ على الرقم الهيدروجيني. العديد من البروتينات الليزوزومية الأخرى مرتبطة جيدًا أيضًا بالتبرع بالإلكترون البنزوديثيوفينيديون. اثنين من ATPases الأخرى ، ATP6B2 (معرّف النسخ 380399) و ATP6E (معرف النسخ 417475) ، لهما معاملات ارتباط 0.40 و 0.46 ، على التوالي ، مع NSC 656238. تم الإبلاغ عن كل من هذه ATPases لتكون lysosomal H + الناقلات. تظهر الجينات الليزوزومية الأخرى ، ASAH (معرف الاستنساخ 417819) و LAMP2 (357407) ، أيضًا ارتباطات عالية (0.50 و 0.40 ، على التوالي) مع هذا الكينون. وبالتالي ، يبدو أن الجينات المرتبطة جيدًا بفئة الكينون هذه تكون غنية بالبروتينات الليزوزومية التي تشارك في نشاط مضخة البروتون الفراغية.

يشير هذا التأثير البديل إلى وجود صلة محتملة بين إمكانات الأكسدة للكينون ومضخة البروتون وسلسلة نقل الإلكترون. الفرضية المعقولة هي أن NSC656238 قد يعمل كعامل مؤكسد بديل في سلسلة نقل الإلكترون. Ubiquinone-10 هو متقبل الإلكترون للفسفرة المؤكسدة للميتوكوندريا. يُظهر Menadione (2-methylnaphthoquinone) ، وهو مركب معروف بأنه يتنافس مع ubiquinone في سلسلة الفسفرة المؤكسدة ، أيضًا ارتباطًا معقولًا مع رب 7 (ص = 0.40). تُعرف إمكانات اختزال ميناديون ويوبيكوينون ، 57،58 ولكن لم يتم الإبلاغ عن إمكانات الاختزال لـ NSC656238. نتوقع أن إمكاناته المؤكسدة تسمح له بالتنافس بنجاح مع يوبيكوينون في سلسلة نقل الإلكترون ، كما يفعل ميناديون. قد تكون القدرة المؤكسدة لشق الكينون عاملاً رئيسياً في مثل هذه الآلية. على الرغم من أن المركب NSC 682991 هو مؤكسد أفضل ، إلا أنه يمكن تقليله بواسطة عوامل الحماية الخلوية مثل الجلوتاثيون. وبالتالي ، عند التركيزات المنخفضة ، قد لا يكون متاحًا للتنافس مع يوبيكوينون ، وبالتالي قد يكون فعالًا فقط عند التركيزات الأعلى.

لقد أوضحنا طريقة لمزاوجة المعلومات حول التعبير الجيني التفاضلي مع التنقيب في البيانات القائمة على الهيكل. يوفر النهج رؤى قد تسمح بالاستهداف الانتقائي للآليات الخلوية التي تعمل بشكل تفضيلي في أنسجة معينة. ال البنزوديثيوفينيديون السلسلة التي خرجت من هذه الدراسة هي مثال واضح. هذه سلسلة محددة جيدًا ومتجانسة هيكليًا من الكينونات ، والتي ترتبط ارتباطًا وثيقًا بأنماط التعبير عن رب 7 وجينات سرطان الجلد الأخرى.يشير التأثير البديل الذي شوهد في هذه السلسلة إلى وجود علاقة بين إمكانات الأكسدة للمركب وارتباطه بأنماط التعبير عن جينات معينة. تثير هذه العلاقة أسئلة جديدة يمكن متابعتها تجريبيًا: هل هناك علاقة كمية بين إمكانات الأكسدة في البنزوديثيوفينيديون سلسلة وسرطان الجلد السمية؟ إذا كان الأمر كذلك ، فهل هناك علاقة مباشرة بين السمية الخلوية الانتقائية لـ NSC 656238 و رب 7 أو ال ATPases التي يتم التعبير عنها بشكل مفرط في الأورام الميلانينية؟ لا تسمح البيانات المتوفرة حاليًا بالإجابات على هذه الأسئلة ، ولكن التحليلات الموصوفة هنا تقدم دليلًا غير مباشر على الروابط التي يمكن اختبارها في دراسات التركيب والنشاط التجريبية.

في هذه المقالة ، وصفنا طريقة تحليلية عامة ، تسمى SAT ، لاكتشاف العلاقات بين الفئات المركبة والأهداف الجزيئية المحتملة. تستخدم الطريقة تقنيات إحصائية لتحديد الجينات ذات أنماط التعبير المميزة ، ثم تطبق برمجيات استخراج البيانات القائمة على الهيكل لتحديد الفئات الهيكلية المركبة التي ترتبط ارتباطًا وثيقًا بأنماط التعبير لتلك الجينات. يمكن بعد ذلك استخدام أعضاء محددين من الفئة المحددة كمسابير جزيئية لتحديد ارتباطات الجينات المركبة الإضافية وبالتالي تحسين الفرضيات أو التركيز على مزيد من التجارب. تعرض هذه الطريقة شبه التجريبية المعلومات الجينومية من الخلايا من خلال أنماط النشاط المركب إلى السمات الهيكلية الجزيئية للأدوية أو الأدوية المحتملة. ويمكنه أيضًا القيام بالعكس ، وتحديد الجينات التي ترتبط مستويات تعبيرها (أو خصائصها الأخرى) ارتباطًا وثيقًا بالسمات الهيكلية لعقار معين ، أو مرشح لعقار معين. يمكن أن يسلط نهج SAT للتحليل الجيني الدوائي الضوء على الآليات الجزيئية ولديه القدرة على تسريع عملية اكتشاف الدواء بعدة طرق: (1) يمكن استخدامه لتحديد أولويات الجينات لدراسات المتابعة كأهداف علاجية محتملة (2) لأنه يعرض التحليل المعلومات الجينومية للبنية التحتية الجزيئية من خلال المصفوفة [S] ، ويسمح باستخراج العلاقة الأولية بين البنية والنشاط (SAR) مباشرة من ارتباطات SAT (3) يمكن استخدام SAR الأولي بدوره لتطوير الصيد الدوائي المبكر أو لاختيار الأدوية المرشحة الجديدة غير المختبرة من مكتبة فعلية أو افتراضية للمركبات و (4) يمكن استخدامها لتحديد أولويات المركبات المرشحة لتحليل التعبير الجيني المفصل أو الدراسات البيولوجية الأخرى.


التعبير والمصادقة التفاضلية

التعبير التفاضلي.

يعد تحديد الجينات التي يتم التعبير عنها تفاضليًا في ظل حالتين علاجيتين أو أكثر هدفًا أساسيًا لمعظم دراسات المصفوفات الدقيقة. تتمثل المسألتان الرئيسيتان في تقييم التعبير التفاضلي في تحديد طريقة لتقييم مدى التعبير التفاضلي (على سبيل المثال ، تغيير الطية ، ر-test، ANOVA) وتعديل الطريقة لتأثيرات المقارنات المتعددة ، نظرًا لوجود آلاف الجينات التي تتم دراستها عادةً. يقترب التعبير التفاضلي تقليديًا من جين واحد في كل مرة (على سبيل المثال ، تغيير الطية ، ر-test ، ANOVA). تتمثل إحدى النقاط المهمة في ضعف الاعتماد على تغيير الطية كمعيار وحيد ، نظرًا لأن تغيير الطية لا يأخذ في الاعتبار التباين في البيانات. هذا يمكن أن يؤدي إلى مشكلتين. أولاً ، يمكن تحديد الجينات ذات مستويات التعبير المنخفضة مع التغييرات الكبيرة في الطيات والتنوع العالي على أنها معبر عنها بشكل تفاضلي. ثانيًا ، قد يتم تفويت الجينات التي تظهر تغييرات صغيرة ولكنها قابلة للتكاثر (أي تقلبية منخفضة) في التعبير الجيني. كانت هناك بعض الجهود لدمج التباين في الأساليب التي تعتمد على تغيير أضعاف (41) ، ولكن هذه لا تزال تعاني من صعوبات في تقييم معدلات الخطأ. أيضًا ، تم اقتراح طرق Bayes التجريبية التي تقلص التقديرات الفردية للتباين نحو قيمة مشتركة لتحسين سلوك ر- الإحصاء في العديد من إعدادات الجينات (19). في الآونة الأخيرة ، تم اقتراح عدد من الطرق عالية الأبعاد لاستخدام بنية التغاير للمساعدة في تحديد الجينات المعبر عنها تفاضليًا. وتشمل هذه الشبكة المرنة (68) ، والتسوية الموجهة بالتدرج (21) ، والبحث المتعدد إلى الأمام (44). يعد ترتيب النقط الوسطى المنكمش عن طريق الإسقاطات المتعامدة (SCOOP) طريقة جديدة لا تزال قيد الاختبار ، مع توفر كود R من J. S. Verducci.

مقارنات متعددة ومعدل اكتشاف خاطئ.

مسألة المقارنات المتعددة أكثر تعقيدًا. من الناحية المثالية ، يجب أن يكون احتمال وجود إيجابية خاطئة (الجين الذي تم تحديده بشكل غير صحيح على أنه معبر تفاضليًا) ضئيلًا ، ويجب أن يكون احتمال تحديد الجينات التي يتم التعبير عنها تفاضليًا كبيرًا. يتم إعداد طرق إحصائية قياسية لموازنة هذه الأهداف في سياق مقارنة واحدة فقط ، أي إذا احتوت المصفوفة الدقيقة على جين واحد فقط. بدون تعديل ، تعطي الطرق الإحصائية القياسية نتائج غير صحيحة في سياق بيانات المصفوفات الدقيقة. على سبيل المثال ، ضع في اعتبارك دراسة ميكروأري باستخدام م الجينات ، وافترض أنه لم يتم التعبير عن أي منها بشكل تفاضلي. لقيم مختلفة من م، وهو احتمال تعيين أداة إحصائية قياسية لرفض الفرضية الصفرية إذا أ ص القيمة & lt0.05 ستنتج على الأقل إيجابية خاطئة واحدة معطاة في الجدول 1. نظرًا لأن معظم المصفوفات الدقيقة تحتوي على آلاف الجينات ، فمن الواضح أن الطرق الإحصائية القياسية غير مقبولة.

الجدول 1. تزداد احتمالية وجود إيجابي كاذب واحد على الأقل بسرعة حيث أن الرقم لا. يزيد م من الفرضيات

طريقة Bonferroni هي طريقة بسيطة لتصحيح الاختبارات المتعددة التي لا تزال مستخدمة على نطاق واسع في تحليل بيانات المصفوفات الدقيقة (43). هذه الطريقة تقسم فقط ص القيمة المقطوعة بعدد الجينات م. على سبيل المثال ، إذا كان احتمال وجود خطأ إيجابي واحد على الأقل يقتصر على 0.01 ، وهناك م = 5000 جين على المصفوفة ، فإن طريقة Bonferroni تحدد الجين على أنه معبر تفاضليًا إذا كان ص كانت القيمة & lt0.01 / 5،000 = 0.000002. على الرغم من أن هذه الطريقة قابلة للتطبيق بشكل عام ، إلا أنها عادة لا تكون اختيارًا جيدًا لدراسات المصفوفة الدقيقة لأنها تتمتع بقدرة منخفضة جدًا ، أي أن احتمال تحديد الجينات المعبر عنها تفاضليًا بشكل صحيح ضئيل جدًا ، لذلك قد يتم تفويت العديد من الجينات التي يحتمل أن تكون مثيرة للاهتمام. لهذا السبب ولأسباب أخرى ، تمت الدعوة إلى معايير مختلفة عن احتمال وجود إيجابي كاذب واحد على الأقل. أكثرها واعدًا هو معدل الاكتشاف الخاطئ (FDR) (7 ، 65). FDR هو النسبة المتوقعة للإيجابيات الخاطئة بين جميع الفرضيات المرفوضة. بدلاً من محاولة تجنب أي نتائج إيجابية خاطئة ، يتحكم FDR في نسبة المكالمات الإيجابية التي تعتبر إيجابية كاذبة. يعد تصميم إجراءات التحكم في FDR أمرًا صعبًا. تعمل التقنية الأصلية لبنيجاميني وهوتشبيرج (6) ، للتحكم في FDR عند المستوى α ، على النحو التالي. أولا، ص يتم حساب القيم لكل من م الجينات و ص يتم ترتيب القيم من الأصغر إلى الأكبر. ثانياً ، أمر ص يتم رسم القيم مقابل ترتيبها جنبًا إلى جنب مع الخط ذي المنحدر α /م واعتراض الصفر. الاخير ص القيمة ، على سبيل المثال ص* ، الذي يقع أسفل الخط يلاحظ. هذه القيمة (ص*) لرفض الفرضيات المقابلة للكل ص قيم أقل من أو تساوي ص*. لقد ثبت أن إجراء Benjamini-Hochberg يتحكم في FDR وفقًا لافتراضات معينة حول بنية الاعتماد على مستويات تعبير الجينات (6). يتم استخدام هذا الإجراء على نطاق واسع وتوصي به الجمعية الفسيولوجية الأمريكية (13). لسوء الحظ ، هناك العديد من دراسات المصفوفات الدقيقة التي لا تغطيها الافتراضات الكامنة وراء خوارزمية Benjamini-Hochberg. وبالتالي ، هناك الكثير من العمل في المجتمع الإحصائي الذي يهدف إلى تطوير طريقة للتحكم في FDR تكون قابلة للتطبيق بشكل عام أكثر من طريقة Benjamini-Hochberg الأصلية. تم تحليل طريقة واعدة تعتمد على تقنية التمهيد مؤخرًا (48 ، 60 ، 61). ومع ذلك ، فإن هذه الطريقة تحقق FDR بشكل مقارب. وبالتالي فهي غير مناسبة للدراسات التي تتضمن أعدادًا صغيرة (على سبيل المثال ، 4-5) من المصفوفات.

تحديد حجم العينة اللازمة للتحكم في FDR.

عند التخطيط للتجربة ، هناك قراران رئيسيان يجب اتخاذهما بشأن المصفوفات الدقيقة: 1) العدد الإجمالي للمصفوفات الدقيقة التي يجب استخدامها و 2) النسبة التي سيتم استخدامها للتكرار البيولوجي مقابل التكرار التقني. يعتمد القرار الأول عادةً على الميزانية والثاني على موثوقية المصفوفات الدقيقة المستخدمة. السؤال الحقيقي هو ما إذا كانت التجربة المخطط لها فرصة واقعية لاكتشاف وتحديد العمليات البيولوجية المهمة. في الآونة الأخيرة ، تم تقديم إجراء نظري للقرار (46) حيث تكون دالة الخسارة النموذجية عبارة عن مجموع مرجح لـ FDR ومعدل سلبي كاذب نظيره (FNR). الفكرة هي رسم الخسارة المتوقعة مقابل حجم العينة والحكم على ما إذا كان يمكن تحقيق القيمة المرغوبة باستخدام حجم عينة واقعي. يتم تقدير الخسارة المتوقعة من خلال محاكاة بيانات التعبير وتسجيل سلوك طريقة Benjamini-Hochberg.


ما البرنامج / النهج الذي يجب استخدامه لبناء رسم بياني يعتمد على ارتباط التعبير الجيني للمصفوفة الدقيقة؟ - مادة الاحياء

ErmineJ: أداة للتحليل الوظيفي لمجموعات بيانات التعبير الجيني

6 1269 http://www.biomedcentral.com/1471-2105/6/269

2005 Lee et al المرخص له BioMed Central Ltd. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0) ، والذي يسمح بالاستخدام والتوزيع والاستنساخ غير المقيد بأي وسيلة ، بشرط الاستشهاد بالعمل الأصلي بشكل صحيح.

من الشائع أن يتم تحليل نتائج دراسة المصفوفة الدقيقة في سياق مجموعات الجينات ذات الدوافع البيولوجية مثل المسارات أو فئات علم الوجود الجيني. تستخدم الطريقة الأكثر شيوعًا لمثل هذا التحليل التوزيع الهندسي الفائق (أو تقنية ذات صلة) للبحث عن "التمثيل الزائد" للمجموعات بين الجينات المختارة على أنها معبر عنها بشكل تفاضلي أو ذات أهمية على أساس تحليل الجين على حدة. ومع ذلك ، فإن هذه الطريقة تعاني من بعض القيود ، ولم يتم الإبلاغ عن الأدوات الصديقة للبيولوجيا التي تنفذ البدائل.

نقدم ErmineJ ، أداة برمجية قائمة بذاتها سهلة الاستخدام ومتعددة الأنظمة لتحليل مجموعات الجينات ذات الصلة وظيفيًا في سياق بيانات التعبير الجيني للمصفوفة الدقيقة. تنفذ ErmineJ خوارزميات متعددة لتحليل مجموعة الجينات ، بما في ذلك التمثيل الزائد والطرق القائمة على إعادة أخذ العينات التي تركز على درجات الجينات أو ارتباط ملفات تعريف التعبير الجيني. بالإضافة إلى واجهة المستخدم الرسومية ، يحتوي ErmineJ على واجهة سطر أوامر وواجهة برمجة تطبيق يمكن استخدامها لأتمتة التحليلات. تتضمن واجهة المستخدم الرسومية أدوات لإنشاء مجموعات الجينات وتعديلها ، وتصور علم الوجود الجيني كجدول أو شجرة ، وتصور بيانات التعبير الجيني. يأتي ErmineJ مع دليل مستخدم كامل ، وهو برنامج مفتوح المصدر مرخص بموجب رخصة Gnu العامة.

إن توفر خوارزميات التحليل المتعددة ، جنبًا إلى جنب مع مجموعة ميزات غنية وواجهة رسومية بسيطة ، يجب أن تجعل من ErmineJ إضافة مفيدة إلى مجموعة أدوات المعلوماتية لعلماء الأحياء. ErmineJ متاح من http://microarray.cu.genome.org.

إن الصعوبة التي يواجهها العديد (إن لم يكن جميع) مستخدمي المصفوفات الدقيقة للتعبير الجيني تجعل النتائج المعقدة منطقية. بعد تحليل كل جين في مجموعة البيانات ، غالبًا ما يُترك المجرب لمهمة تلخيص النتائج بمساعدة قليلة. من الشائع أن يطرح المجربون أسئلة على مستوى المسارات الجزيئية أو مجموعات الجينات الأخرى ذات الصلة وظيفيًا. بينما يعد التعليق التوضيحي اليدوي "المخصص" لمجموعات البيانات نهجًا شائعًا ، إلا أن هناك مزايا عديدة لاستخدام نهج حسابي وإحصائي لتحليل مجموعات الجينات.

تم توفير الإصدار الأول من ermineJ في عام 2003. لقد قمنا مؤخرًا بتجديد واجهة المستخدم بالكامل وتحديث مجموعة الميزات ، وأصدرنا ermineJ 2.0 في أكتوبر 2004 و 2.1 في يونيو 2005.

هناك عدد من المعلمات لتعيين والقرارات التي يجب على المستخدم اتخاذها من أجل تشغيل البرنامج. يعد اختيار طريقة التحليل هو الأكثر وضوحًا ، ولكل طريقة بعض الإعدادات الأخرى التي يمكن للمستخدم أن يختار تغييرها. على سبيل المثال ، لتحليل ORA ، يجب تحديد درجة الحد. هذا على عكس معظم حزم برامج ORA التي تأخذ كمدخلات قائمة بـ "الجينات ذات الأهمية" بدلاً من ذلك ، يأخذ ermineJ كمدخل جميع درجات الجينات للتجربة. يتيح هذا لـ ermineJ تجنب مشكلة اختيار مجموعة الجينات "الفارغة" 3 الصحيحة: يتم تعريفها بدقة من خلال الجينات التي تم تحليلها في التجربة ولكنها لا تلبي حد النتيجة المحدد بواسطة المستخدم.

بالنسبة لـ GSR ، فإن الطريقة المستخدمة لحساب النتيجة لمجموعة الجينات هي معلمة رئيسية. الخياران المدعومان حاليًا هما الوسيط والوسيط. أثناء التحليل ، تستخدم GSR الطريقة المختارة لحساب ملخص لدرجات الجينات لكل مجموعة جينات أعيد تشكيلها أو حقيقية ، وتستخدم هذه النتيجة الإجمالية لتمثيل مجموعة الجينات. يميل اختيار الوسيط إلى الحصول على نتائج أكثر تحفظًا بعض الشيء ، حيث لا يتم إعطاء الجينات الفردية ذات الدرجات العالية جدًا نفس الأهمية كما في الحساب المتوسط.

تُستخدم بعض الإعدادات لطرق متعددة. على سبيل المثال ، عندما يتم تمثيل الجين أكثر من مرة في مجموعة البيانات ، يجب اتخاذ قرار بشأن كيفية التعامل مع هذه "التكرارات" (والتي قد لا تكون مكررة بحد ذاتها ولكنها تمثل نسخًا مختلفة). الخيارات المدعومة هي استخدام الدرجة "الأفضل" بين التكرارات لتمثيلها كمجموعة لاستخدام الوسط أو معاملتها ككيانات منفصلة. استخدام الخيار "الأفضل" هو إلى حد ما مناهض للمحافظة ، ولكنه معقول عندما تكون معظم "التكرارات" تقوم في الواقع بمعايرة كيانات بيولوجية مختلفة. في المقابل ، لا يُنصح عمومًا بمعالجة التكرارات بشكل منفصل تمامًا لأنها يمكن أن تؤدي إلى نتائج إيجابية زائفة في حالات التكرارات الحقيقية ، حيث يتم "غش" مجموعة الجينات بنسخ متعددة من نفس الجين عالي الدرجات. لهذا السبب ، لا يتوفر الخيار الأخير من واجهة المستخدم الرسومية ، على الرغم من أنه يمكن الوصول إليه من الواجهات الأخرى. إعداد آخر مهم هو مجموعة أحجام مجموعة الجينات لتحليلها. من غير المحتمل أن تكون مجموعات الجينات الصغيرة جدًا مفيدة للغاية ، لأن الهدف من التحليل هو دراسة الجينات في مجموعات ، في حين أن مجموعات الجينات الكبيرة قد تكون غير محددة جدًا لتوفير معلومات مفيدة. بالإضافة إلى ذلك ، فإن تحليل عدد كبير جدًا من مجموعات الجينات يقلل من قوة التحليل بسبب تكاليف الاختبار المتعددة. من الناحية العملية ، غالبًا ما نستخدم نطاقًا من 5 & # 8211100 أو 5 & # 8211200.

بالإضافة إلى مجموعات الجينات المحددة مسبقًا على النحو المحدد بواسطة Gene Ontology ، يتمتع المستخدمون بحرية إدخال مجموعات الجينات الخاصة بهم. يتم تعريف هذه في ملفات نصية بسيطة يتم وضعها في دليل يتحقق ermineJ عند بدء التشغيل. يمكن إنشاء هذه الملفات النصية "خارج الخط" أو داخل واجهة المستخدم الرسومية ermineJ. بالإضافة إلى ذلك ، يمكن للمستخدمين تعديل مجموعات الجينات من داخل ermineJ. يمكن استخدام هذه الوظيفة لتصحيح الأخطاء أو الإغفالات في التعليقات التوضيحية لـ Gene Ontology ، على الرغم من أنه يجب توخي الحذر لتجنب إدخال التحيزات في النتائج.

ترتبط طرق ORA و GSR و ROC ارتباطًا وثيقًا من حيث أنها تستند إلى درجات الجين تلو الجين ، بهدف إيجاد مجموعات الجينات التي تكون إلى حد ما "غنية" بالجينات عالية الدرجات (والتي قد تكون عادةً "تفاضلية" الجينات المعبر عنها "). يستخدم ORA أحيانًا لتحليل الجينات التي يتم اختيارها عن طريق التجميع ، بدلاً من النتيجة المستمرة. في هذه الحالة ، GSR و ROC غير مناسبين. ومع ذلك ، فإن طريقة الارتباط مصممة خصيصًا لمعالجة هذا الموقف. تتمتع GSR و ROC بميزة عدم طلب عتبة لتقسيم الجينات إلى جينات "مختارة" و "غير منتقاة". يمكن أن يكون لاختيار عتبة ORA تأثير كبير على النتائج التي تم الحصول عليها ، لأن "الجينات المختارة" تتغير 4.

يعتمد تحليل ارتباط المجموعة الجينية (GCA) على تشابه ملامح تعبير الجينات في مجموعة الجينات: إذا تحدثنا بشكل فضفاض ، إلى أي مدى "يتجمعون معًا". وبالتالي نقترح أنه يمكن استخدام GCA كبديل لاستخدام ORA لتحليل المجموعات. هناك بعض الاختلافات التي يجب ملاحظتها بين التطبيق النموذجي لـ ORA على المجموعات وتحليل ارتباط ermineJ. GCA تتمحور حول المجموعة ، وليس تتمحور حول الكتلة. وهكذا نسأل ما إذا كانت العلاقة بين الأعضاء أعلى مما هو متوقع عن طريق الصدفة ، وليس ما إذا كانت مجموعة معينة من الجينات المرتبطة مخصبة للجينات في المجموعة GCA لا تنطوي على التجميع. هذا ليس تمييزًا تافهًا ، لأنه في حين سيتم الحصول على أعلى الدرجات للمجموعات الجينية التي لها ارتباطات موحدة وعالية بين جميع الأعضاء ، يمكن للمجموعات التي تحتوي على "مجموعتين فرعيتين" أو أكثر أن تحصل أيضًا على درجات عالية. في التنفيذ الحالي لـ GCA ، يتم دائمًا استخدام القيمة المطلقة للارتباط ، مما يسمح بذلك. في الإصدارات المستقبلية ، قد نكشف عن هذا كخيار قابل للتعيين بواسطة المستخدم ، بالإضافة إلى تنفيذ مقاييس ارتباط أخرى محتملة بخلاف ارتباط بيرسون الحالي.

في جميع الطرق ، لكل مجموعة جينية تم تحليلها ، يحسب ermineJ درجة ، وبناءً على هذه الدرجة وحجم مجموعات الجين ، تمثل قيمة p "أهمية" مجموعة الجين فيما يتعلق بفرضية العدم. يعتمد تعريف النتيجة الأولية والفرضية الصفرية على الطريقة المستخدمة. لاحظ أن الدرجات الأولية محدودة الاستخدام لأنه لا يمكن تقييمها في حالة عدم وجود معلومات حول حجم مجموعة الجينات. ومع ذلك ، يمكنهم تزويد المستخدم بمؤشر مفيد لقوة النتيجة ، وليس فقط أهميتها الإحصائية.

معظم مستخدمي ermineJ سيصلون إليه من خلال واجهته الرسومية. تم تصميم واجهة المستخدم الرسومية لـ ermineJ لتكون سهلة الاستخدام وتوفر "معالجات" لتوجيه المستخدمين من خلال المهام الشائعة مثل إجراء تحليل. يتم تذكر العديد من الإعدادات التي أجراها المستخدم أثناء تشغيل البرنامج بين الجلسات ، مما يسهل التحليل المتكرر لنفس ملفات البيانات والحفاظ على أحجام النوافذ المفضلة للمستخدم ، على سبيل المثال. يتم توفير دليل كامل ويمكن الوصول إليه من خلال وظيفة المساعدة عبر الإنترنت ، كصفحات ويب على موقع الويب الخاص بنا ، أو بتنسيق مستند محمول (PDF).

بعض جوانب واجهة المستخدم الرسومية ermineJ موضحة في الأشكال 1 ، 2 ، 3. يمكن عرض اللوحة الرئيسية للبرنامج إما كجدول لمجموعات الجينات (الشكل 1 أ) أو في طريقة عرض هرمية (شجرة) (الشكل 1 ب). ترتبط وجهات النظر هذه بحيث تنعكس التغييرات في إحداها في الأخرى. لتسهيل التنقل بين هذه المعروضات ، يمكن البحث عن مجموعات الجينات باسم مجموعة الجينات أو بأسماء الجينات التي تحتوي عليها. يتم عرض مجموعات الجينات المعرفة من قبل المستخدم بألوان متباينة. لا يظهر في الأشكال شاشة بدء التشغيل الأولية التي يختار فيها المستخدم ملف التعليق الجيني لاستخدامه في الجلسة.

أ: اللوحة الرئيسية لـ ErmineJ بعد إجراء العديد من التحليلات

أ: اللوحة الرئيسية لـ ErmineJ بعد إجراء العديد من التحليلات.مجموعات الجينات المختارة عند مستويات منخفضة من FDR موضحة باللون. ب: لوحة عرض الشجرة في ErmineJ ، توضح القدرة على تصفح مجموعات الجينات في التسلسل الهرمي GO. الرموز الموجودة في كل عقدة لها معاني محددة. على سبيل المثال ، تشير أيقونة "عين الثور" الصفراء إلى أن مجموعات الجينات المحددة في FDR تبلغ 0.05 أو أقل. يشير الماس الأرجواني إلى العقد التي تحتوي على عقد فرعية "مهمة".

عرض تفاصيل مجموعة الجينات. تسمح أدوات التحكم الموجودة في الجزء العلوي بضبط حجم وتباين خريطة الحرارة. يتم عرض درجات الجينات (في هذه الحالة قيم p) في عمود النص الثاني. يُظهر الرسم البياني باللونين الرمادي والأزرق ، المعروض فقط للتجارب التي تستخدم القيم p ، التوزيع المتوقع (الرمادي) والفعلي (الأزرق) لقيم p في مجموعة الجينات. يتم توفير هذا العرض كوسيلة مساعدة إضافية لتقييم النتائج. يوفر العمودان الأخيران معلومات حول كل جين. يمكن للمستخدم تكوين أهداف الارتباطات التشعبية.

أمثلة على شاشات من ErmineJ Wizards

أمثلة على شاشات من ErmineJ Wizards. أ: معالج التحليل. يوضح هذا خيارات لتعيين نطاق أحجام مجموعة الجينات المراد تحليلها ، وطريقة معالجة "نسخ" الجينات. انظر النص للحصول على تفاصيل هذا الأخير. ب: معالج تعديل مجموعة الجينات. في هذه الشاشة ، يقوم المستخدم باختيار الجينات المراد حذفها من مجموعة الجينات. قائمة جميع المجسات المتوفرة على المنصة متاحة في اللوحة اليسرى. تعمل وظيفة "البحث" على تبسيط موقع الجينات والمجسات.

يؤدي النقر المزدوج على مجموعة الجينات في اللوحة الرئيسية إلى فتح نافذة جديدة تعرض الجينات في مجموعة الجينات ، جنبًا إلى جنب مع ملفات تعريف التعبير في طريقة عرض "خريطة الحرارة" (إذا قدم المستخدم بيانات الملف الشخصي الشكل 2). يمكن تكوين مظهر الخريطة الحرارية من خلال القوائم وعناصر التحكم في شريط الأدوات. يمكن حفظ البيانات المعروضة في الجدول ، وكذلك صورة المصفوفة ، على القرص باستخدام خيارات قائمة إضافية. يمكن تكوين الارتباطات التشعبية لمواقع الويب الخارجية من قبل المستخدم للإشارة إلى موقع ويب من اختياره ، مرة أخرى من خلال خيار القائمة. كل هذه القدرات متاحة حتى لو لم يقم المستخدم بإجراء أي تحليل ، لذلك يمكن استخدام ErmineJ "كمتصفح مجموعة الجينات" وكذلك للتحليل.

من السمات المهمة لواجهة المستخدم الرسومية القدرة على تحديد مجموعات الجينات وتحريرها بسرعة ، وهو ما يتم إنجازه في "معالج" يأخذ المستخدم خلال العملية المحددة خطوة بخطوة. بدلاً من ذلك ، يمكن للمستخدم ببساطة ملء دليل مجموعة الجينات بالملفات التي حصلوا عليها من مصادر أخرى ، على سبيل المثال تم إنشاؤها بكميات كبيرة باستخدام نص برمجي Python أو تم الحصول عليها من مستخدم آخر. بقدر ما نعلم ، لا توجد أداة تم مسحها بواسطة 3 تتيح للمستخدم القدرة على تحديد الفئات أو تعديلها. يسمح ErmineJ أيضًا للمستخدم باختيار أي من جوانب GO (العملية البيولوجية ، وما إلى ذلك) لاستخدامها في التحليل.

يمكن تثبيت إصدار واجهة المستخدم الرسومية لـ ermineJ على كمبيوتر المستخدم أو تشغيله عبر Java WebStart. يتضمن الخيار الأخير ببساطة النقر فوق ارتباط في متصفح الويب الخاص بالمستخدم ، ويضمن حصول المستخدمين على أحدث إصدار من البرنامج. عيب استخدام WebStart هو أنه يجب على المستخدم الاتصال بالإنترنت لاستخدام البرنامج. مع التثبيت المحلي ، لا يلزم الاتصال بالإنترنت.

إجراء تحليل باستخدام واجهة المستخدم الرسومية ErmineJ يتضمن استخدام "معالج" لتعيين المعلمات (الشكل 3). يُطلب من المستخدم اختيار طريقة التحليل ، وتحديد ملف البيانات للتحليل ، واختيار أي مجموعات جينات محددة بواسطة المستخدم لتضمينها في التحليل ، وتعيين المعلمات المختلفة المطلوبة للتحليل المعين. يتم توثيق جميع الإعدادات عبر "تلميحات الأدوات" وفي الدليل.

بمجرد بدء التحليل ، يتم إبلاغ المستخدم بالتقدم المحرز عبر شريط الحالة. يمكن إلغاء التحليل في أي وقت. عند الانتهاء ، يتم إضافة النتائج إلى طرق العرض الجدولية والشجرة (الشكل 1). يمكن عرض نتائج متعددة في وقت واحد في العرض الجدولي ، مما يتيح مقارنة سهلة للتشغيلات المختلفة. يمكن أن تعرض طريقة العرض الشجري مجموعة نتيجة تحليل واحدة فقط في المرة الواحدة ، ولكنها توفر قائمة منسدلة يمكن تحديدها من بين مجموعات النتائج المراد عرضها. في عرض الشجرة والجداول ، يتم تمييز مجموعات الجينات عالية الدرجات (أي المهمة) بالألوان. يستخدم عرض الشجرة نظامًا بسيطًا من الرموز لكل عقدة للإشارة إلى ما إذا كانت العقدة المهمة موجودة داخل عقدة ذات مستوى أعلى. أخيرًا ، يمكن حفظ نتائج التحليل في ملف محدد بعلامات جدولة لاستخدامها في برامج أخرى أو إعادة تحميلها بواسطة ermineJ في وقت لاحق.

بالإضافة إلى واجهة المستخدم الرسومية ، يقدم ermineJ واجهة سطر أوامر (CLI) وواجهة برمجة تطبيقات بسيطة (API). يعرض CLI بعض ميزات ermineJ غير المتوفرة في واجهة المستخدم الرسومية ، مثل الطرق المختلفة لتصحيح الاختبار المتعدد. CLI مناسب للكتابة النصية لـ ermineJ. على سبيل المثال ، يمكن استخدام نص برل بسيط لأتمتة عمليات تشغيل ermineJ بإعدادات مختلفة أو على مجموعات بيانات مختلفة. في المقابل ، تم تقديم API للسماح للمبرمجين بتضمين التحليلات المتوفرة في ermineJ في برامجهم الخاصة. توفر واجهة برمجة التطبيقات (API) حاليًا وصولاً محدودًا إلى وظائف البرنامج أكثر من إصدار سطر الأوامر ، ولكن سيتم توسيعها في الإصدارات المستقبلية.

اختبرنا أداء ermineJ باستخدام تصميم مصفوفة Affymetrix HG-U133_Plus_2. هذا تصميم صفيف كبير بشكل خاص مع أكثر من 54000 مجموعة مجسات ، ويمثل شيئًا من سيناريو أسوأ الحالات فيما يتعلق بالأداء. مع مجموعة التعليقات التوضيحية الحالية لدينا ، تتوفر 4844 فئة مختلفة من فئات GO (مجموعات الجينات) للتحليل في تصميم المصفوفة هذا. لقد قصرنا تحليلنا على مجموعات الجينات التي تحتوي على ما بين 5 و 100 جين ، تاركين حوالي 2700 مجموعة جينية. الأوقات المذكورة أدناه هي لتحليل المجموعة الكاملة التي تضم أكثر من 54000 مجموعة مسبار فيما يتعلق بهذه المجموعات الجينية البالغ عددها 2700 على جهاز كمبيوتر محمول بنتيوم 1.7 جيجاهرتز.

باستخدام هذه المصفوفة ، يمتلك ermineJ مرحلة بدء تشغيل أولية تستغرق 15 & # 821120 ثانية ، ويتم استهلاك معظمها بالوقت الذي تستغرقه قراءة ملف التعليق التوضيحي الجيني ومعالجته للتحليل. يعتمد وقت التحليل بمجرد اكتمال بدء التشغيل على الطريقة المستخدمة. بالنسبة لـ ORA ، يتم الانتهاء من تحليل كامل في 8 ثوانٍ (متوسط ​​3 مرات تشغيل هي ساعة حائط ثانية موقوتة من داخل البرنامج). في حين أنه من الصعب مقارنة معاييرنا بشكل مباشر مع المعايير التي تم نشرها سابقًا لأن عدد مجموعات الجينات التي تم تحليلها ولم يتم الإبلاغ عن حجم مجموعة الجينات "الفارغة" ، وقد تتضمن الأوقات التي تم الإبلاغ عنها في بعض الحالات أوقات بدء التشغيل الأولية 3 ، وهي الأسرع تم الإبلاغ عن الطرق على أكبر مجموعات البيانات التي تم اختبارها لتحليلات ORA المكتملة في أقل من 10 ثوانٍ. يشير هذا إلى أن ErmineJ قادر على المنافسة على الأقل وربما أسرع من الأدوات التي تم الإبلاغ عنها مسبقًا.

استغرق تحليل GSR حوالي 370 ثانية إذا تم إجراء إعادة أخذ عينات كاملة (100000 تجربة إعادة أخذ عينات لكل حجم مجموعة جينات في اختباراتنا). ومع ذلك ، يقوم ermineJ بتنفيذ تقريب ، حيث يتم استخدام إعادة تشكيل محدودة لتقدير معلمات التوزيع الطبيعي. يستخدم هذا الوضع الطبيعي لحساب قيم p لكل مجموعة جينات. كما أنها تستفيد من أنه ، خاصة بالنسبة لأحجام الفصول الكبيرة ، يكون شكل التوزيع المعاد تشكيله مشابهًا جدًا لأحجام الفصول المتشابهة ، لذلك لا يلزم حسابها جميعًا. في هذا الوضع يستغرق التحليل حوالي 80 ثانية. استغرق تحليل ROC ، الذي لا يتضمن إعادة التشكيل ، حوالي 100 ثانية. تحليل الارتباط هو أكثر طرق إعادة التشكيل كثافة من الناحية الحسابية حتى مع تمكين التقديرات التقريبية ، حيث يستغرق حاليًا حوالي 400 ثانية للتشغيل على مجموعة بيانات الاختبار (التي تحتوي على 12 مصفوفة ميكروية). وذلك لأن الارتباطات الحاسوبية مكثفة من الناحية الحسابية ، مقارنة بالطرق التي تستخدم درجات الجينات المحسوبة مسبقًا مثل قيم p.

يستهلك ErmineJ ذاكرة كبيرة إلى حد ما ، لأنه يحتفظ في الذاكرة بهيكل بيانات معقد يصف التعليقات التوضيحية ، بالإضافة إلى بيانات المصفوفات الدقيقة والمعلومات حول النتائج لآلاف مجموعات الجينات وعشرات الآلاف من الجينات. بالنسبة لتصميم HG-U133_Plus_2 الكبير ، بعد بدء التشغيل ، يحتل ermineJ ما يقرب من 85 ميجا بايت من ذاكرة الوصول العشوائي (تم تحديده باستخدام ملف تعريف كومة Java ضمن Windows). بعد إجراء تحليل الارتباط ، نما هذا إلى 105 ميجا بايت ، مما يعكس تحميل مجموعة ملف تعريف التعبير الكامل والنتائج. لذلك نوصي بتشغيل ermineJ على الأجهزة التي تحتوي على ذاكرة وصول عشوائي لا تقل عن 256 ميجا بايت.

حتى كتابة هذه السطور ، الإصدار الحالي من ermineJ هو 2.1.6. تشمل الميزات الجديدة المخططة للبرنامج توسيع API والسماح بإنشاء أكثر مرونة لمجموعات الجينات المعرفة من قبل المستخدم ، بما في ذلك السماح بدعم التسميات البديلة مثل Plant Ontology 17. نخطط أيضًا لتوفير ملفات التعليقات التوضيحية لمزيد من الأنظمة الأساسية والكائنات الحية.

ErmineJ هو تطبيق مفتوح المصدر سريع وكامل الميزات وسهل الاستخدام ومتعدد المنصات لتحليل مجموعات الجينات. يقوم بتنفيذ خوارزميات متعددة لإجراء التحليل ، ويسمح بتعديل سهل وإنشاء مجموعات جينية جديدة. توفر هذه الميزات للمستخدمين مرونة كبيرة في اختبار الأساليب والمعلمات المختلفة. ربما يكون أكبر قيود حاليًا على قابليتها للاستخدام في هذا التاريخ هو توفر ملفات التعليقات التوضيحية الجينية لتصميمات مصفوفة غير مصفوفة لم نواجهها كثيرًا. يجب على المستخدمين الذين يرغبون في تطوير ملفات التعليقات التوضيحية لمنصتهم الأساسية الاتصال بنا للحصول على المساعدة.

التوفر والمتطلبات

اسم المشروع: ارميني

الصفحة الرئيسية للمشروع: http://microarray.cu-genome.org/ermineJ/

أنظمة التشغيل): منصة مستقلة

لغة برمجة: جافا

متطلبات اخرى: يوصى باستخدام Java 1.4 أو أعلى بسعة 256 ميجابايت من ذاكرة الوصول العشوائي.

رخصة: GNU GPL و LPGL للمكتبة المساعدة.

أي قيود للاستخدام من قبل غير الأكاديميين: لا أحد

ORA: تحليل التمثيل الزائد

GSR: إعادة تشكيل النقاط الجينية

ROC: خاصية مشغل جهاز الاستقبال

GCA: تحليل ارتباط مجموعة الجينات

GSEA: تحليل إثراء مجموعة الجينات

واجهة المستخدم الرسومية: واجهة المستخدم الرسومية

API: واجهة برمجة التطبيقات

CLI: واجهة سطر الأوامر

كان PP هو قائد المشروع والمهندس الرئيسي للبرنامج ، وساهم في الكود المصدري. ساهم كل من HKL و WB و KK في شفرة المصدر.

نشكر Shahmil Merchant و Edward Chen للمساهمات في إصدار مبكر من ErmineJ ، و William Noble لدعم تطوير الأساليب ، ونيل سيغال لتوفير بيانات المصفوفة الدقيقة المستخدمة في لقطات الشاشة. نشكر أيضًا المختبرين والمستخدمين الذين قدموا تقارير الأخطاء والاقتراحات من أجل التحسينات.

علم الجينات: أداة لتوحيد علم الأحياء. اتحاد علم الوجود الجيني

التحليل الوجودي لبيانات التعبير الجيني: الأدوات الحالية والقيود والمشاكل المفتوحة

مقارنة تحليلات التعليقات التوضيحية الوظيفية مع Catmap

استكشاف بيانات التعبير الجيني مع درجات الصف

استخدام علم الوجود الجيني لاستخراج بيانات المصفوفة الدقيقة: مقارنة بين الأساليب والتطبيق لتأثيرات العمر في قشرة الفص الجبهي البشري


أساليب

إعداد البيانات وتكاملها

لأغراض تحليلنا ، قمنا باستخراج بيانات التعبير من العديد من عينات Affymetrix Human Genome U133 Plus 2.0 Array Chip ، على النحو التالي:

باستخدام برنامج PHP النصي ، تم تنزيل وتحليل ملفات Simple Omnibus Format in Text (SOFT) من عينات GPL570 أو الأنظمة الأساسية البديلة الموجودة في مستودع GEO [15]. تم البحث في العنوان والخصائص عن كلمات رئيسية مثل "صحي" أو "طبيعي" أو "نسيج" أو "تحكم" وعينة كائن من أجل "الانسان العاقل". بالإضافة إلى ذلك ، تم اختيار جميع العينات العادية من قاعدة بيانات ميكروأري البشرية المنسقة يدويًا M 2 DB [35] ، على النحو التالي: من موقع M 2 DB ، اخترنا فقط عينات فردية لمنصة Human U133 plus 2.0 ، ولم نطبق أي ترشيح إضافي لمراقبة الجودة. من بينها ، تم اختيار عينات جيو "عادية" فقط من الخصائص السريرية "حالة المرض".

تمت قراءة التعليقات التوضيحية لجميع العينات المختارة يدويًا وتم الاحتفاظ فقط بعينات من الأفراد الأصحاء أو الأنسجة السليمة المجاورة للعينات المرضية. تم استبعاد العينات من سلالات الخلايا المزروعة أو الأنسجة المرضية أو الأفراد المعالجين دوائياً. تم تصنيف كل عينة يدويًا وفقًا لاسم نسيجها أو عضوها.

بعد تنزيل ملفات الكثافة الأولية (CEL) للعينات المختارة من GEO ، تم إجراء مراقبة الجودة باستخدام برنامج نصي PHP الذي فحص الملفات الأولية بحثًا عن أخطاء في قيم كثافة المجس. في حين أن غالبية الملفات كانت بتنسيق CEL الإصدار 3 ASCII ، كان عددًا كبيرًا منها بتنسيق CEL الإصدار 4 الثنائي وكان لا بد من تحويلها إلى تنسيق الإصدار السابق باستخدام محول apt-cel ، وهو برنامج من Affymetrix Power Tools (apt -1.14.4) حزمة البرامج [36]. حلل برنامج نصي PHP جميع ملفات ASCII CEL وفحص كل قيمة شدة لتحقيقات 1164 × 1164 لكل شريحة لكونها ضمن نطاق القيمة المقبولة (0-65535). قام البرنامج النصي أيضًا بربط جميع قيم شدة المسبار في سلسلة واحدة لكل شريحة. تم استخدام هذه السلسلة كمدخلات لـ MD5 (RFC 1321) و SHA-1 (RFC 3174) و CRC32 [37] خوارزميات التجزئة وتم تجميع مخرجاتها كسلسلة واحدة ، والتي كانت بمثابة توقيع مميز لشدة المسبار لكل العينة ، من أجل تصفية شبكات GSM المكررة. تم إنتاج قائمة بنظم GSM الفريدة واختيار نص PHP للعينات بشكل متساوٍ قدر الإمكان ، من بين جميع الأنسجة / الأعضاء وسلسلة عينات GSE.

لإنشاء قيمة واحدة تعكس مقدار كل نسخة في الحل والتي تتوافق مع مجموعة التحقيق ، تم استخدام apt-mas5 ، تنفيذ Affymetrix Power Tools لخوارزمية MAS5.0 [38] ، مع ملف وصف رقاقة Affymetrix الافتراضي (CDF ) (HG-U133_Plus_2.cdf). تم تحويل ملفات الإخراج Apt-mas5 (CHP) إلى ASCII باستخدام محول apt-chp-to-txt من مجموعة Affymetrix Power Tools. بعد ذلك ، تم تطبيع البيانات للسماح بعينات مختلفة لتكون قابلة للمقارنة ، على النحو التالي: تم استبعاد مجموعات مجسات التحكم ذات البادئة AFFX من التحليل وتم تطبيع باقي مجموعات التحقيق 54613 بشكل تافه باستخدام الإجراء القياسي Affymetrix حيث تم مضاعفة جميع قيم الإشارة بواسطة عامل قياس تم حسابه عن طريق إزالة أعلى وأسفل 2٪ من قيم الإشارة ، ثم حساب قيمة تضبط متوسط ​​الـ 96٪ المتبقية إلى 500. أخيرًا ، تم تقريب جميع قيم الإشارة إلى أقرب 0.5.

تم إثراء كل مسبار في قاعدة البيانات الخاصة بنا بالتعليقات التوضيحية التي تم جمعها من مصادر البيانات المختلفة: تم جمع البيانات الجينومية ، مثل رموز وأوصاف جينات لجنة تسمية الجينات HUGO ، من ENSEMBL [39] ، مصطلحات GO من قاعدة بيانات علم الجينات [40] ، الإنزيم أرقام المفوضية (EC) ومعلومات المسار من KEGG [41] ، وبيانات توقيع البروتين من InterPro [42] ، والأنماط الظاهرية الجينية من OMIM [43 ، 44] والمتوقعة رابطة الدول المستقلة معلومات العنصر عن طريق دمج بيانات TransFac [45] و ENSEMBL [39].

تحليل المروج

تم جمع التسلسلات التنظيمية من 500 نقطة أساس قبل المنبع لمواقع بدء النسخ (TSSs) لجميع الجينات من ENSEMBL [39] وتمت مقارنتها مع مصفوفات موضع الوزن لعامل النسخ (PWMs) من TransFac [45] باستخدام خوارزمية MATCH [46] وهي أداة قائمة على مصفوفة الوزن للبحث عن مواقع ربط عامل النسخ المفترض في تسلسل الحمض النووي. في حالتنا ، تم ضبط قطع التشابه الأساسي والمصفوفة على 0.95 و 0.90 على التوالي لزيادة التشدد.

تحليل احصائي

معامل ارتباط بيرسون (ص-value) بين مجموعتين من المجسات على أنها التغاير بين مجموعتي المجسات مقسومًا على ناتج انحرافاتهما المعيارية ويتم حسابها على النحو التالي:

أين ص س ، ص هو معامل ارتباط بيرسون ، ن هو عدد تجارب ميكروأري و x أنا و ذ أنا هي شدة إشارة مجموعات المجسات x و ذ في ال أنا التجربة ال. ص- تتراوح القيم بين -1 و +1 موجبة ص- تتوافق القيم مع مجموعات التحقيق المترابطة والقيم السالبة لمجموعات التحقيق المضادة المرتبطة والقيم القريبة من الصفر إلى غير المترابطة. تتمثل إحدى الطرق الفعالة حسابيًا لتفسير ارتباط بيرسون في التعبير عنها على أنها متوسط ​​حاصل ضرب المتغيرات المعيارية [47]:

حيث z x i و z y i هما المتغيران المعياريان لشدة إشارة مجموعات المجسات x و ذ في ال أنا التجربة ال.

بافتراض أن الارتباط بين ملفات تعريف التعبير خطي تقريبًا ، ر والتي يتم توزيعها في الفرضية الصفرية (بدون ارتباط) مثل فرضية الطالب ر- التوزيع مع ν = ن- درجتان من الحرية ، يمكن حسابهما على النحو التالي [48]:

مستوى الأهمية ذو الوجهين ص س ، ص، من خلال دالة احتمالية توزيع الطالب [49]:

لحساب العينات المتعددة ، ص- تم تصحيح قيم Bonferroni [50] ، على النحو التالي:

أين هـ- يتم تصحيح القيم Bonferroni ص- القيم. الزوجي ص- و هـ- تم تخزين القيم في قاعدة بيانات MySQL.

التحليل العنقودي

أنشأنا مصفوفة ارتباط متماثل ص (س ، ص) بين جميع مجموعات التحقيق المخزنة في قاعدة البيانات. مصفوفة الارتباط الكل مقابل الكل لها حجم م xم أين م = 54613 هو عدد مجموعات التحقيق. عبرنا عن الشبكة كمصفوفة مسافة د (س ، ص) حيث يتم حساب كل قيمة على أنها د (س ، ص) = 1-ص (س ، ص). تم تخزين بيانات مصفوفة المسافة كملف بتنسيق Phylip [51] وقمنا بتطبيق خوارزمية ربط الجوار (NJ) [52] لتجميع البيانات. تأخذ الخوارزمية ملف Phylip كمدخلات وتقوم ببناء شجرة هرمية متجذرة بتنسيق Newick. تعد خوارزمية نيوجيرسي فعالة من الناحية الحسابية نظرًا لتعقيدها متعدد الحدود [53] وبالتالي يمكن تطبيقها على مجموعات بيانات كبيرة جدًا. اخترنا تنفيذ Quick Join [54] الذي يستخدم الاستدلال لتسريع خوارزمية NJ مع الاستمرار في بناء نفس الشجرة مثل الخوارزمية الأصلية.

تطبيق

نقوم بإعداد موقع ويب يستند إلى PHP لـ HGCA ، والذي يسمح بإجراء عمليات بحث تفاعلية عن أسماء الجينات أو مجموعات التحقيق أو مصطلحات التعليق التوضيحي. تسمح الواجهة بالاستعلام عن سؤالين مكملين. يمكن للمستخدمين المهتمين بمجموعة فحص معينة استرداد: أ) أ ص- قائمة مصنفة حسب القيمة لمجموعات التحقيق الأكثر ارتباطًا ، ب) قائمة مستندة إلى شجرة تضم مجموعات المجسات الأكثر تكتلاً.

لتبسيط التنقل ، تم تصميم واجهة الويب بأبسط ما يمكن بطريقة تجعل التنقل سهلًا واستخراج المعرفة أمرًا سهلاً ، مما ينتج عنه أداة يمكن استخدامها من قبل أي مجرب. يسمح نظام الألوان بفهم أسهل للمعلومات وتبسيط تفاعل الإنسان مع الكمبيوتر. وبالتالي ، تبرز الخطوط الملونة باللون الوردي مجموعات المجسات التي تشير إلى جين الاستعلام بينما تسلط الخطوط الخضراء الضوء على مجموعات المسبار المعبر عنها بشكل مشترك في جين الاستعلام.تشير الخطوط الرمادية إلى أن مجموعة التحقيق التي يتم التعبير عنها بشكل مشترك تظهر في القائمة ولكن تم تمييز الجين الخاص بمجموعة التحقيق المحددة مسبقًا في القائمة بواسطة مجموعة تحقيق أخرى مشتركة معبر عنها.

سينظم التجميع المستند إلى الشجرة مجموعات المسبار الأكثر ارتباطًا بجين المحرك في التسلسل الهرمي للشجرة. يمكن تصور الأشجار إما داخل صفحة الويب بتنسيق HTML أو تنزيلها كملفات Newick ليتم تصورها بواسطة التطبيقات الخارجية [55]. تسمح الواجهة التفاعلية بتعديل ارتفاع الشجرة عن طريق تكبير أو تقليص المنطقة المجاورة لمجموعات المجسات المعبر عنها بشكل مشترك. تم تنفيذ تطبيق جافا قادر على تحليل تنسيق Newick الذي تنتجه خوارزمية NJ وتصدير شجرة بتنسيق HTML. ص- يتم أيضًا إنتاج قوائم مصنفة حسب القيمة لمجموعات التحقيق الأكثر ارتباطًا ، على غرار الحالة الأولى ، وفقًا للتسلسل الهرمي للشجرة.

تحليل التمثيل الزائد

بعد إنتاج قائمة مجموعة مسبار من الجينات المرتبطة في الغالب بجين المحرك بواسطة أي من الطريقتين ، يمكن للمستخدمين عرض التعليقات التوضيحية المتعلقة بأسماء الجينات ، وأوصاف الجينات ، والعمليات البيولوجية ، والمكونات الخلوية ، والوظائف الجزيئية ، وأرقام EC ، وإدخالات OMIM ، والمسارات ، و InterPro أو بيانات TransFac. لتسليط الضوء على مصطلحات التعليقات التوضيحية التي تم تمثيلها بشكل زائد ، يمكن للمستخدمين أيضًا إجراء تحليل مستند إلى النص. تنتج HGCA جداول موجزة توضح المصطلحات التي تم تمثيلها بشكل زائد والتي تحدد أبرز المصطلحات في القائمة ، والتي يتم اقتطاعها من خلال تطبيق ص- القيمة الحدية 0.05 ، حيث تكون الدلالة الإحصائية لتمثيل المصطلح الزائد هي تصحيح Benjamini-Hochberg [56] ص- القيمة التي تعتمد على التوزيع الهندسي المفرط [57]:

أين ن هو العدد الإجمالي لمجموعات التحقيق ، م العدد الإجمالي لمجموعات التحقيق التي تحتوي على المصطلح ، ج هو عدد مجموعات المجسات في القائمة و ك مجموعات التحقيق من القائمة التي تحتوي على المصطلح.


المدخلات إلى GSEA.

مجموعة بيانات التعبير د مع ن الجينات و ك عينات.

إجراء الترتيب لإنتاج قائمة الجينات إل. يتضمن ارتباطًا (أو مقياس ترتيب آخر) ونمطًا ظاهريًا أو ملفًا شخصيًا مهمًا ج. نحن نستخدم مسبارًا واحدًا فقط لكل جين لمنع المبالغة في تقدير إحصائية التخصيب (نص داعم انظر أيضًا الجدول 8 ، الذي تم نشره كمعلومات داعمة على موقع الويب PNAS).

الأس ص للتحكم في وزن الخطوة.

مجموعة الجينات المشتقة بشكل مستقل س من نح الجينات (على سبيل المثال ،., مسار ، عصابة خلوية ، أو فئة GO). في التحليلات أعلاه ، استخدمنا مجموعات الجينات التي تضم 15 عضوًا على الأقل للتركيز على الإشارات القوية (78٪ من MSigDB) (الجدول 3).

درجة الإثراء ES (S).

تقييم نسبة الجينات في س ("الضربات") مرجحة بالارتباط وجزء الجينات غير الموجودة س ("يخطئ") تقدم إلى موضع معين أنا في إل.

$ mathtex $$ mathtex $ [1] $ mathtex $$ mathtex $

ال ES هو أقصى انحراف عن صفر من صنجاحصيفتقد. لتوزيعها عشوائيا S ، ES(س) صغيرة نسبيًا ، ولكن إذا كانت مركزة في أعلى القائمة أو أسفلها ، أو تم توزيعها بطريقة غير عشوائية ، إذن ES(س) ستكون عالية بالمقابل. متي ص = 0, ES (S) يقلل من إحصائية كولموغوروف - سميرنوف القياسية عندما ص = 1 ، نحن نرجح الجينات في س من خلال ارتباطهم مع ج تطبيع من خلال مجموع الارتباطات على جميع الجينات في س. وضعنا ص = 1 للأمثلة في هذه الورقة. (انظر الشكل 7 ، الذي تم نشره كمعلومات داعمة على موقع الويب PNAS.)

تقدير الأهمية. نحن نقيم أهمية ملاحظة ES بمقارنتها مع مجموعة الدرجات ESباطل محسوبة بالأنماط الظاهرية المعينة عشوائياً.

عيّن عشوائيًا تسميات النمط الظاهري الأصلية للعينات ، وأعد ترتيب الجينات ، وأعد الحساب ES(س).

كرر الخطوة 1 لـ 1000 تباديل ، وقم بإنشاء رسم بياني لدرجات الإثراء المقابلة ESباطل.

تقدير الاسمي ص قيمة س من عند ESباطل باستخدام الجزء الموجب أو السالب من التوزيع المقابل لعلامة الملاحظة ES(س).

اختبار الفرضيات المتعددة.

تحديد ES(س) لكل جين مجموعة في المجموعة أو قاعدة البيانات.

لكل س و 1000 تبديل ثابت π من تسميات النمط الظاهري ، يعيد ترتيب الجينات في إل وتحديد ES(س، π).

ضبط للاختلاف في حجم مجموعة الجينات. تطبيع ES(س، π) والملاحظة ES(س) ، مع إعادة قياس الدرجات الإيجابية والسلبية بشكل منفصل عن طريق القسمة على متوسط ES(س، π) للحصول على الدرجات الطبيعية متنوعه(س، π) و متنوعه(س) (ارى نص داعم).

حساب FDR. التحكم في نسبة الإيجابيات الكاذبة إلى العدد الإجمالي لمجموعات الجينات التي حصلت على مستوى ثابت من الأهمية بشكل منفصل للإيجابية (السلبية) متنوعه(س) و متنوعه(س، π).

قم بإنشاء مدرج تكراري للجميع متنوعه(س، π) على كل شيء س و π. استخدم هذا التوزيع الفارغ لحساب FDR ف قيمة معينة متنوعه(س) = متنوع * ≥ 0. إن فرانكلين روزفلت هي النسبة المئوية للجميع (س، π) مع متنوعه(س، π) ≥ 0 لمن متنوعه(س، π) ≥ متنوعه* مقسومًا على النسبة المئوية المرصودة س مع متنوعه(س) ≥ 0 لمن متنوعه(س) ≥ متنوعه* ، وبالمثل إذا متنوعه(س) = متنوعه* ≤ 0.


برنامج GenomeStudio

تصور وتحليل البيانات التي تم إنشاؤها على منصات مصفوفة Illumina باستخدام برنامج GenomeStudio Software. يدعم هذا الحل القوي تحليل التنميط الجيني لبيانات المصفوفات الدقيقة. تتيح لك الأدوات المحسّنة للأداء والواجهة الرسومية سهلة الاستخدام تحويل البيانات إلى نتائج ذات مغزى بسرعة وسهولة.

وحدات برنامج GenomeStudio

وحدة التنميط الجيني

العرض الرسومي للأنماط الجينية في GenomeStudio هو Genoplot ، مع نقاط بيانات مشفرة بالألوان للمكالمة (أحمر = AA ، أرجواني = AB ، أزرق = BB). يتم استدعاء الأنماط الجينية لكل عينة (نقطة) من خلال شدة الإشارة (المعيار R) وتردد الأليل (نورم ثيتا) بالنسبة لمواقع المجموعة الكنسية (التظليل الداكن) لعلامة SNP معينة.

تدعم وحدة التنميط الجيني GenomeStudio (GT) تحليل بيانات صفيف التنميط الجيني Infinium و GoldenGate. تتيح هذه الوحدة تطبيع بيانات التنميط الجيني الفعال ، واستدعاء النمط الجيني ، والتجميع ، وتحليل كثافة البيانات ، وفقدان الزيجوت المتغاير (LOH) ، وتحليل تباين رقم النسخ (CNV). متكامل تمامًا مع خادم Infinium LIMS ، يسمح لك GT Module بالوصول إلى البيانات وإدارة المشاريع مباشرة من داخل GenomeStudio.

كما هو الحال في جميع وحدات GenomeStudio النمطية ، يعرض GenomeStudio Framework إخراج البيانات في شكل جدول ويتيح لك تصور نتائجك بسرعة وسهولة باستخدام الأدوات الرسومية لمتصفح Illumina Genome Viewer و Illumina Chromosome Browser.

يسلط الضوء على وحدة GT
  • تحليل بيانات SNP و CNV عبر 5 ملايين علامة
  • تقدير نسبة السجل R وتردد B-allele لتحليل رقم النسخ
  • استدعاء الأنماط الجينية وتطبيع وتجميع البيانات وإنشاء إحصائيات SNP
  • قم بتصدير بيانات النمط الجيني إلى العديد من تطبيقات الطرف الثالث للوصول إلى عدة خوارزميات CNV ونسخ أدوات تحليل تباين الأرقام
  • قم بإنشاء خريطة حرارة صبغية لفحص انحرافات رقم النسخ عبر الجينوم بأكمله لعينات متعددة
  • تحليل البيانات من إصداري منتج مختلفين في نفس المشروع

عرض وحدة التنميط الجيني

وحدة التعبير الجيني
  • تحليل الجينات المعبر عنها تفاضليًا عبر الجينومات المختلفة
  • تعبير ميرنا الشخصي
  • الجمع بين بيانات mRNA و microRNA في مشروع واحد

هذه الخريطة الحرارية لـ GenomeStudio مجموعات مجموعات مخطط الأسنان (معرف الهدف) والأعمدة (الدرجات التفاضلية). يتيح استخدام أدوات خريطة الحرارة في GenomeStudio Gene Expression Module إمكانية تصور وتحليل كميات كبيرة من البيانات بسهولة.

تدعم وحدة GenomeStudio Gene Expression (GX) تحليل بيانات مجموعة تعبيرات Direct Hyb و DASL. إنه يتيح تصور تحليل تعبير mRNA و microRNA التفاضلي كمخططات خطية ، ومخططات بيانية ، و dendrograms ، ومخططات مربعة ، وخرائط حرارية ، ومخططات مبعثرة ، وجداول عينات ، ومخططات تجميع جيني. تتضمن أدوات إدارة البيانات المبسطة في برنامج GenomeStudio التنظيم الهرمي للعينات والمجموعات ومجموعات المجموعات وجميع تحليلات المشروع المرتبطة.

كما هو الحال في جميع وحدات GenomeStudio النمطية ، يعرض GenomeStudio Framework إخراج البيانات في شكل جدول ويتيح لك تصور نتائجك بسرعة وسهولة باستخدام الأدوات الرسومية لمتصفح Illumina Genome Viewer و Illumina Chromosome Browser.

يسلط الضوء على وحدة GX
  • تحليل التعبير التفاضلي باستخدام أدوات التحليل الإحصائي على مستوى الجينات
  • تصور النتائج كمخططات خطية ، ومخططات بيانية ، ومخططات تخطيطية ، ومخططات مربعات ، وخرائط حرارية ، ومخططات مبعثرة ، وجداول عينات ، ومخططات تجميع جيني
  • تبسيط إدارة البيانات للتنظيم الهرمي للعينات والمجموعات ومجموعات المجموعات وتحليل المشروع
  • حدد التغييرات في مستوى الطي ، وقم بإجراء اختبار T و ANOVA ، وقارن النتائج عبر مجموعات مجموعات عينات مختلفة
  • دمج ودمج بيانات التعبير الجيني مع مثيلة الحمض النووي وبيانات التنميط ميرنا في نفس المشروع
  • تصدير بيانات تعبير الجينوم الكامل والتنميط الجيني إلى أدوات مختلفة تابعة لجهات خارجية لتحليل eQTL

عرض وحدة التعبير الجيني

وحدة المثيلة
  • كشف مثيلة السيتوزين بدقة قاعدة واحدة
  • تحديد توقيعات المثيلة عبر الجينوم بأكمله

تدعم وحدة مثيلة GenomeStudio (M) تحليل بيانات صفيف مثيلة Infinium و GoldenGate. تحسب هذه الوحدة مستويات المثيلة (قيم بيتا) وتحلل مستويات المثيلة التفاضلية بين المجموعات التجريبية. يمكّنك من عرض حالة مثيلة جزيرة CpG عبر الجينوم باستخدام مستعرض جينوم llumina ومتصفح Illumina Chromosome.

يمكن تصور بيانات دقة الموقع الفردي كمخططات خطية أو رسوم بيانية شريطية أو مخططات مبعثرة أو رسوم بيانية أو مخططات تخطيطية أو مخططات مربعات أو خرائط حرارية. تمكّنك هذه الوحدة أيضًا من دمج بيانات الميثيل مع تجارب تحديد ملامح التعبير الجيني ضمن مشروع GenomeStudio نفسه للارتباط بين مستويات المواقع الميثيلية (قيم بيتا) ومستويات التعبير الجيني التفاضلي (قيم p).


شاهد الفيديو: أسهل طريقة للتنبؤ بالبيانات فى الاكسيل (كانون الثاني 2023).