معلومة

تصميم التمهيدي وقيمة BLAST E.

تصميم التمهيدي وقيمة BLAST E.


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

عند البحث عن سوء فهم ، قيل لي إن قيمة e التي تزيد عن 0.01 لا بأس بها ولن ينتج عنها قدر كبير من سوء الفهم. ومع ذلك ، فقد بحثت في بعضها ويبدو أن حد قيمة e يعتمد على "كمية المعلومات" في قاعدة البيانات. لقد وجدت بالفعل أن بعض الأوراق تشير إلى أن القيم أقل من 0.07 لتكون مهمة بالفعل.

ما هي المعايير التي تستخدمها في بعض الأحيان للحكم على هذه المشكلة ، وكيف أعرف متى أخفض أو أزيد من صرامة عند تشغيل بلاست روتيني لأغراض تصميم البادئات؟


لم أستخدم بلاست مطلقًا لتصميم التمهيدي ، ولكن غالبًا لاكتشاف مصدر التسلسل.

من الأسئلة الشائعة لـ NCBI: http://www.ncbi.nlm.nih.gov/blast/Blast.cgi؟CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE= FAQ

"كلما انخفضت القيمة E ، أو كلما اقتربت من الصفر ، زادت" أهمية "المطابقة. ومع ذلك ، ضع في اعتبارك أن المحاذاة القصيرة المتطابقة تقريبًا لها قيم E عالية نسبيًا. وذلك لأن حساب قيمة E يأخذ في الاعتبار طول تسلسل الاستعلام. هذه القيم العالية E منطقية لأن التسلسلات الأقصر لها احتمالية أعلى لحدوثها في قاعدة البيانات عن طريق الصدفة. لمزيد من التفاصيل ، يرجى الاطلاع على الحسابات في دورة بلاست. ".

ما يقولونه في الأوراق صحيح ، حجم قاعدة البيانات الخاصة بك مهم في تحديد مدى أهمية المطابقة. أستطيع أن أتخيل أنه بالنسبة للتصميم التمهيدي ، فأنت تريد أن تكون أكثر حرصًا مع القيم الإلكترونية ، لأنها غالبًا ما تندرج تحت: "لأن التسلسلات الأقصر لها احتمالية أكبر لحدوثها في قاعدة البيانات عن طريق الصدفة البحتة".

آمل أن يساعدك هذا في اتخاذ قرارك لتحديد الحد الأقصى ، وإلا يرجى تقديم مزيد من المعلومات.


تقدم صفحة NCBI هذه أداة تصميم أولية يبدو أنها تتضمن فحصًا للخصوصية عبر بلاست. ومع ذلك ، يبدو أنه يبني التشدد على درجة عدم التطابق بدلاً من القيمة الإلكترونية.


التصميم التمهيدي وقيمة BLAST E الصارمة - علم الأحياء

تم تصميم Primer-BLAST لصنع مواد أولية خاصة بقالب إدخال PCR ، باستخدام Primer3. يمكنه أيضًا التحقق من البرايمرات التي يوفرها المستخدم من أجل الدقة.

لم تعد صفحات "البحث عن التطابقات القصيرة والمطابقة تقريبًا" موجودة في النيوكليوتيدات والبروتينات. بدلاً من ذلك ، تقوم برامج تفجير النيوكليوتيدات والبروتينات تلقائيًا بالتحقق من الاستعلامات القصيرة وضبط معلمات البحث وفقًا لذلك. يحدث هذا التعديل عندما يكون طول الاستعلام ، سواء النوكليوتيدات أو الأحماض الأمينية ، 30 أو أقل. لا تحتوي برامج التفجير المترجمة أو عمليات البحث على صفحات تفجير الجينوم على ميزة الضبط التلقائي هذه.

س: قاعدة البيانات الافتراضية لعمليات البحث عن النوكليوتيدات

س: حفظ معلمات البحث الخاصة بك

س: كيفية قصر البحث على كائن حي أو مجموعة تصنيفية أو استبعاد مثل هذه المجموعات

للبحث في التسلسلات فقط من كائن حي أو مجموعة تصنيفية ، استخدم مربع النص "كائن حي". على صفحات تفجير النيوكليوتيدات ، انقر أولاً فوق زر الاختيار لـ "أخرى (nr وما إلى ذلك)". يحتوي مربع النص "الكائن" على وظيفة تعبئة تلقائية. ابدأ بإدخال اسم شائع للكائن (جرذ ، بكتيريا ، إلخ) ، جنس أو نوع (ايليجانس ، دانيو ، إلخ) ، أو معرف تصنيف NCBI ثم حدد اسمًا من القائمة.

يمكن أيضًا استبعاد المجموعة التصنيفية باستخدام مربع الاختيار "استبعاد" على يمين مربع "الكائن الحي".

قد يتم تضمين أو استبعاد المزيد من المجموعات التصنيفية مع مربع "+" الموجود على يمين مربع نص "الكائن الحي".

يمكنك أيضًا استخدام مصطلحات Entrez Query كما في السابق. ضع تلك الموجودة في مربع استعلام Entrez أسفل حقل الكائن مباشرة ، على سبيل المثال ، rattus norvegicus [كائن] أو ببساطة ، فأر [orgn]. راجع أيضًا الأسئلة المتداولة ، "كيفية قصر البحث على مجموعة فرعية من تسلسلات قاعدة البيانات."

يمكنك البحث عن التصنيف في متصفح التصنيف.

س: كيف يتم استبعاد النماذج (ملحقات XM / XP) والتسلسلات البيئية غير المثقفة؟

س: كيف يمكن قصر البحث على مجموعة فرعية من تسلسلات قاعدة البيانات؟

س: كيف يمكنني البحث عن مجموعة من التسلسلات باستخدام بلاست؟

    1.) الملفات التنفيذية المستقلة بلاست. هذه هي برامج سطر الأوامر التي تقوم بتشغيل عمليات بحث BLAST مقابل النسخ المحلية التي تم تنزيلها من قواعد بيانات NCBI BLAST ، أو ضد قواعد البيانات المخصصة المنسقة لـ BLAST. ستتعامل البرامج إما مع ملف واحد كبير مع تسلسلات استعلام FASTA متعددة ، أو يمكنك إنشاء برنامج نصي لإرسال ملفات متعددة في وقت واحد. تتوفر الملفات التنفيذية لمجموعة متنوعة من الأنظمة الأساسية ، بما في ذلك LINUX و Windows و Mac OSX.

س: كيفية استخدام بلاست لمحاذاة تسلسلين دون البحث في قاعدة البيانات.

س: ما هي قيمة التوقع (E)؟

قيمة توقع (E) هي معلمة تصف عدد النتائج التي يمكن "توقع" رؤيتها بالصدفة عند البحث في قاعدة بيانات بحجم معين. يتناقص بشكل كبير مع زيادة درجة (S) المباراة. بشكل أساسي ، تصف القيمة E ضوضاء الخلفية العشوائية. على سبيل المثال ، يمكن تفسير القيمة E التي تبلغ 1 المخصصة لإحدى النتائج على أنها تعني أنه في قاعدة بيانات بالحجم الحالي ، قد يتوقع المرء أن يرى تطابقًا واحدًا مع درجة مماثلة ببساطة عن طريق الصدفة.

كلما انخفضت القيمة E ، أو كلما اقتربت من الصفر ، زادت "أهمية" المطابقة. ومع ذلك ، ضع في اعتبارك أن المحاذاة القصيرة المتطابقة تقريبًا لها قيم E عالية نسبيًا. وذلك لأن حساب قيمة E يأخذ في الاعتبار طول تسلسل الاستعلام. تعتبر قيم E العالية منطقية لأن التسلسلات الأقصر لها احتمالية أعلى لحدوثها في قاعدة البيانات عن طريق الصدفة البحتة. لمزيد من التفاصيل ، يرجى الاطلاع على الحسابات في دورة بلاست.

يمكن أيضًا استخدام قيمة "توقع" كطريقة ملائمة لإنشاء حد أهمية للإبلاغ عن النتائج. يمكنك تغيير حد القيمة المتوقعة في معظم صفحات بحث بلاست. عند زيادة قيمة "توقع" من القيمة الافتراضية 10 ، يمكن الإبلاغ عن قائمة أكبر بها عدد أكبر من النتائج ذات الدرجات المنخفضة.

ما هو التسلسل "منخفض التعقيد"؟

المناطق ذات التسلسل منخفض التعقيد لها تركيبة غير عادية يمكن أن تخلق مشاكل في البحث عن التشابه المتسلسل. بالنسبة إلى استفسارات الأحماض الأمينية ، يتم تحديد هذا التحيز التركيبي بواسطة برنامج SEG (Wootton and Federhen ، 1996). بالنسبة إلى استفسارات النوكليوتيدات ، يتم تحديده بواسطة برنامج DustMasker (Morgulis ، وآخرون ، 2006).

غالبًا ما يمكن التعرف على التسلسل منخفض التعقيد عن طريق الفحص البصري. على سبيل المثال ، يحتوي تسلسل البروتين PPCDPPPPPKDKKKKDDGPP على تعقيد منخفض وكذلك تسلسل النوكليوتيدات AAATAAAAAAAATAAAAAAT. تُستخدم المرشحات لإزالة التسلسل منخفض التعقيد لأنه يمكن أن يتسبب في حدوث إصابات فعلية.

في عمليات البحث التي يتم إجراؤها بدون مرشح ، قد يتم الإبلاغ عن نتائج عالية الدرجات فقط بسبب وجود منطقة منخفضة التعقيد. في أغلب الأحيان ، من غير المناسب اعتبار هذا النوع من المطابقة نتيجة تماثل مشترك. بدلاً من ذلك ، يبدو الأمر كما لو أن المنطقة منخفضة التعقيد "لزجة" وتقوم بسحب العديد من المتواليات غير المرتبطة حقًا.

كيفية تصفية التكرارات المتقطعة (الخاصة بالكائن الحي)؟


ما هي البرايمر؟

تعتبر المواد الأولية بسيطة ولكنها مكونات أساسية لتخليق الحمض النووي داخل أجسامنا وضمن التجارب العلمية. يمكن أيضًا تسمية المواد الأولية بالقليل النوكليوتيدات وهي عبارة عن قطع صغيرة من النيوكليوتيدات أحادية الجديلة ، وعمومًا يبلغ طولها حوالي 5 & # 8211 22 زوجًا أساسيًا. تتمثل الخاصية الرئيسية للبادئات في أنها يجب أن تكون مكملة لشريط قالب الحمض النووي ، حيث تعمل على "تمهيد" حبلا لبوليميراز الحمض النووي للارتباط والبدء في تصنيع الحمض النووي.

ما هي أنواع البرايمر الموجودة؟ RNA vs DNA Primers

تستخدم الكائنات الحية فقط بادئات RNA ، بينما البادئات المستخدمة في المختبر عادة ما تكون بادئات DNA. يستخدم العلماء بادئات الحمض النووي بدلاً من بادئات الحمض النووي الريبي لأسباب متنوعة. تعتبر بادئات الحمض النووي أكثر استقرارًا وأسهل في التخزين ، كما أنها تتطلب إنزيمات أقل صعوبة في الحصول عليها لبدء التوليف (انظر الشكل 1).

بادئات الحمض النووي الاشعال RNA
يستخدم في المختبر: تضخيم تفاعل البوليميراز المتسلسل ، وتسلسل الحمض النووي ، والاستنساخ ، والمزيد في الجسم الحي: تكرار الحمض النووي
رد فعل يعتمد التضخيم على درجة الحرارة ويتطلب بروتينات أقل النسخ المتماثل هو تفاعل محفز يعتمد على الإنزيم ، ويتطلب عدة بروتينات
طول 18 & # 8211 24 زوجًا أساسيًا 10 & # 8211 20 زوجًا أساسيًا
خلق تم تصنيعه كيميائيا من قبل العلماء Primase (نوع من بوليميراز الحمض النووي الريبي)
بقاء أطول عمرا وأكثر استقرارا أقصر عمرا ، وأكثر تفاعلية

يؤدي ارتباط بادئات الدنا أو الحمض النووي الريبي إلى حبلا القالب إلى بدء الإنزيم المسؤول عن تخليق الدنا ، بوليميراز الدنا ، لبدء إضافة نيوكليوتيدات إلى الطرف التفاعلي 3-هيدروكسيل (يُسمى "الطرف الثالث") للحمض النووي الموجود على التمهيدي ، إطالة وتكرار حبلا الأم.


نتائج

يتم عرض مخطط لخط أنابيب ThermoAlign في الشكل 1. في الأقسام التالية ، يتم تقديم النتائج المتعلقة بكل وحدة من وحدات الأداة. تم استخدام منطقة مستهدفة تبلغ 24 كيلو بايت من جينوم الذرة (B73 RefGen_v3 Chr3: 33490673..33514673) لتوضيح خط الأنابيب وتسليط الضوء على ميزات ThermoAlign. ستة وستون في المائة من هذه المنطقة مشروحة في مجموعة الجينوم على أنها مقنعة متكررة. باستخدام التسلسل غير المقنع وفحص التكرار المرتبط بربط التمهيدي ، من المتوقع أن ينتج 72٪ من البادئات المصممة لهذه المنطقة أحداث فتيلة خارج الهدف في 1 إلى 215 موقعًا لبادئ معين (الشكل 2). تم استخدام هذه المنطقة نفسها ، إلى جانب أجزاء أخرى من الجينوم ، لاختبار خصوصية التضخيم للبادئات المصممة بواسطة ThermoAlign.

يتم استخدام ملف معلمات التشغيل الفردي بواسطة جميع مكونات خط الأنابيب. تمثل المربعات الملونة الوحدات الأساسية الأربعة لـ ThermoAlign ، والتي تم تعدادها بترتيب عملها: (1) اختيار المنطقة المستهدفة ، (2) تصميم قليل النوكليوتيد الفريد ، (3) تقييم خصوصية التمهيدي ، و (4) اختيار زوج التمهيدي. تمثل المربعات المتقطعة إجراءات فرعية داخل كل وحدة من هذه الوحدات وتصور الأسهم ترتيب عملها. العناصر المتبقية هي قاعدة البيانات (تسلسل الجينوم المرجعي) ، والملفات الخارجية (تنسيق استدعاء متغير [.vcf] وملف معاملات التشغيل) والوظائف (نموذج الجار الأقرب لملف تيم من وظائف homodimer و heterodimer وتفاعل دبوس الشعر في Primer3). توضح خطوط التوصيل لهذه المكونات المتبقية تبعيات المكونات المتصلة (يتم استخدام نقطة معبأة للإشارة إلى المصدر الذي يتم منه سحب المعلومات أو الوظيفة). يُشار إلى المدخلات المطلوبة لـ ThermoAlign بعلامة النجمة.

يعتمد هذا الرقم على تحليل كل 25 نقطة أساس (نافذة منزلقة 26 نقطة أساس) للخيط الموجب. لجميع التكوينات الفرعية ، توضح الخطوط الحمراء عدد المحاذاة الحرارية مع هدف بعيد عن الهدف تيم في غضون 10 درجة مئوية من الهدف المقابل تيم. توضح الخطوط الصفراء (البرتقالية عند التداخل مع اللون الأحمر) عدد المحاذاة الحرارية بين التمهيدي المحدد والمواقع غير المستهدفة مع هوية ≥70 بالمائة (pid). تظهر الخطوط الزرقاء نسبة محتوى GC. استند البحث عن المواقع غير المستهدفة إلى إعدادات BLASTn المستخدمة في هذه الدراسة لتقييم الخصوصية الأولية (انظر الطرق) ، والتي تحتوي على 20 موقعًا محتملاً كحد أقصى لكل جزيء كاذب أو ما مجموعه 260 موقعًا محتملاً. (أ) التوزيع التراكمي لعدد التكرارات ونسبة محتوى GC. (ب) التوزيع الجينومي لمحتوى التكرار ونسبة GC. تم استخدام إحداثيات الجزيء الكاذب للنيوكليوتيدات 5′ لكل تسلسل 25 نقطة أساس لتحديد موضع البيانات المرسومة. تظهر الأشرطة الأفقية السوداء على المحور السيني الجينين في هذه المنطقة [يسار: GRMZM2G031364 يمينًا: GRMZM2G031239]. من بين 25 شخصًا في المنطقة ، من المتوقع أن يكون هناك خطأ بنسبة 73٪ في المنطقة تيم في غضون 10 درجة مئوية من التمهيدي تيم. (ج) تمتد مؤامرة سيركوس من أساس واحد في المنطقة مع أكبر عدد (ن = 215) من المواقع الخاطئة المتوقعة عبر الجينوم. تربط الخطوط الحمراء لمؤامرة CIRCOS مواقع الخطأ المتوقعة على الجزيئات الكاذبة للكروموسومات من 1 إلى 10 والميتوكوندريا (Mt) والبلاستيد (Pt) والتسلسلات غير المعينة (unkn).

تحديد المنطقة المستهدفة (TRS)

ينتج ThermoAlign ملف إخراج يحتوي على معلومات موجزة من التشغيل (مثل الملف التكميلي S1). أظهر ناتج المنطقة المستهدفة 24 كيلو بايت أنه لا يحتوي على فجوات في مجموعة التسلسل المرجعي ، و 1،073 SNPs ، و 93 indels و 46 ٪ من محتوى GC.

تصميم Oligo الفريد (UOD)

تم تصميم خوارزمية UOD لتحديد كل تمهيدي فردي (وليس أزواجًا تمهيديًا) في منطقة مستهدفة تعتبر مواتية لـ PCR وليس لها مطابقات مماثلة في أي مكان آخر في الجينوم. بالنسبة للمنطقة المستهدفة التي يبلغ حجمها 24 كيلو بايت ، من بين 184،145 إجماليًا ممكنًا من الاشعال ، لم يحدث 82،520 في المواقع التي تحتوي على تعدد الأشكال في الذرة HapMap3 38. أدى تطبيق المجموعة الكاملة لمرشحات UOD المتبقية (للإعدادات ، انظر الملف التكميلي S2) إلى اختيار 877 بادئة مرشح.

تم فحص تصنيف 82.520 بادئة في فئات ترشيح UOD لمعرفة الميزات التي كان لها أكبر تأثير على إزالة الاشعال. تم تقسيم هذا إلى جزأين ، بدءًا من المرشحات لميزات التسلسل التمهيدي وتنتهي بمرشحات لتفاعلات التمهيدي (الشكل التكميلي S1). من حيث ميزات التسلسل ، تم ترشيح 75،073 بادئة. بالنظر إلى الاشعال التي ارتبطت بفئة واحدة فقط من ميزات التسلسل ، أزال مرشح A / T-end أكبر عدد من البادئات (n = 9217) ، التي تضم 50 ٪ من المجموعة الجماعية من البادئات التي كانت خاصة بميزة واحدة فقط (تكميلية) الشكل S1a). تعد ميزة A / T-end إرشادية مفيدة للتخلص من المواد الأولية ذات الإمكانات الأكبر للتهيئة غير الفعالة 39. اختياريًا ، قد يتم استبعاد مرشح A / T-end أو مرشحات أخرى أو إعادة ضبط المعلمات لتحقيق معدل اكتشاف أعلى للبادئات المرشحة ، ولكن هذا يأتي على حساب زيادة الوقت الحسابي المطلوب لتقييم خصوصية التمهيدي (PSE القسم التالي) . على سبيل المثال ، أدى استبعاد مرشح A / T-end من UOD إلى 1161 بادئة مرشح إضافية (مقارنة بـ 877 تم تحديدها باستخدام مرشح A / T-end المطبق) ، ولكن هذا استغرق حوالي أربع مرات وقت أطول في ثوان وقت التشغيل لـ PSE.

تضمنت مرشحات التفاعل التمهيدي ، التي تم تطبيقها على 7447 من البادئات التي بقيت بعد التصفية استنادًا إلى ميزات التسلسل ، حدوث تطابق تام في موقع بعيد عن الهدف في الجينوم ، جهاز homodimer تيم، مغاير تيم و دبوس الشعر تيم 40 (الشكل التكميلي S1b). نتج عن ذلك ترشيح 6570 بادئة إضافية ، وترك 433 بادئة أمامية و 444 بادئة عكسية مع 136 من نفس الموضع على الخيوط.

تقييم خصوصية التمهيدي (PSE)

يتمثل أحد الجوانب المهمة في ThermoAlign في النهج الحسابي والكمي المستخدم لوصف مواقع التهجين غير المستهدفة. كجزء من الخوارزمية لتحديد احتمالية الخطأ في الفهم ، يتم تحرير محاذاة BLASTn لكل تطابق خارج الهدف إلى محاذاة حرارية (محاذاة كاملة الطول وغير معطلة للقالب التمهيدي) تسمح بتقديرات هادفة ودقيقة لـ تيم ليتم حسابها من أجل التمهيدي (الشكل 3). محاذاة BLASTn الأصلية مع هوية تسلسل ≥70٪ (والتي غالبًا ما تكون محاذاة محلية مقطوعة) كان لها متوسط تيم التي كانت أعلى بمقدار 7 درجات مئوية من المحاذاة الحرارية (الشكل 3 ب). ومع ذلك ، فإن تيم بالنسبة إلى 10.8 ٪ (ن = 18،834) من محاذاة BLASTn كانت أقل من المحاذاة الحرارية (الشكل 3 ب). نطاق الاختلاف في تيم بالنسبة لمحاذاة BLASTn مقارنة بالمحاذاة الحرارية المقابلة كانت -14 درجة مئوية إلى 272 درجة مئوية. النظر في العلاقة بين عدد حالات عدم التطابق و تيم، الشكل 3 ج ، د أظهر أن عدد حالات عدم التطابق ، على الرغم من ارتباطها بالمحاذاة الحرارية تيم، ليس وكيلًا مناسبًا لاحتمال سوء الفهم. حتى في حالة وجود العديد من حالات عدم التطابق ، فإن ملف تيم للربط في المواقع غير المستهدفة يمكن أن تكون في درجات حرارة نموذجية لـ PCR (على سبيل المثال & gt60 درجة مئوية الشكل 3 ج). علاوة على ذلك ، خارج الهدف تيم قد لا يكون دائمًا بعيدًا بدرجة كافية عن الهدف تيم لحدوث فتيلة محددة (الشكل ثلاثي الأبعاد). بالنسبة للبيانات الواردة في الشكل ثلاثي الأبعاد ، كان 80٪ من المحاذاة الحرارية على الهدف تيم & GT 10 درجة مئوية خارج الهدف تيم.

(أ -1) أمثلة على متواليات كاملة الطول التمهيدي. (أ -2) تتم معالجة محاذاة زوج المقاطع عالية الدرجات (HSP) من BLASTn الأعلى مرتبة لتسلسلين خارج الهدف (الشريط السفلي) في (أ -3) المحاذاة الحرارية عن طريق ملء النهاية (بلاستن غير مقيد) أو إزالة الفجوات وملء النهاية (بلاستن المثقوب) محاذاة BLASTn HSP الأصلية. (ب) بالنسبة لـ 877 بادئة مرشحة تم إخراجها بواسطة وحدة UOD لمنطقة 24 كيلو بايت الموضحة في النص ، فإن ملف تيم تم حسابه لكل محاذاة BLASTn HSP رفيعة المستوى والمحاذاة الحرارية المقابلة. (ج) باستخدام مجموعة فرعية من المحاذاة الحرارية المتكونة من BLASTn HSPs (العدد = 169404 محاذاة) ، تُظهر المؤامرة العلاقة بين الهدف غير المستهدف تيم للمحاذاة الحرارية مقارنة بإجمالي عدد حالات عدم التطابق. (د) استخدام نفس المجموعة الفرعية من البيانات بتنسيق (ج) تظهر الحبكة الفرق بين الهدف تيم وخارج الهدف تيم من المحاذاة الحرارية مقارنة بإجمالي عدد حالات عدم التطابق.

اختيار زوج التمهيدي (PPS)

من بين 877 oligonucleoltides التي كان من المتوقع أن يتم تهجينها بشكل ثابت وتحديداً على الهدف داخل الجينوم المرجعي ، تم العثور على 2818 مجموعة من أزواج التمهيدي لتكون متوافقة مع PCR القياسي. تضمنت إعدادات المعلمات المستخدمة لـ PPS (الملف التكميلي S2) متطلبات اختلاف +10 درجة مئوية في ملف تيم بين التمهيدي مع السفلي تيم من زوج معين وأكبر خارج الهدف تيم لأي من البادئين. يمكن أن يؤدي تقليل هذه العتبة إلى زيادة معدل اكتشاف الاشعال ، ولكن يجب على المرء أن يأخذ في الاعتبار الحد الأدنى الذي من المحتمل أن تنشأ فيه الأمبليكونات غير المستهدفة في تفاعل البوليميراز المتسلسل الفعلي. عند الضبط على +6 درجة مئوية ، زاد عدد أزواج التمهيدي المحددة بواسطة وحدة PPS لمنطقة 24 كيلو بايت إلى 4189. تعديل هذه العتبة مع الحد الأعلى في تيم النطاق المستخدم لـ UOD يمكن أن يزيد أيضًا من معدل الاكتشاف. زيادة تيم النطاق بمقدار +5 درجة مئوية (تغيير من 64-74 درجة مئوية إلى 62-77 درجة مئوية) مع الاحتفاظ بحد أقصى +10 درجة مئوية للفرق الخطأ أدى إلى تحديد 4103 أزواج من التمهيدي عبر خط أنابيب UOD → PSE → PPS.

باستخدام 877 بادئة من الأعلى ، تم استخدام طريقة الرسم البياني الموجه لتحديد الحد الأدنى لعدد أزواج التمهيدي (أقصر مسار) لتوفير أقصى قدر من التغطية للمنطقة المستهدفة. كان إعداد نطاق حجم amplicon عاملاً حاسمًا في مقدار التغطية التي يمكن تحقيقها للمنطقة التي تم فحصها هنا (الجدول التكميلي S2). أدت نطاقات حجم amplicon الأصغر إلى تغطية منخفضة نسبيًا وأدت نطاقات الحجم الأكبر (≥15 كيلو بايت) إلى عدم وجود تغطية. تم تحقيق أقصى تغطية لأحجام الأمبليكون بين 5 و 15 كيلو بايت. ومع ذلك ، بالإشارة إلى أن مرشح A / T-end أدى إلى فقدان أكثر من ألف بادئة ، فإن استبعاد هذا المرشح أدى إلى زيادة التغطية المتوقعة من 61.8٪ كحد أقصى (مع المرشح) إلى 88.7٪ (بدون المرشح).

التقييم التجريبي لخصوصية فتيلة

تم اختبار أزواج التمهيدي المصممة بواسطة ThermoAlign باستخدام شروط معيارية لـ PCR القياسي و PCR بعيد المدى (انظر قسم الطرق). بالنسبة إلى PCR القياسي ، تم اختبار 46 زوجًا تمهيديًا مرتبطًا بسبعة جينات موجودة على ستة كروموسومات من الذرة (الملف التكميلي S3). باستخدام طريقة تحليل الرسم البياني الموجه في PPS ، تم تصميم أزواج التمهيدي هذه للتقطيع من 1 كيلو بايت إلى 1 كيلو بايت في اتجاه مجرى النهر لكل جين. أنتج ثمانية وثلاثون من أزواج التمهيدي هذه أمبليكون ، ولوحظ لكل منها أمبليكون واحد محدد بالحجم المتوقع لم يتم اكتشاف أمبليكون خارج الهدف لأي من أزواج التمهيدي التي تم اختبارها [الشكل. يظهر الشكل 4 أ نتائج 29 زوجًا من 46 زوجًا تمهيديًا ، فشل اثنان منها في التضخيم (6: 7048348 و 7: 128.406.874)].

لا يتم عرض المنتجات من اثنين من الجينات الإضافية التي تم تضخيمها باستخدام PCR القياسي ولكن ليس PCR طويل المدى (كما هو موضح في النص). تشير الملصقات إلى عدد الكروموسوم للموقع المستهدف ، وموقع بدء التمهيدي الأمامي والحجم المتوقع للمنتج. تتوفر التفاصيل حول كل كتاب تمهيدي في الملف التكميلي S3. (أ) تم قياس كمية منتجات PCR القياسية دون تنقية ما بعد PCR وتم تحميل ما يقرب من 7.5 نانوغرام في كل بئر. بالنسبة للتفاعلين اللذان لا يحتويان على منتج ، تم استخدام حجم مكافئ لمتوسط ​​الحجم الذي تم تحميله. تم تحميل تفاعلات Multiplex المكونة من أزواج التمهيدي المقابلة لكل مجموعة لجين معين جنبًا إلى جنب مع البادئات التي تنتمي إلى نفس المجموعة. (ب) منتجات PCR طويلة المدى من تفاعلات بدون (-) ومع (+) بيتين. تم تحديد كمية منتجات PCR بدون تنقية ما بعد PCR وتم تحميل ≈29 نانوغرام في كل بئر. بالنسبة للتفاعلات الثلاثة التي لا تحتوي على منتج ، تم تحميل نفس الحجم المستخدم لتفاعل البيتين المقابل في البئر. للتحكم السلبي ، تم تحميل الحد الأقصى للحجم المستخدم بين جميع التفاعلات في البئر. يتكون عنصر التحكم السلبي من مزيج رئيسي وزوج تمهيدي TA_1_25390617_27_F و TA_1_25395472_24_R (ملف إضافي S3) بدون قالب DNA. ارتبطت الممرات التي بها تلطخ في الخلفية بردود الفعل التي تتطلب تحميل حجم أكبر من المنتج لتحقيق كمية معيارية من المنتج عبر الممرات.

يدمج ThermoAlign MultiPLX 41 أثناء تخصيص المدخلات والمخرجات للحصول على مجموعتين من تعدد الإرسال المتوافق مع تضخيم مسارات التجانب المتداخلة. لكل من الجينات السبعة المستهدفة التي تم اختبارها باستخدام PCR القياسي ، في ظل إعدادات الصرامة "العادية" ، حددت MultiPLX تعدد الإرسال مع ما لا يزيد عن اثنين من أزواج التمهيدي (كانت هناك إمكانية لدمج ما يصل إلى خمسة أزواج من التمهيدي). كانت الأمبليكونات المنتجة باستخدام تعدد الإرسال PCR متوافقة بشكل عام مع تلك التي ينتجها كل زوج تمهيدي على حدة (فشل زوج واحد من التمهيدي في مجموعة متعددة الإرسال في تفاعل تعدد الإرسال) ولم يلاحظ أي أمبليكونات بديلة (الشكل 4 أ).

بالنسبة لخمسة من الجينات السبعة المذكورة أعلاه ، تم تصميم مسارات تبليط أمبليكون 0.1-5.0 كيلو بايت لكل جين (بغض النظر عن بادئات PCR القياسية ، الملف التكميلي S3) وتم اختبارها باستخدام PCR بعيد المدى. لكل جين ، تم تحديد زوجين من التمهيدي من شأنه أن يتناغم عبر الطول الكامل للجين (استثناء واحد: مع الإعدادات المستخدمة ، لم يتم العثور على أزواج التمهيدي التي من شأنها أن تغطي الجين P450 بأكمله على الكروموسوم 3). على غرار PCR القياسي ، لم تنتج جميع أزواج التمهيدي العشرة amplicon ، ولكن السبعة التي أنتجت amplicon واحدًا بارزًا بالحجم المتوقع (الشكل 4 ب). بالنسبة لأمبليكونات PCR طويلة المدى التي فشلت في التضخيم أو كانت ذات إنتاجية منخفضة ، تم تحميل المزيد من منتج التفاعل في الهلام من أجل تطبيع المنتجات للمقارنة. أظهر هذا بعض تلطيخ الخلفية الذي كان أكبر من التحكم السلبي ، مما يشير إلى حدوث قدر من التضخيم العشوائي خارج الهدف أثناء تفاعل البوليميراز المتسلسل طويل المدى (ربما بسبب تضخيم التمهيدي الضخم 14).

نظرًا لاعتماد الجينوم المرجعي لتصميم التمهيدي وأن بعض تفاعلات PCR القياسية وتفاعلات PCR طويلة المدى فشلت في إنتاج أمبليكون ، تساءلنا عما إذا كانت هذه التفاعلات الفاشلة ناتجة عن عدم الدقة في التجميع المتسلسل. في ظل افتراض أن أزواج PCR التمهيدي طويلة المدى التي أنتجت amplicon محددًا بالحجم المتوقع كانت مؤشرًا على التجميع الدقيق ، فقد تم استخدام إنتاج أمبليكونات PCR القياسية المتداخلة داخل أمبليكونات PCR طويلة المدى هذه لمعالجة هذا السؤال.

تم تصميم تسعة وعشرين زوجًا تمهيديًا قياسيًا من PCR لنفس الجينات الخمسة التي تم اختبارها بواسطة PCR بعيد المدى وتم تضمينها في واحد على الأقل من أمبليكونات PCR طويلة المدى المتوقعة. تم دمج بعض أمبليكونات PCR القياسية داخل أقسام متداخلة من اثنين من أمبليكون PCR بعيد المدى حيث ينتج أحد أزواج التمهيدي منتجًا والآخر لا. باستثناء أزواج PCR التمهيدي القياسية من الاعتبار ، فشل واحد من 21 زوجًا من أزواج PCR التمهيدي القياسي في إنتاج amplicon في المناطق التي تم فيها إنتاج amplicon بواسطة PCR طويل المدى. في المقابل ، أنتجت جميع أزواج بادئة PCR القياسية الخمسة أمبليكون في المناطق التي لم يتم فيها إنتاج أمبليكون بواسطة تفاعل البوليميراز المتسلسل طويل المدى. لم يكن الارتباط بين التفاعلات الناجحة والفاشلة لتفاعلات تفاعل البوليميراز المتسلسل القياسي وبعيد المدى مهمًا (اختبار فيشر الدقيق ، ص = 1.0) ، والذي فشل في تضمين أخطاء التجميع كسبب لفشل PCR.

بالنظر إلى إمكانية تأثير تكوين تسلسل البادئات أو هدف التضخيم على النجاح 14 ، أدت إضافة البيتين إلى التفاعلات إلى إنتاج جميع أزواج بادئات PCR طويلة المدى العشرة منتجًا محددًا بالحجم المتوقع (الشكل 4 ب). أدى الاختبار اللاحق لأزواج PCR التمهيدي القياسية مع البيتين إلى استرداد amplicon واحد محدد للأزواج المتداخلة التي فشلت في غياب البيتين ، بالإضافة إلى أربعة أزواج أولية من المجموعة الأصلية من 46. ومع ذلك ، تم تضخيم هذه المنتجات سيئة (البيانات غير معروضة). يمكن أن يؤدي تحسين PCR الإضافي إلى تحسين كفاءة التضخيم لأزواج التمهيدي هذه. أمبليكونات التفاعلات التي تم استعادتها عن طريق إضافة البيتين للـ PCR بعيد المدى كان لها محتوى GC بمتوسط ​​أعلى بمقدار 3.2 نقطة مئوية للبادئات و 7.8 نقطة مئوية للأمبليكون المتوقع (تسلسل الجينوم المرجعي B73). وبالمثل ، فإن تفاعلات تفاعل البوليميراز المتسلسل المعيارية التي تم استردادها باستخدام البيتين (مع الأخذ في الاعتبار جميع أزواج التمهيدي البالغ عددها 46) تحتوي على متوسط ​​أعلى لمحتوى GC للبادئات (3.7 نقطة مئوية) والأمبليكونات المتوقعة (19.7 نقطة مئوية).

للتأكد من أن الأمبليكونات تتوافق مع الموقع المستهدف ، تم تجميع تسعة من منتجات PCR العشرة طويلة المدى في الشكل 4 ب وتسلسلها بواسطة جزيء واحد ، تسلسل في الوقت الفعلي. أنتج نهج التجميع والتحليل التسلسلي المستند إلى التمهيدي تسعة متواليات إجماع بالضبط مع هوية مثالية للتسلسل المتوقع (الجدول 1 الملف التكميلي S4).


الطرق والتنفيذ

سير عمل oli2go موضح في الشكل 1. تصف الأقسام الفرعية التالية السمات الرئيسية لكل خطوة بالتفصيل.

نظرة عامة على برنامج oli2go. (أ) يوضح سير العمل بدءًا من إدخال ن تسلسل الحمض النووي ، متبوعًا بتصميم متعدد الإرسال ، والذي يتم إجراؤه بشكل مستقل لكل تسلسل إدخال. بعد ذلك ، يتم إجراء فحص ثنائي التمهيدي باستخدام جميع البادئات المنتجة في تصميم تعدد الإرسال. يحتوي الإخراج الرئيسي على بادئات وتحقيقات لكل تسلسل إدخال بتنسيق FASTA. (ب) يوفر مزيدًا من التفاصيل حول مسبار تعدد الإرسال وخطوات تصميم التمهيدي ، والتي تتضمن كالتحديدات -mer ، T.م الحسابات ، وفحوصات دبوس الشعر ، والتحقق من خصوصية المسبار والتمهيدي بالإضافة إلى اقتران المسبار والبرايمر لكل تسلسل إدخال بشكل مستقل. (ج) يتخيل فحص ثنائي التمهيدي ، حيث يتم فحص جميع البادئات التي تستهدف جميع تسلسلات الإدخال ، الناتجة عن تصميم تعدد الإرسال السابق ، لتشكيل ثنائي التمهيدي.

نظرة عامة على برنامج oli2go. (أ) يوضح سير العمل بدءًا من إدخال ن تسلسل الحمض النووي ، متبوعًا بتصميم متعدد الإرسال ، والذي يتم إجراؤه بشكل مستقل لكل تسلسل إدخال. بعد ذلك ، يتم إجراء فحص ثنائي التمهيدي باستخدام جميع البادئات المنتجة في تصميم تعدد الإرسال. يحتوي الإخراج الرئيسي على بادئات وتحقيقات لكل تسلسل إدخال بتنسيق FASTA. (ب) يوفر مزيدًا من التفاصيل حول مسبار تعدد الإرسال وخطوات تصميم التمهيدي ، والتي تتضمن كالتحديدات -mer ، T.م الحسابات ، وفحوصات دبوس الشعر ، والتحقق من خصوصية المسبار والتمهيدي بالإضافة إلى إقران المسبار والبرايمر لكل تسلسل إدخال بشكل مستقل. (ج) يتخيل فحص ثنائي التمهيدي ، حيث يتم فحص جميع البادئات التي تستهدف جميع تسلسلات الإدخال ، الناتجة عن تصميم تعدد الإرسال السابق ، لتشكيل ثنائي التمهيدي.

مدخل

تُستخدم الصفحة الرئيسية للأداة المستندة إلى الويب oli2go لتحميل تسلسلات الإدخال وتحديد معلمات التصميم. يجب توفير التسلسلات بتنسيق FASTA ، إما عن طريق التحميل أو باستخدام مربع إدخال مخصص. يجب أن تتضمن البيانات ما لا يقل عن تسلسلين ، حيث تم تصميم oli2go للتعامل مع أكثر من تسلسل واحد لتفاعلات تعدد الإرسال. يتم دعم التسلسلات التي تحتوي على نيوكليوتيدات غامضة ، ولكن يجب استخدامها بعناية لأن كل موضع متغير داخل التسلسل يزيد من عدد الخطوات الحسابية. نظرًا لإجراء فحوصات الجودة لكل موضع متغير محتمل ، ستكون النتيجة زيادة في وقت التشغيل. معلمات الإدخال المعينة ضرورية لتصميم التمهيدي والمسبار وفحوصات dimerization. اعتمادًا على حالة الاستخدام ، يجب ضبط المعلمات الافتراضية بشكل مفيد. تصف العديد من الأوراق بالتفصيل اختيار المعلمات المحسنة لتصميم التمهيدي والمسبار (3 ، 4 ، 17 ، 18). بالإضافة إلى ذلك ، يدعم oli2go خيار إنشاء مجسات تهجين من جزأين تُستخدم في التجارب القائمة على الربط.

تحضير الملف

تتم محاذاة تسلسلات الإدخال أولاً باستخدام الإصدار المستقل من أداة البحث عن المحاذاة المحلية الأساسية (BLAST) الخاصة بالمركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) الإصدار 2.7.0+ ومجموعة شاملة من قواعد البيانات (الجدول 1). قواعد البيانات هذه عبارة عن مجموعة من ملفات التسلسل التي تغطي 100 مليون تسلسل من البكتيريا والفيروسات والفطريات والعتيقات واللافقاريات والعينات البيئية والبروتوزوا والنباتات ومشاريع بندقية الجينوم الكاملة (WGS) ، والتي تم تنزيلها من خادم بروتوكول نقل الملفات (FTP) الخاص بـ NCBI . يختار المستخدم قواعد البيانات لإعداد الملف والتحقق من خصوصية التحقيق. تشتمل نتائج بلاست على جميع النتائج التي تظهر تشابه تسلسل & gt90٪ لتسلسل الاستعلام وتشكل الأساس للتحقق من خصوصية التحقيقات.

مصادر قاعدة بيانات NCBI المستخدمة لفحص خصوصية المسبار

مصدر . عدد المتتاليات. جزء قاعدة البيانات.
بكتيريا 7 658 345 7.55%
العينات البيئية 7 276 975 7.18%
اللافقاريات 27 651 271 27.27%
تسلسلات حاصلة على براءة اختراع 31 140 928 30.71%
النباتات 3 798 824 3.75%
الفيروسات 1 837 439 1.81%
العتيقة 38 310 0.04%
الفطريات 3 889 143 3.84%
الكائنات الاوليه 3 880 518 3.83%
تسلسل مشروع WGS 14 220 046 14.02%
المبلغ الإجمالي للتسلسلات 101 391 799 100.00%
مصدر . عدد المتتاليات. جزء قاعدة البيانات.
بكتيريا 7 658 345 7.55%
العينات البيئية 7 276 975 7.18%
اللافقاريات 27 651 271 27.27%
تسلسلات حاصلة على براءة اختراع 31 140 928 30.71%
النباتات 3 798 824 3.75%
الفيروسات 1 837 439 1.81%
العتيقة 38 310 0.04%
الفطريات 3 889 143 3.84%
الكائنات الاوليه 3 880 518 3.83%
تسلسل مشروع WGS 14 220 046 14.02%
المبلغ الإجمالي للتسلسلات 101 391 799 100.00%

يتم سرد عدد التسلسلات وحصتها من تجمع البيانات بأكمله.

مصدر . عدد المتتاليات. جزء قاعدة البيانات.
بكتيريا 7 658 345 7.55%
العينات البيئية 7 276 975 7.18%
اللافقاريات 27 651 271 27.27%
تسلسلات حاصلة على براءة اختراع 31 140 928 30.71%
النباتات 3 798 824 3.75%
الفيروسات 1 837 439 1.81%
العتيقة 38 310 0.04%
الفطريات 3 889 143 3.84%
الكائنات الاوليه 3 880 518 3.83%
تسلسل مشروع WGS 14 220 046 14.02%
المبلغ الإجمالي للتسلسلات 101 391 799 100.00%
مصدر . عدد المتتاليات. جزء قاعدة البيانات.
بكتيريا 7 658 345 7.55%
العينات البيئية 7 276 975 7.18%
اللافقاريات 27 651 271 27.27%
تسلسلات حاصلة على براءة اختراع 31 140 928 30.71%
النباتات 3 798 824 3.75%
الفيروسات 1 837 439 1.81%
العتيقة 38 310 0.04%
الفطريات 3 889 143 3.84%
الكائنات الاوليه 3 880 518 3.83%
تسلسل مشروع WGS 14 220 046 14.02%
المبلغ الإجمالي للتسلسلات 101 391 799 100.00%

يتم سرد عدد التسلسلات وحصتها من تجمع البيانات بأكمله.

اختيار التمهيدي والمسبار

يبدأ اختيار البادئات والمجسات بإنشاء ك-mers ، بدءًا من الحد الأدنى من حجم التمهيدي والمسبار المحدد بواسطة المستخدم إلى الحد الأقصى ، باستخدام حجم الخطوة 1. بعد ذلك ، تيم يحسب لكل ك-مر (16 ، 19). المرشحون حيث تيم ضمن النطاق المحدد ثم يتم فحصها لتشكيل دبوس الشعر. يتم تنفيذ فحص دبوس الشعر باستخدام أداة المحاذاة الديناميكية الحرارية للنيوكليوتيدات من Primer3 (12). يستخدم هذا البرنامج جداول المعلمات الديناميكية الحرارية التي اقترحها سانتا لوسيا لحساب الهيكل الثانوي تيم و Δجي قيمة الأكثر استقرارًا على الوجهين (16). يتم قبول قليل النوكليوتيدات إذا كان هيكلها الثانوي تيم و Δجي القيمة أقل من العتبات المحددة من قبل المستخدم.

فحص خصوصية التحقيق

يعد فحص خصوصية المسبار أحد الميزات الرئيسية لـ oli2go. تقوم هذه الخطوة بتحليل كل مرشح محتمل للتحقيق باستخدام BLAST مقابل قواعد البيانات المحددة من قبل المستخدم (الجدول 1). تتم مقارنة مرات الدخول المحاذاة الناتجة مع مرات الدخول التسلسلية المستهدفة التي تم إنشاؤها في خطوة سير عمل إعداد الملف. سيتم قبول المجسات التي ترتبط بنفس التسلسلات مثل تسلسلها المستهدف فقط.

تعريف التمهيدي وفحص الخصوصية

تُستخدم المجسات المحددة الناتجة عن اختبار الخصوصية السابق للعثور على مرشحين محتملين من الأمام والخلف يحيطون بقليل النوكليوتيد التهجين. تعتمد قدرة الكشف على المسبار على خصوصية البادئات المصاحبة وتفاعل تضخيم الحمض النووي السابق. سينتج Oli2go أزواج التمهيدي المؤهلة (كل منها يحتوي على أساس واحد أمامي وعكسي) والتي تولد منتجًا ضمن نطاق الحجم المحدد ، ولا تشكل أي هياكل ثانوية مع بعضها البعض ، وتظهر الحد الأدنى من الاختلاف في Δجي القيم. يتم إجراء فحص خصوصية التمهيدي لتقليل مخاطر الارتباط التمهيدي بالحمض النووي للخلفية البشرية. تتم محاذاة المرشحين التمهيدي باستخدام Burrows-Wheeler Aligner (BWA) إلى الجينوم المرجعي البشري الذي تم تنزيله من خادم NCBI FTP (20).

فحص التمهيدي باهت

يعتبر فحص dimer cross أو primer dimer خطوة تصميم مهمة لتحسين أداء التمهيدي في تفاعلات تعدد الإرسال. يستخدم Oli2go ntthal لـ Primer3 و Δ المعرفة من قبل المستخدمجي و تيم القيم للتحقق من التباين المتبادل. تشكل أزواج التمهيدي الأمامية والعكسية المحددة الناتجة عن مهمة التصميم السابقة المدخلات لخطوة سير العمل الأخيرة هذه. يبدأ بتسلسل الإدخال الذي يحتوي على أقل عدد من البادئات المحددة. يتم فحص هذه البادئات مقابل كل البادئات الأخرى الممكنة لتسلسلات الإدخال الأخرى. تتضمن النتائج الأولى أزواج من البرايمر لا تتجاوز عتبات dimerization المتقاطعة. If the results contain at least one primer pair for each sequence, each one is checked against the other primers in the results. Finally, for each input sequence one primer pair forming no cross dimerization with all other sequences is returned.

انتاج |

The output is presented on a separate web-page and includes a table showing the resulting primers and probes, their تيم’s, product sizes, hairpin تيم’s, and Δجي القيم. The table also contains web links to NCBI’s online BLAST and Primer-BLAST to perform additional analysis. This table can also be downloaded as comma-separated values (CSV) file. Furthermore, primer and probe sequences as well as the initial input sequences are available in FASTA format. The used design parameters can be downloaded as text file.

تطبيق

The software workflow runs on a Linux server (64 CPUs, 256GB RAM). The main software packages used for the implementation are BLAST 2.7.0+, ntthal (which is part of Primer3 2.3.7), BWA, and Python 2.7 together with the Biopython library ( 21). In order to maximize the utilization of the server resources, most of the workflow steps are running in parallel using multithreading. The highly responsive user interface is implemented using Bootstrap 3.3.7 and enables the user to use oli2go on almost any device capable of entering the internet via browser ranging from Laptops, Tablets to Smartphones. Oli2go is freely accessible to all users at http://oli2go.ait.ac.at/.


A new feature was added to Primer-BLAST.

Tue, 29 Sep 2020 12:00:00 EST

We have added a new function to Primer-BLAST that helps users design primers common for a group of highly similar sequences.

Many users want to test if a gene is expressed but they don’t know or they don't care which transcripts are expressed. However, they do want primers to cover all transcript variants. Additionally, some users would like to have primers to cover a group of highly related bacteria strains.

Given a group of highly similar sequences, Primer-BLAST attempts to generate primers that are common for all sequences in this group. To find such primers, it uses BLAST to align the longest sequence among the group to the rest to find common regions which are then used to limit the locations of primers. The longest sequence is also used as the representative template sequence.

See the NCBI Insights post for an example search and more details.


Family-Specific Degenerate Primer Design: A Tool to Design Consensus Degenerated Oligonucleotides

Designing degenerate PCR primers for templates of unknown nucleotide sequence may be a very difficult task. In this paper, we present a new method to design degenerate primers, implemented in family-specific degenerate primer design (FAS-DPD) computer software, for which the starting point is a multiple alignment of related amino acids or nucleotide sequences. To assess their efficiency, four different genome collections were used, covering a wide range of genomic lengths: Arenavirus (

nucleotides), Baculovirus (

bp), اكتوباكيللوس ص. (

bp), and الزائفة ص. ( to

bp). In each case, FAS-DPD designed primers were tested computationally to measure specificity. Designed primers for Arenavirus و Baculovirus were tested experimentally. The method presented here is useful for designing degenerate primers on collections of related protein sequences, allowing detection of new family members.

1 المقدمة

The polymerase chain reaction (PCR), one of the most important analytical tools of molecular biology, allows a highly sensitive detection and specific genotyping of environmental samples, specially important in the metagenomic era [1]. A large list of genome typing applications includes arbitrarily primed PCR [2] (AP-PCR), random amplified primed DNAs [3] (RAPDs), PCR restriction fragment length polymorphism [4] (PCR-RFLP), and direct amplification of length polymorphism [5] (DALP). All of these techniques require a high quality and purity of the specific target template, because any available DNA could be substrate for the amplification step. In view of this, genotyping procedures of large genomes or complex samples are more reliable if they are based on DNA amplification using specific oligonucleotides. Therefore, primer design is crucial for efficient and successful amplification.

Several primer design programs are available (e.g., OLIGO [6], OSP [7, 8], Primer Master [9], PRIDE [10], Primer3 [11], among others). Regardless of each computational working strategy, all of these use a set of common criteria (e.g.,

content, melting temperature, etc.) to evaluate the quality of primer candidates in a specific target region selected by the user. Alternative programs are aimed at more specific purposes, such as selection of primers that bind to conserved genomic regions based on multiple sequence alignments [12, 13], primer design for selective amplification of protein-coding regions [14], oligonucleotide design for site-directed mutagenesis [15], and primer design for hybridization [16]. Usually, the design of truly specific primers requires the information of the complete nucleotide sequence. This is the starting point for most of the programs described in the literature. However, the need of designing specific primers is not always accompanied by the complete knowledge of the target genome sequence.

A primer, or more generally any DNA sequence, is called specific if it represents a unique sequence and is called degenerate if it represents a collection of unique sequences. For example, the amino acid sequence “YHP” could be coded by “TATCATCCC,” “TACCATCCA,” or “TACCACCCG,” among others all of these are unique sequences that can be summarized in a “degenerate” nucleotide sequence “TAYCARCCN,” using IUPAC code. Operatively, the use of a degenerate primer implies the use of a population of specific primers that cover all the possible combinations of nucleotide sequences coding for a given protein sequence. Also, primers including modified bases can be used. Some modified bases can match different bases.

Although the increase in degeneracy rises the chance of unspecific annealing of the designed primers, it also increases the probability of finding unknown divergent variants of a sequence family. This dual behavior must be taken into account during the design. Algorithmic search of primers that include degenerated positions is usually defined as the degenerate primer design (DPD) problem. In recent years, several methods were developed to solve DPD problem. Each one has a specific scope or is designed to solve a variant of the problem, but all of them aim to minimize the number of degenerations of the resulting primers.

The DPD problem was expressed in different ways by many researchers. Linhart and Shamir [17] presented the maximum coverage DPD problem (MC-DPD), with the goal of finding a primer that covers the maximum number of input sequences. The selection of primers is constrained by limiting the maximum degeneracy. They also stated the minimum degeneracy DPD problem (MD-DPD), in which the objective is finding a primer with the minimum degeneracy that covers all the input sequences. To solve MC-DPD they have developed the HYDEN program [18]. Wei et al. [19] developed the DePiCt program that uses hierarchical clustering of protein blocks to design the primers. Rose et al. [20] developed a method for hybrid degenerate-nondegenerate primers, where the 3′ region is degenerated and its 5′ region is a consensus clamp. It was implemented in CODEHOP [21] and iCODEHOP [22] programs and was used to search new members of protein families and for identification and characterization of viral genomes. Balla and Rajasekaran [23] described a method for a variant of MD-DPD that tolerates mismatch errors, implemented in the minDPS program. The programs PT-MIPS and PAMPS address mainly the problem of multiple degenerate primer design. The aim of these programs is finding the minimum number of degenerate primers that cover all the input sequences, taking into account that none of them may be more degenerated than an input value.

In this study a new method for solving the DPD problem is proposed, in which the focus is shifted away from the global minimum degenerated primer in favor of maximizing a score value which contains degeneracy but weighted by its proximity to the 3′ end of the primer. This minimizes the degeneracy at that end while allowing more freedom in the remaining positions. Hereby, the best scoring primers may not be the less degenerated, but take into account a biological restraint that is not so heavily considered in other methods. The 3′ end is the essential anchoring site because it is where the polymerase initiates its activity. From a strategic point of view, a decision must be made whether or not to allow degeneracy at this end. The presence of degeneracy at the 3′ end probably assures a greater diversity of sequences to be detected. However, at the same time, it diminishes the proportion of primer specific for a given sequence. Therefore, we decided to be very strict in the search of conserved regions and minimize the amount of degeneracy incorporated at this end. If the input set of sequences is sufficiently large, it is highly probable that a region identified as conserved among all known sequences will likewise be conserved in any new member of the family.

2. Scoring and Primer Search Strategy

The method presented here can be used starting with DNA or protein sequence alignments (Figure 1(a)). If the input was DNA, sequences were aligned to obtain one global degenerate DNA consensus. If the input was a protein alignment, each protein of the alignment is backtranslated into a degenerate DNA sequence. All the degenerate DNA sequences were combined in one global degenerate DNA consensus. This consensus sequence covers all the putative input sequences that could be the origin of each protein sequence (Figure 1(b)). Also, the consensus sequence may code for amino acids that were not detected in the known sequences. This is inevitable given the kind of degeneracy of the genetic code.


(أ)
(ب)

مراجع

Richardson AO, Palmer JD: Horizontal gene transfer in plants. J اكسب بوت. 2007, 58 (1): 1-9.

Acuna R, Padilla BE, Florez-Ramos CP, Rubio JD, Herrera JC, Benavides P, Lee SJ, Yeats TH, Egan AN, Doyle JJ: Adaptive horizontal transfer of a bacterial gene to an invasive insect pest of coffee. Proc Natl Acad Sci USA. 2012, 109 (11): 4197-4202.

Davies J, Davies D: Origins and evolution of antibiotic resistance. Microbiol Mol Biol Rev. 2010, 74 (3): 417-433. 10.1128/MMBR.00016-10.

Ochman H, Lawrence JG, Groisman EA: Lateral gene transfer and the nature of bacterial innovation. طبيعة سجية. 2000, 405 (6784): 299-304. 10.1038/35012500.

Dobrindt U, Hochhut B, Hentschel U, Hacker J: Genomic islands in pathogenic and environmental microorganisms. Nat Rev Microbiol. 2004, 2 (5): 414-424. 10.1038/nrmicro884.

Keeling PJ, Palmer JD: Horizontal gene transfer in eukaryotic evolution. نات ريف جينيت. 2008, 9 (8): 605-618. 10.1038/nrg2386.

Feschotte C, Pritham EJ: DNA transposons and the evolution of eukaryotic genomes. Annu Rev Genet. 2007, 41: 331-368. 10.1146/annurev.genet.40.110405.090448.

Schaack S, Gilbert C, Feschotte C: Promiscuous DNA: horizontal transfer of transposable elements and why it matters for eukaryotic evolution. اتجاهات Ecol Evol. 2010, 25 (9): 537-546. 10.1016/j.tree.2010.06.001.

Cho Y, Qiu YL, Kuhlman P, Palmer JD: Explosive invasion of plant mitochondria by a group I intron. Proc Natl Acad Sci USA. 1998, 95 (24): 14244-14249. 10.1073/pnas.95.24.14244.

Bergthorsson U, Adams KL, Thomason B, Palmer JD: Widespread horizontal transfer of mitochondrial genes in flowering plants. طبيعة سجية. 2003, 424 (6945): 197-201. 10.1038/nature01743.

Won H, Renner SS: Horizontal gene transfer from flowering plants to Gnetum. Proc Natl Acad Sci USA. 2003, 100 (19): 10824-10829. 10.1073/pnas.1833775100.

Bergthorsson U, Richardson AO, Young GJ, Goertzen LR, Palmer JD: Massive horizontal transfer of mitochondrial genes from diverse land plant donors to the basal angiosperm Amborella. Proc Natl Acad Sci USA. 2004, 101 (51): 17747-17752. 10.1073/pnas.0408336102.

Davis CC, Wurdack KJ: Host-to-parasite gene transfer in flowering plants: phylogenetic evidence from Malpighiales. علم. 2004, 305 (5684): 676-678. 10.1126/science.1100671.

Mower JP, Stefanovic S, Young GJ, Palmer JD: Plant genetics: gene transfer from parasitic to host plants. طبيعة سجية. 2004, 432 (7014): 165-166.

Davis CC, Anderson WR, Wurdack KJ: Gene transfer from a parasitic flowering plant to a fern. بروك بيول سسي. 2005, 272 (1578): 2237-2242. 10.1098/rspb.2005.3226.

Diao X, Freeling M, Lisch D: Horizontal transfer of a plant transposon. بلوس بيول. 2006, 4 (1): e5-10.1371/journal.pbio.0040005.

Barkman TJ, McNeal JR, Lim SH, Coat G, Croom HB, Young ND, Depamphilis CW: Mitochondrial DNA suggests at least 11 origins of parasitism in angiosperms and reveals genomic chimerism in parasitic plants. بي إم سي إيفول بيول. 2007, 7: 248-10.1186/1471-2148-7-248.

Goremykin VV, Salamini F, Velasco R, Viola R: Mitochondrial DNA of Vitis vinifera and the issue of rampant horizontal gene transfer. مول بيول إيفول. 2009, 26 (1): 99-110.

Yoshida S, Maruyama S, Nozaki H, Shirasu K: Horizontal gene transfer by the parasitic plant Striga hermonthica. علم. 2010, 328 (5982): 1128-10.1126/science.1187145.

Sanchez-Puerta MV, Cho Y, Mower JP, Alverson AJ, Palmer JD: Frequent, phylogenetically local horizontal transfer of the cox1 group I Intron in flowering plant mitochondria. مول بيول إيفول. 2008, 25 (8): 1762-1777. 10.1093/molbev/msn129.

Christin PA, Edwards EJ, Besnard G, Boxall SF, Gregory R, Kellogg EA, Hartwell J, Osborne CP: Adaptive evolution of C(4) photosynthesis through recurrent lateral gene transfer. كور بيول. 2012, 22 (5): 445-449. 10.1016/j.cub.2012.01.054.

Vallenback P, Jaarola M, Ghatnekar L, Bengtsson BO: Origin and timing of the horizontal transfer of a PgiC gene from Poa to Festuca ovina. مول Phylogenet Evol. 2008, 46 (3): 890-896. 10.1016/j.ympev.2007.11.031.

Hepburn NJ, Schmidt DW, Mower JP: Loss of Two Introns from the Magnolia tripetala Mitochondrial cox2 Gene Implicates Horizontal Gene Transfer and Gene Conversion as a Novel Mechanism of Intron Loss. مول بيول إيفول. 2012, 29 (10): 3111-3120. 10.1093/molbev/mss130.

Park JM, Manen JF, Schneeweiss GM: Horizontal gene transfer of a plastid gene in the non-photosynthetic flowering plants Orobanche and Phelipanche (Orobanchaceae). مول Phylogenet Evol. 2007, 43 (3): 974-985. 10.1016/j.ympev.2006.10.011.

Xi Z, Bradley RK, Wurdack KJ, Wong KM, Sugumaran M, Bomblies K, Rest JS, Davis CC: Horizontal transfer of expressed genes in a parasitic flowering plant. علم الجينوم BMC. 2012, 13 (1): 227-10.1186/1471-2164-13-227.

Birschwilks M, Haupt S, Hofius D, Neumann S: Transfer of phloem-mobile substances from the host plants to the holoparasite Cuscuta sp. J اكسب بوت. 2006, 57 (4): 911-921. 10.1093/jxb/erj076.

Tomilov AA, Tomilova NB, Wroblewski T, Michelmore R, Yoder JI: Trans-specific gene silencing between host and parasitic plants. Plant J. 2008, 56 (3): 389-397. 10.1111/j.1365-313X.2008.03613.x.

Westwood JH, Roney JK, Khatibi PA, Stromberg VK: RNA translocation between parasitic plants and their hosts. Pest Manag Sci. 2009, 65 (5): 533-539. 10.1002/ps.1727.

Louis S, Delobel B, Gressent F, Rahioui I, Quillien L, Vallier A, Rahbe Y: Molecular and biological screening for insect-toxic seed albumins from four legume species. علوم النبات. 2004, 167 (4): 705-714. 10.1016/j.plantsci.2004.04.018.

Louis S, Delobel B, Gressent F, Duport G, Diol O, Rahioui I, Charles H, Rahbe Y: Broad screening of the legume family for variability in seed insecticidal activities and for the occurrence of the A1b-like knottin peptide entomotoxins. Phytochemistry. 2007, 68 (4): 521-535. 10.1016/j.phytochem.2006.11.032.

Gelly JC, Gracy J, Kaas Q, Le-Nguyen D, Heitz A, Chiche L: The KNOTTIN website and database: a new information system dedicated to the knottin scaffold. الدقة الأحماض النووية. 2004, 32 (Database issue): D156-D159.

Clark RJ, Jensen J, Nevin ST, Callaghan BP, Adams DJ, Craik DJ: The engineering of an orally active conotoxin for the treatment of neuropathic pain. Angew Chem Int Ed Engl. 2010, 49 (37): 6545-6548. 10.1002/anie.201000620.

Wang X, Connor M, Smith R, Maciejewski MW, Howden ME, Nicholson GM, Christie MJ, King GF: Discovery and characterization of a family of insecticidal neurotoxins with a rare vicinal disulfide bridge. Nat Struct Biol. 2000, 7 (6): 505-513. 10.1038/75921.

Jackson PJ, McNulty JC, Yang YK, Thompson DA, Chai B, Gantz I, Barsh GS, Millhauser GL: Design, pharmacology, and NMR structure of a minimized cystine knot with agouti-related protein activity. الكيمياء الحيوية. 2002, 41 (24): 7565-7572. 10.1021/bi012000x.

Clark RJ, Daly NL, Craik DJ: Structural plasticity of the cyclic-cystine-knot framework: implications for biological activity and drug design. Biochem J. 2006, 394 (Pt 1): 85-93.

Combelles C, Gracy J, Heitz A, Craik DJ, Chiche L: Structure and folding of disulfide-rich miniproteins: insights from molecular dynamics simulations and MM-PBSA free energy calculations. البروتينات. 2008, 73 (1): 87-103. 10.1002/prot.22054.

Silverman AP, Levin AM, Lahti JL, Cochran JR: Engineered cystine-knot peptides that bind alpha(v)beta(3) integrin with antibody-like affinities. J مول بيول. 2009, 385 (4): 1064-1075. 10.1016/j.jmb.2008.11.004.

Lewis GP: Legumes of the World. 2005, Kew: Royal Botanic Gardens

Joel DM: The new nomenclature of Orobanche and Phelipanche. Weed Res. 2009, 49: 6-7.

Schneeweiss GM: Correlated evolution of life history and host range in the nonphotosynthetic parasitic flowering plants Orobanche and Phelipanche (Orobanchaceae). J Evol Biol. 2007, 20 (2): 471-478. 10.1111/j.1420-9101.2006.01273.x.

Soltis DE, Smith SA, Cellinese N, Wurdack KJ, Tank DC, Brockington SF, Refulio-Rodriguez NF, Walker JB, Moore MJ, Carlsward BS: Angiosperm phylogeny: 17 genes, 640 taxa. Am J Bot. 2011, 98 (4): 704-730. 10.3732/ajb.1000404.

Parker C: Observations on the current status of Orobanche and Striga problems worldwide. Pest Manag Sci. 2009, 65 (5): 453-459. 10.1002/ps.1713.

Altschul SF و Madden TL و Schaffer AA و Zhang J و Zhang Z و Miller W و Lipman DJ: Gapped BLAST و PSI-BLAST: جيل جديد من برامج البحث في قواعد بيانات البروتين. الدقة الأحماض النووية. 1997, 25 (17): 3389-3402. 10.1093 / nar / 25.17.3389.

Westwood JH, Yoder JI, Timko MP, dePamphilis CW: The evolution of parasitism in plants. اتجاهات نباتية. 2010, 15 (4): 227-235. 10.1016/j.tplants.2010.01.004.

Goodstein DM, Shu S, Howson R, Neupane R, Hayes RD, Fazo J, Mitros T, Dirks W, Hellsten U, Putnam N: Phytozome: a comparative platform for green plant genomics. الدقة الأحماض النووية. 2012, 40 (Database issue): D1178-D1186.

Wojciechowski MF, Lavin M, Sanderson MJ: A phylogeny of legumes (Leguminosae) based on analysis of the plastid matK gene resolves many well-supported subclades within the family. Am J Bot. 2004, 91 (11): 1846-1862. 10.3732/ajb.91.11.1846.

Lavin M, Herendeen PS, Wojciechowski MF: Evolutionary rates analysis of Leguminosae implicates a rapid diversification of lineages during the tertiary. Syst Biol. 2005, 54 (4): 575-594. 10.1080/10635150590947131.

Gracy J, Le-Nguyen D, Gelly JC, Kaas Q, Heitz A, Chiche L: KNOTTIN: the knottin or inhibitor cystine knot scaffold in 2007. Nucleic Acids Res. 2008, 36 (Database issue): D314-D319.

Westwood JH: The Parasitic Plant Genome Project: New Tools for Understanding the Biology of Orobanche and Striga. علوم الاعشاب. 2012, 60 (2): 295-306. 10.1614/WS-D-11-00113.1.

Schneeweiss GM, Colwell A, Park JM, Jang CG, Stuessy TF: Phylogeny of holoparasitic Orobanche (Orobanchaceae) inferred from nuclear ITS sequences. مول Phylogenet Evol. 2004, 30 (2): 465-478. 10.1016/S1055-7903(03)00210-0.

Schneeweiss GM, Palomeque T, Colwell AE, Weiss-Schneeweiss H: Chromosome numbers and karyotype evolution in holoparasitic Orobanche (Orobanchaceae) and related genera. Am J Bot. 2004, 91 (3): 439-448. 10.3732/ajb.91.3.439.

Manen JF, Habashi C, Jeanmonod D, Park JM, Schneeweiss GM: Phylogeny and intraspecific variability of holoparasitic Orobanche (Orobanchaceae) inferred from plastid rbcL sequences. مول Phylogenet Evol. 2004, 33 (2): 482-500. 10.1016/j.ympev.2004.06.010.

Nickrent D: The Parasitic Plant Connection. http://www.parasiticplants.siu.edu/,

Johnson F: Transmission of plant viruses by dodder. Phytopathology. 1941, 31 (7): 649-656.

Bennett CW: Studies of dodder transmission of plant viruses. Phytopathology. 1944, 34 (10): 905-932.

Roney JK, Khatibi PA, Westwood JH: Cross-species translocation of mRNA from host plants into the parasitic plant dodder. نبات فيزيول. 2007, 143 (2): 1037-1043.

David-Schwartz R, Runo S, Townsley B, Machuka J, Sinha N: Long-distance transport of mRNA via parenchyma cells and phloem across the host-parasite junction in Cuscuta. فيتول جديد. 2008, 179 (4): 1133-1141. 10.1111/j.1469-8137.2008.02540.x.

Olmstead RG, dePamphilis CW, Wolfe AD, Young ND, Elisons WJ, Reeves PA: Disintegration of the Scrophulariaceae. Am J Bot. 2001, 88 (2): 348-361. 10.2307/2657024.

Edgar RC: MUSCLE: a multiple sequence alignment method with reduced time and space complexity. المعلوماتية الحيوية BMC. 2004, 5: 113-10.1186/1471-2105-5-113.

Stamatakis A: RAxML-VI-HPC: maximum likelihood-based phylogenetic analyses with thousands of taxa and mixed models. المعلوماتية الحيوية. 2006, 22 (21): 2688-2690. 10.1093/bioinformatics/btl446.

Drummond AJ, Rambaut A: BEAST: Bayesian evolutionary analysis by sampling trees. بي إم سي إيفول بيول. 2007, 7: 214-10.1186/1471-2148-7-214.

Sanderson MJ: r8s: inferring absolute rates of molecular evolution and divergence times in the absence of a molecular clock. المعلوماتية الحيوية. 2003, 19 (2): 301-302. 10.1093/bioinformatics/19.2.301.

Gracy J, Chiche L: Optimizing structural modeling for a specific protein scaffold: knottins or inhibitor cystine knots. المعلوماتية الحيوية BMC. 2010, 11: 535-10.1186/1471-2105-11-535.

Pond SL, Frost SD, Muse SV: HyPhy: hypothesis testing using phylogenies. المعلوماتية الحيوية. 2005, 21 (5): 676-679. 10.1093/bioinformatics/bti079.

Li H, Durbin R: Fast and accurate short read alignment with Burrows-Wheeler transform. المعلوماتية الحيوية. 2009, 25 (14): 1754-1760. 10.1093/bioinformatics/btp324.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R: The Sequence Alignment/Map format and SAMtools. المعلوماتية الحيوية. 2009, 25 (16): 2078-2079. 10.1093/bioinformatics/btp352.

Quinlan AR, Hall IM: BEDTools: a flexible suite of utilities for comparing genomic features. المعلوماتية الحيوية. 2010, 26 (6): 841-842. 10.1093/bioinformatics/btq033.


المواد

It is noteworthy that the design of the degenerate primer pair reported in this present study was effectively executed by the synergy of different software programs and web servers. The software programs used here include the open-sourced Highly Degenerate primer (HYDEN) design program accessible from (http://acgt.cs.tau.ac.il/hyden/hyden_license.html) [7], FastPCR v6.7 (http://primerdigital.com/Fastpcr.html) [14], Geneious Prime software version2020.1.2 (www.geneious.com/prime/). The degenerate primer pair reported in this study was designed on a hp personal computer composed of a 64-bit operating system, ×64-based processor, 2 CPUs, and a storage of 500 GB. The material used in this study were 88 catA genes from authentic bacterial strains known to possess the catabolic gene. The gene sequences were downloaded in FASTA format from NCBI database accessible from (https://ncbi.nlm.nih.gov). Files interconversion from the extension .txt to FASTA format was achieved through an open-sourced web server accessible from (http://www.hiv.lanl.gov/content/sequence/FORMAT_CONVERSION/form.html).


مناقشة

We developed and curated a reference database for 67 fish species, belonging to 54 genera that are widespread across the Neotropical realm, and used it to develop a 12S mini-barcode marker and estimate a genetic distance threshold value for Neotropical fish species delimitation. Having a reference database associated with mini-barcode primer sets specific for Neotropical species is an important asset for DNA metabarcoding, especially when analyzing eDNA samples from such megadiverse fauna 21,22 .

The taxonomic resolution of 12S full and mini barcodes libraries provided enough molecular polymorphism to differentiate all 67 morpho-species. Moreover, the 12S full-length barcode (ca. 565 bp) was sufficient to discriminate all 70 MOTUs, which was in accordance with previous molecular (COI based) identifications of the same specimens 28 . Interestingly, the mini-barcode region’s (i.e. 193 bp—NeoFish_3) taxonomic resolution performed similarly to the full-length database, providing the same number of MOTUs when applying the GMYC and genetic distances thresholds analyses (70 MOTUs). The other analyses of the mini-barcode dataset overestimated the number of MOTUs (bPTP with 76) or underestimated it (ABGD with 67 MOTUs).

When performing genetic distance threshold analysis using the full-length library, we obtained a threshold value (0.40%, Fig. 4a) similar to our mini-barcode region (0.55%, Fig. 4b). Fish species delimitation threshold values based on the 12S region are an important reference for future studies using this marker, but they may need to establish a priori reference value when interpreting genetic distance data, such as the 2% widely used for COI 53 . Although we have analyzed several genera from all major Neotropical fish taxa, it is important to note that its value will be more robust and better reflect the real divergence between species when more species are added to our reference database.

Species delimitation and taxonomic resolution analyses revealed the potential of NeoFish_3 amplicons to reliably identify species, since there was no relevant disparity between full-length and mini barcode libraries for these analyses. Similar results were obtained for the COI gene, as a comparison between full-length and mini barcodes, especially when it was used in degraded samples. This demonstrates that the latter is informative for species-level sorting of: (1) major eukaryotic groups and archival specimens 45 (2) moth and wasp museum specimens 54 , and (3) several bird species 55 . However, few congeneric species have been analyzed in this study, and thus, to overcome this putative drawback, future analyses should include a higher number of species from the same genus to provide even more robust results.

SWAN analysis showed that the target NeoFish_3 amplicon would be the best region for taxonomic differentiation of species since it recovered the best indices in all established criteria (Fig. 2). However, we did not analyze the whole 12S gene of all species to proper compare the NeoFish_3 to other previously used amplicons (MifishU and Teleo1) using characteristics such as taxonomic resolution and best primer site. The target 12S rRNA gene region used to build our reference database represents approximately 60% of the 12S full-length gene (952 bp) (Fig. 1a) and includes only a small fragment of the 12S region amplified by the MiFishU marker and also the initial region of the forward Teleo1 (Fig. 1b).

In vitro tests showed that the newly developed NeoFish_3 marker is efficient and thus, was able to amplify the target region of the 12S rRNA gene from 22 tissue DNA extracts and environmental DNA recovered from an aquarium containing one fish species (Supplementary Table S1 Fig. S1). However, further evaluation of amplification success with samples obtained from Neotropical river basins using a DNA metabarcoding approach for a whole fish community is recommended, as different types of environmental samples will vary in patterns of DNA degradation and exposure to inhibitors 33 . Although 67 fish species represent a low percentage of the Neotropical freshwater fish species, they nevertheless account for the main Neotropical orders, since we include DNA of species from Characiformes, Cyprinodontiformes, Gymnotiformes, Perciformes, Siluriformes, and Synbranchiformes.

Amplification of non-target organisms has been previously reported as a drawback of universal eDNA available primer sets that led to the use of human blocking primers to avoid cross amplification. When comparing amplification of non-target taxa to previously designed primers sets (Teleo1 and MiFishU), a better specificity of NeoFish_3 was detected with our in silico PCR analysis. For Teleo1 and MiFishU the amplification rate for Mammalia, including الانسان العاقل, was over 1000 sequences (Table 2), while the NeoFish_3 had no cross amplification of these. Moreover, when using the Teleo1 and MiFishU markers to assess fish communities diversity in French Guiana 21 and Japan 31 , both papers report amplification of DNA from insects and mammals when analyzing eDNA samples. Such untargeted amplification and detection in eDNA studies may hamper the identification of rare species since it may consume most of the DNA sequences obtained 29,56 . However, before assuming that NeoFish_3 outperformed other 12S mini-barcode markers, in situ tests would be needed to check if there would indeed be lower amplification of non-targeted species.

Herein, we applied a powerful framework for the development and validation of a fish-specific primer set together with a custom reference database aimed at DNA metabarcoding analysis in the Neotropical realm. Species delimitation analyses strongly suggest that even when using a short region of the 12S mitochondrial region, we could discriminate each taxon to the species level. In addition, we were able to set an interspecific distance-based threshold for species delimitation that would be helpful throughout bioinformatics metabarcoding short reads analysis. Thus, our custom reference database and mini-barcodes markers are an important asset for an ecoregion scale DNA based biodiversity evaluation, such as eDNA metabarcoding, that can help with the complex task of conserving the megadiverse Neotropical ichthyofauna.


شاهد الفيديو: PCR Primer Designing. NCBI Primer BLAST. In silico PCR primer designing and validation (كانون الثاني 2023).