Генофонд Европы
Покупка
Издательство:
КМК
Автор:
Балановский Олег Павлович
Год издания: 2015
Кол-во страниц: 354
Дополнительно
Вид издания:
Монография
Уровень образования:
Профессиональное образование
ISBN: 978-5-9907157-0-7
Артикул: 817544.01.99
Доступ онлайн
В корзину
Монография посвящена генофонду народонаселения Европы - исследованию его пространственной изменчивости и его истории. Исследования генофондов бурно развиваются благодаря использованию митохондриальной ДНК. Y-хромосомы и полногеномных панелей маркеров. Но обобщающие работы по мтДНК н Y-хромосоме в Европе устарели, поскольку опубликованы более десятилетия назад до выхода основной массы частных научных публикаций. Поэтому в книге проанализированы как собственные данные автора, так и литературные: созданные базы данных включили более 130 тысяч образцов по мтДНК и более 140 тысяч - по Y-хромосоме. Параллельное изучение генофонда Европы по маркерам Y-хромосомы, мтДНК и полногеномным панелям обеспечило синтез результатов этих трех генетических систем. Такой синтез актуален не только для генетиков, но и для смежных наук - антропологии, археологии, лингвистики, истории, все активнее включающих данные генетики в комплексные исследования этногенеза. В книге рассмотрены и данные по древней ДНК, позволяющие - эпоха за эпохой - проследить историю генофонда Европы. А совместный анализ количественных лингвистических и генетических данных выявляет непростую связь языков и генофондов. Особую актуальность для российской науки имеют исследования славянских и северокавказских народов, которым посвящены отдельные главы.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 06.03.01: Биология
- ВО - Магистратура
- 06.04.01: Биология
- Ординатура
- 31.08.30: Генетика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Î.Ï. Áàëàíîâñêèé ÃÅÍÎÔÎÍÄ ÅÂÐÎÏÛ Òîâàðèùåñòâî íàó÷íûõ èçäàíèé ÊÌÊ Ìîñêâà 2015
ISBN 978-5-9907157-0-7 Áàëàíîâñêèé Î.Ï. Ãåíîôîíä Åâðîïû. Ì.: Òîâ-âî íàó÷í. èçäàíèé ÊÌÊ. 2015. 354 ñ. Ìîíîãðàôèÿ ïîñâÿùåíà ãåíîôîíäó íàðîäîíàñåëåíèÿ Åâðîïû – èññëåäîâàíèþ åãî ïðîñòðàíñòâåííîé èçìåí÷è- âîñòè è åãî èñòîðèè. Èññëåäîâàíèÿ ãåíîôîíäîâ áóðíî ðàçâèâàþòñÿ áëàãîäàðÿ èñïîëüçîâàíèþ ìèòîõîíäðèàëüíîé ÄÍÊ, Y-õðîìîñî- ìû è ïîëíîãåíîìíûõ ïàíåëåé ìàðêåðîâ. Íî îáîáùàþùèå ðàáîòû ïî ìòÄÍÊ è Y-õðîìîñîìå â Åâðîïå óñòàðåëè, ïîñêîëüêó îïóáëèêîâàíû áîëåå äåñÿòèëåòèÿ íàçàä äî âûõîäà îñíîâíîé ìàññû ÷àñòíûõ íàó÷íûõ ïóáëèêàöèé. Ïî- ýòîìó â êíèãå ïðîàíàëèçèðîâàíû êàê ñîáñòâåííûå äàííûå àâòîðà, òàê è ëèòåðàòóðíûå: ñîçäàííûå áàçû äàííûõ âêëþ÷èëè áîëåå 130 òûñÿ÷ îáðàçöîâ ïî ìòÄÍÊ è áîëåå 140 òûñÿ÷ – ïî Y-õðîìîñîìå. Ïàðàëëåëüíîå èçó÷åíèå ãåíîôîíäà Åâðîïû ïî ìàðêåðàì Y-õðîìîñîìû, ìòÄÍÊ è ïîëíîãåíîìíûì ïàíåëÿì îáåñ- ïå÷èëî ñèíòåç ðåçóëüòàòîâ ýòèõ òðåõ ãåíåòè÷åñêèõ ñèñòåì. Òàêîé ñèíòåç àêòóàëåí íå òîëüêî äëÿ ãåíåòèêîâ, íî è äëÿ ñìåæíûõ íàóê – àíòðîïîëîãèè, àðõåîëîãèè, ëèíãâèñòèêè, èñòîðèè, âñå àêòèâíåå âêëþ÷àþùèõ äàííûå ãåíåòè- êè â êîìïëåêñíûå èññëåäîâàíèÿ ýòíîãåíåçà.  êíèãå ðàññìîòðåíû è äàííûå ïî äðåâíåé ÄÍÊ, ïîçâîëÿþùèå – ýïîõà çà ýïîõîé – ïðîñëåäèòü èñòîðèþ ãåíî- ôîíäà Åâðîïû. À ñîâìåñòíûé àíàëèç êîëè÷åñòâåííûõ ëèíãâèñòè÷åñêèõ è ãåíåòè÷åñêèõ äàííûõ âûÿâëÿåò íåïðîñ- òóþ ñâÿçü ÿçûêîâ è ãåíîôîíäîâ. Îñîáóþ àêòóàëüíîñòü äëÿ ðîññèéñêîé íàóêè èìåþò èññëåäîâàíèÿ ñëàâÿíñêèõ è ñåâåðîêàâêàçñêèõ íàðîäîâ, êîòîðûì ïîñâÿùåíû îòäåëüíûå ãëàâû. © Áàëàíîâñêèé Î.Ï. òåêñò, 2015. © Ò-âî íàó÷íûõ èçäàíèé ÊÌÊ, 2015.
ÏÐÅÄÈÑËÎÂÈÅ Ãåíåòè÷åñêîå èçó÷åíèå ïîïóëÿöèé ÷åëîâåêà óæå ñîòíþ ëåò ïðèâëåêàåò ìíîãèõ èññëåäîâàòåëåé, ñðå- äè êîòîðûõ âèäíåéøèå ïðåäñòàâèòåëè îòå÷åñòâåííîé è ìèðîâîé áèîëîãèè: À.Ñ. Ñåðåáðîâñêèé, Í.Ê. Êîëüöîâ, Â.Â. Áóíàê, Ã.Ô. Äåáåö, Þ.Ï. Àëòóõîâ, Þ.Ã. Ðû÷êîâ, L.L. Cavalli-Sforza, W. Bodmer, à òàêæå ïðåäñòàâèòåëè ñìåæíûõ äèñöèïëèí – àðõåîëîãèè, ëèíãâèñòèêè, ïðèêëàäíîé ìàòåìàòèêè, ïàëåîãåîãðà- ôèè. Çà ñâîþ äîëãóþ èñòîðèþ ãåíîãåîãðàôèÿ èñïîëüçîâàëà ñàìûå ðàçíûå ìàðêåðû – îò ãðóïï êðîâè äî ôàìèëèé, îò îòäåëüíûõ ÄÍÊ-ìàðêåðîâ äî ïîëíûõ ãåíîìîâ – è îáíàðóæèëà ìíîæåñòâî ÷àñòíûõ çàêîíî- ìåðíîñòåé, ïðè÷åì áîëüøèíñòâî èç íèõ ïðîÿâëÿëèñü âíîâü è âíîâü ïðè àíàëèçå êàæäîãî î÷åðåäíîãî òèïà ìàðêåðîâ. Êðîìå ìíîæåñòâà ÷àñòíûõ çàêîíîìåðíîñòåé, è â çàðóáåæíîé, è â ðîññèéñêîé øêîëàõ ãåíîãåîãðàôèè áûë ðàçðàáîòàí è ðÿä îáùèõ êîíöåïöèé, âêëþ÷àÿ òåîðèþ äåìè÷åñêîé äèôôóçèè, êîí- öåïöèþ îáîáùåííîãî ãåíà, ïðèíöèï ýêâèäèñòàíòíîñòè è ðÿä äðóãèõ. Ïðåäëàãàåìàÿ êíèãà ïðîäîëæàåò òðàäèöèþ ñèñòåìàòè÷åñêîãî ãåíîãåîãðàôè÷åñêîãî èçó÷åíèÿ îòäåëüíûõ ðåãèîíîâ ìèðà, è ïîñâÿùåíà ãå- íîôîíäó íàðîäîíàñåëåíèÿ Åâðîïû (äëÿ êðàòêîñòè – ãåíîôîíäó Åâðîïû). Ïðè ýòîì ãåíîôîíä Åâðîïû – è òàê ñàìûé ïîäðîáíî èçó÷åííûé ñðåäè âñåõ ðåãèîíîâ ìèðà. Äëÿ åâðîïåéñêîé íàóêè îí ñòàë ïîëèãîíîì äëÿ ïðîâåðêè âñåõ ãëàâíûõ ãåíåòè÷åñêèõ êîíöåïöèé è ìåòîäîâ. Íàïðèìåð, âîïðîñ î ïàëåîëèòè÷åñêîì èëè íåîëèòè÷åñêîì âðåìåíè ôîðìèðîâàíèÿ îñíîâíûõ ÷åðò åâðî- ïåéñêîãî ãåíîôîíäà ÿâëÿåòñÿ, ïîæàëóé, íàèáîëåå øèðîêî îáñóæäàåìûì âîïðîñîì â ïîïóëÿöèîííîé ãåíåòèêå ÷åëîâåêà. Îá ýòîì ñâèäåòåëüñòâóåò è ÷èñëî ñòàòåé íà ýòó òåìó (â òîì ÷èñëå â æóðíàëàõ Nature è Science), è àâòîðèòåò èõ àâòîðîâ [Ammerman, Cavalli-Sforza, 1984; Cavalli-Sforza et al., 1994; Richards et al., 1996; Richards et al., 2000; Semino et al., 2000; Barbujani, Bertorelle, 2001; Chikhi et al., 2002; Haak et al., 2005; Bramanti et al., 2009 è ò.ä.]. Äà è ïî äðóãèì âîïðîñàì ãåíåòè÷åñêîé ñòðóêòóðû íàðîäîâ Åâðîïû íàïèñàíî ñòîëüêî ðàáîò, ÷òî èõ ïåðå÷èñëåíèå ïîòðåáîâàëî áû îòäåëüíîé ìîíîãðàôèè. Òàê ñòîèò ëè ñíîâà ïèñàòü î ãåíîôîíäå Åâðîïû? Ñòîèò. Äåëî â òîì, ÷òî ñðåäè ýòîãî ìíîæåñòâà ðàáîò î÷åíü ìàëî îáîáùàþùèõ. Íàïðèìåð, ðàáîòû, îáîáùàþùèå èçìåí÷èâîñòü ìòÄÍÊ è Y-õðîìîñîìû â Åâðîïå, ïîñëåäíèé ðàç ïðîâîäèëèñü áîëåå äåñÿ- òèëåòèÿ íàçàä [Richards et al., 2000; Rosser et al., 2000; Semino et al., 2000; Richards et al., 2002]. Ïîäàâëÿþùåå áîëüøèíñòâî ïîñëåäîâàâøèõ êðóïíûõ ðàáîò ñòàâèëî çàäà÷åé èçó÷åíèå îòäåëüíûõ ðåãèîíîâ Åâðîïû èëè ïî ìòÄÍÊ [Helgason et al., 2001, 2003; Meinila et al., 2001; Malyarchuk et al., 2002, 2003, 2004, 2006, 2008; Áåðìèøåâà è äð., 2002; Orekhov et al., 1999; Pfeiffer et al., 1999; Pereira et al., 2004; Tambets et al., 2004; Goodacre et al., 2005; Falchi et al., 2006; Grzybowski et al., 2007; Lappalainen et al., 2008; Alvarez-Iglesias et al., 2009; Santos et al., 2003; Garcia et al., 2011; Karachanak et al., 2012], èëè ïî Y- õðîìîñîìå [Behar et al., 2003; Õàðüêîâ è äð., 2004, 2005á; Cinnioglu et al., 2004; Di Giacomo et al., 2003; Brion et al., 2005; Flores et al., 2003, 2004; Tambets et al., 2004; Alonso et al., 2005; Goncalves et al., 2005; Kayser et al., 2005; Pericic et al., 2005; Capelli et al., 2006, 2007; Lappalainen et al., 2006, 2008; Adams et al., 2008; Balanovsky et al., 2008, 2011; Battaglia et al., 2009; Fechner et al., 2008; Varzari et al., 2009; King et al., 2011; Yunusbaev et al., 2012; ìíîãèå äðóãèå ðàáîòû]. Ðÿä ðàáîò áûë ïîñâÿùåí òàêæå îòäåëüíûì ãàïëîã- ðóïïàì [Di Giacomo et al., 2004; Cruciani et al., 2007, 2010; Myres et al., 2011; Underhill et al., 2010; Mendez et al., 2011; Onofri et al., 2008; Derenko et al., 2006, 2007, 2010; Rootsi et al., 2007; Tofanelli et al., 2009 è äðóãèå ðàáîòû]. Íî îáîáùàþùèé àíàëèç â ìàñøòàáå âñåé Åâðîïû ïîñëå ðàáîò 2000–2002 ãîäîâ íå ïðîâîäèëñÿ. À çà ýòî âðåìÿ íå òîëüêî íà ïîðÿäîê âîçðîñ îáúåì äàííûõ î ìòÄÍÊ è Y-õðîìîñîìå, íî è ïîÿâèëèñü äàííûå ïî ïîëíîãåíîìíûì ïàíåëÿì ìàðêåðîâ, ñòðåìèòåëüíî ðâàíóëèñü âïåðåä èññëåäîâàíèÿ äðåâíåé ÄÍÊ, íå ñòîÿëè íà ìåñòå è èññëåäîâàíèÿ ñìåæíèêîâ – íàïðèìåð, ëèíãâèñòîâ. Ïîýòîìó ïðåäñòàâëÿåòñÿ ñâîåâðåìåííûì äàííîå èññëåäîâàíèå, â êîòîðîì ñäåëàíà ïîïûòêà ñîáðàòü âîåäèíî, ïðîàíàëèçèðîâàòü, ïîäûòîæèòü è ïî âîçìîæíîñòè ñèíòåçèðîâàòü íàøè ñåãîäíÿøíèå çíàíèÿ î ãåíîôîíäå íàðîäîíàñåëåíèÿ Åâðîïû.
ÁËÀÃÎÄÀÐÍÎÑÒÈ ß ãëóáîêî ïðèçíàòåëåí ñâîèì ó÷èòåëÿì Å.Â. Áàëàíîâñêîé è Ð. Âèëëåìñó, êîòîðûå ââåëè ìåíÿ â îá- ëàñòü ãåíîãåîãðàôèè è ôèëîãåîãðàôèè; ïðèçíàòåëåí Â.Â. Çàïîðîæ÷åíêî, Ð.Ñ. Ñû÷åâó, À.Ñ. Ïøåíè÷íî- ìó, âçÿâøèì íà ñåáÿ òðóä íàïîëíåíèÿ áàç äàííûõ ïî ìòÄÍÊ è Y-õðîìîñîìå; ðàä ñëó÷àþ óïîìÿíóòü ñâîèõ ïðåêðàñíûõ ïîìîùíèö À.Ò. Àãäæîÿí, Ì.È. ×óõðÿåâó, Ð.À. Ñõàëÿõî, Ì.À. Êóçíåöîâó, Õ.Ä. Äèáè- ðîâó, Î.À. Áàëàãàíñêóþ, È.Ý. Òåó÷åæ – ðåçóëüòàòû è èõ òðóäà âîøëè â îïèñàííîå èññëåäîâàíèå, à íà ïëå÷è äâóõ ïåðâûõ ëåãëà è ÷àñòü ðàáîòû íåïîñðåäñòâåííî ïî êíèãå; áëàãîäàðþ êîëëåã W. Haak, S. Rootsi, À.Â. Äûáî, Î.À. Ìóäðàêà, Ñ.Ì. Êîøåëÿ, Î.Ì. Óòåâñêóþ, Ý.À. Ïî÷åøõîâó, Ë.À. Àòðàìåíòîâó, Ì.Á. Ëàâ- ðÿøèíó, Ë.È. Òåãàêî, Ì.È. ×óðíîñîâà, C. Der Sarkisyan, À.Ñ. Êàñüÿíà, Å.È. Êóøíåðåâè÷, Â.È. Õàðòàíî- âè÷à, À.Ï. Áóæèëîâó, Ë.Ì. Åïèñêîïîñÿíà è ìíîãèõ äðóãèõ, â ñîòðóäíè÷åñòâå ñ êîòîðûìè ñîáèðàëèñü îáðàçöû èëè ðàçðàáàòûâàëèñü âîïðîñû èõ àíàëèçà. Ìíå î÷åíü ïîìîãëî ñîîáùåñòâî íàøåãî ìåæäèñöèï- ëèíàðíîãî ñàéòà ãåíîôîíä.ðô – åãî áåññìåííûé àâòîð Í.Â. Ìàðêèíà è êðèòè÷åñêèé óì Ë.Ñ. Êëåéíà. È ñóãóáàÿ áëàãîäàðíîñòü – ìîèì ðîäèòåëÿì Ï.Í. ßùóêó è Å.Â. Áàëàíîâñêîé, îêàçàâøèì îãðîìíóþ è ðàç- íîîáðàçíóþ ïîìîùü ïðè ïîäãîòîâêå ýòîé êíèãè. Èññëåäîâàíèå ïðîâîäèëîñü áîëåå 10 ëåò, è ðàçíûå åãî àñïåêòû ïîääåðæèâàëèñü â ðàçíîå âðåìÿ áî- ëåå ÷åì äâàäöàòüþ ãðàíòàìè, âêëþ÷àÿ ìåæäóíàðîäíûé The Genographic Project, ãðàíò ÐÍÔ 14-04-00827, ãðàíò ÐÃÍÔ 06-06–00640, ãðàíòû Ïðîãðàìì Ïðåçèäèóìà ÐÀÍ «Äèíàìèêà ãåíîôîíäîâ», «Ôóíäàìåí- òàëüíûå íàóêè – ìåäèöèíå». Áëàãîòâîðíóþ ðîëü â âîçíèêíîâåíèè è ðàçâèòèè ìîåé ëàáîðàòîðèè ñûãðà- ëè äèðåêòîð ÈÎÃåí ÐÀÍ ÷ëåí-êîðð. Í.Ê. ßíêîâñêèé è Ïðîãðàììà Ïðåçèäèóìà ÐÀÍ «Ìîëåêóëÿðíàÿ è êëåòî÷íàÿ áèîëîãèÿ». Áëàãîäàðþ è ëàáîðàòîðèþ èñòîðè÷åñêîé ãåíåòèêè ÌÔÒÈ, ïîääåðæàâøóþ âìåñòå ñ ÐÍÔ ïîëíîãåíîìíûé àíàëèç Y-õðîìîñîìû. À íàèáîëåå ïîñòîÿííàÿ ôèíàíñîâàÿ ïîääåðæêà âñå ýòè ãîäû ïðèõîäèëà îò ÐÔÔÈ: çà ýòî âðåìÿ ïîä ìîèì ðóêîâîäñòâîì âûïîëíåíû 4 èíèöèàòèâíûõ (10-04- 01603, 07-04-00340, 04-04-49664-à, 13-04-01711), 8 ýêñïåäèöèîííûõ è 3 ñòàæåðñêèõ ïðîåêòà ÐÔÔÈ, è êîíå÷íî æå, èçäàòåëüñêèé ãðàíò íà ýòó êíèãó 15-06-07016-ä. Áåç ïîìîùè ýòèõ ôîíäîâ è ýíòóçèàçìà ìîèõ êîëëåã ýòà êíèãà, êîíå÷íî æå, íå ñìîãëà áû ñîñòîÿòüñÿ.
ГЛАВА 1. СОЗДАНИЕ БАЗ ДАННЫХ О ГЕНОФОНДАХ МИРА Наше исследование генофонда Европы в контексте мирового генофонда основывается на собственных и литературных данных по изменчивости в населении мира Y-хромосомы, митохондриальной ДНК и полногеномных панелей маркеров, объединенных в специально разработанных базах данных. В данной главе описываются созданные базы данных и дается характеристика собственным результатам (которые включены во все базы данных, но также во многих случаях анализируются и отдельно). Но этим содержание главы не исчерпывается – будет логичным еще до начала изложения результатов рассмотреть и самые необходимые аспекты методических вопросов – особенностей генотипирова- ния Y-хромосомы, мтДНК и древней ДНК, методы статистического и филогеографического анализа, обсудить вопрос о генетических датировках и программное обеспечение для создания картографических атласов генофонда, занимающих важное место во всем исследовании. 1.1. БАЗА ДАННЫХ ПО Y-ХРОМОСОМЕ КРАТКАЯ ХАРАКТЕРИСТИКА Y-BASE ПРЕДНАЗНАЧЕНИЕ И ИСТОРИЯ СОЗДАНИЯ За последние 15 лет изучение изменчивости Y- хромосомы стало одним из основных направлений в русле популяционно-генетических, молекулярно- антропологических и филогеографических исследований популяций человека. Поэтому многие научные коллективы остро нуждаются в быстром и свободном доступе ко всему массиву уже накопленной информации. Достижения молекулярной генетики получили широкое признание в смежных науках, изучающих историю человечества – в антропологии, археологии, лингвистике, истории, этнологии, палеоэкологии. Однако отсутствие удобной информационной системы, обеспечивающей простой доступ к генетическим данным, резко ограничивает комплексные исследования населения мира специалистами в разных областях естественных и гуманитарных наук. Поэтому мы поставили перед собой задачу объединить все доступные в литературе данные и обширные собственные архивы, несущие разнообразную информацию о полиморфизме Y-хромосомы в популяциях человека. База данных разрабатывалась под руководством автора в течение ряда лет (2006–2012 гг.) и продолжает совершенствоваться. В 2009–2012 годах создание этой базы данных являлось одним из важных направлений темы НИР «Анализ распространения гаплотипов митохондриальной ДНК и Y-хромосомы у народов мира на основе создания геоинфосистем», выполнявшейся в Медико-генетическом научном центре РАМН под руководством автора. В 2010–2012 годах создание базы данных было поддержано целевым грантом РФФИ, что позволило резко интенсифицировать работу над базой данных. Хотя эта многолетняя работа по созданию базы велась главным образом на чистом энтузиазме ее разработчиков, однако, одно время важна была также финансовая поддержка международного проекта «Geno- graphic», и сейчас работа интенсивно продолжается все так же под руководством автора в Институте общей генетики РАН. Программирование выполнено Андреем Вой- сковским. В разработке алгоритмов важную роль сыграл Андрей Пшеничнов, основную часть работы по наполнению базы выполняли Роман Сычев и Андрей Пшеничнов, а в части подготовки собственных результатов нашего коллектива к вводу в базу данных – Хадижат Дибирова. Большую помощь в получении полнотекстовых версий статей- источников оказали Mark Haber и Wolfgang Haak. Окончательное редактирование таблиц популяций и их подготовка для картографирования (исключение одних и объединение других выборок в соответствии с разнообразными критериями) выполнены автором. В настоящее время одна из рабочих версий базы данных реализована в рамках онлайновой инфо- системы (отдельные разделы которой представлены на нашем сайте www.genofond.ru), и продолжение работы заключается в онлайн-реализации остальных разделов и наполнении базы данных новой публикуемой информацией. Основные характеристики базы данных, существующей на данный
Ãëàâà 1. Ñîçäàíèå áàç äàííûõ î ãåíîôîíäàõ ìèðà ìîìåíò è èñïîëüçîâàííîé äëÿ èçó÷åíèÿ ãåíîôîí- äà Åâðîïû è äðóãèõ ðåãèîíîâ ìèðà, ïðåäñòàâëåíû â òàáëèöå 1.1. Âàæíî îòìåòèòü, ÷òî ñîçäàííàÿ íàìè áàçà Y- base â ñîîòâåòñòâèè ñ öåëÿìè ïîïóëÿöèîííî-ãåíå- òè÷åñêèõ èññëåäîâàíèé ïîñâÿùåíà â ïåðâóþ î÷å- ðåäü SNP-ìàðêåðàì, õîòÿ ñîäåðæèò è STR-ãàïëî- òèïû. Íàïðîòèâ, îñíîâíîé àíàëîã – ìåæäóíàðîä- íàÿ êðèìèíàëèñòè÷åñêàÿ áàçà äàííûõ YHRD – íà- öåëåíà â ïåðâóþ î÷åðåäü íà STR-ìàðêåðû, õîòÿ ñîäåðæèò òàêæå è SNP-ìàðêåðû. Òåîðåòè÷åñêè, îáå áàçû îñíîâûâàþòñÿ â îñíîâíîì íà ëèòåðàòóðíûõ äàííûõ è ïîýòîìó ìîãëè áû ïåðåêðûâàòüñÿ ïî÷òè ïîëíîñòüþ. Íî íà äåëå îñíîâíàÿ íàïðàâëåííîñòü áàç ôîðìèðóåò è èõ îáúåì: Y-base ñîäåðæèò äàí- íûå ïî 144 òûñÿ÷àì îáðàçöîâ ïî SNP-ìàðêåðàì, à YHRD – ïî 143 òûñÿ÷àì STR ãàïëîòèïîâ. Òàêàÿ áëèçîñòü ïîêàçàòåëåé õîòÿ è ñëó÷àéíà, íî äîâîëü- íî âûðàçèòåëüíà. Ïðè ýòîì ïîêàçàòåëüíî è íà ïî- ðÿäîê ìåíüøåå â êàæäîé áàçå ÷èñëî îáðàçöîâ ñ àëüòåðíàòèâíûìè ìàðêåðàìè: 32 òûñÿ÷è îáðàçöîâ ñ STR ìàðêåðàìè â íàøåé áàçå è 17 òûñÿ÷ îáðàç- öîâ ñ SNP ìàðêåðàìè â YHRD. Ýòî îáúÿñíÿåòñÿ òåì, ÷òî îáÿçàòåëüíûì óñëîâèåì äëÿ âêëþ÷åíèÿ äàííûõ â íàøó áàçó áûëî íàëè÷èå SNP ìàðêåðîâ, à STR ìû âêëþ÷àëè òîëüêî â òîì ñëó÷àå, åñëè îíè îïóáëèêîâàíû äëÿ òåõ æå îáðàçöîâ. À YHRD ïî- ñòóïàë íàîáîðîò: îáÿçàòåëüíûì óñëîâèåì áûëî òîëüêî íàëè÷èå STR ìàðêåðîâ. Ïîýòîìó ìîæíî ñ÷èòàòü, ÷òî ýòè äâå áàçû âçàèìíî äîïîëíÿþò äðóã äðóãà è â öåëîì îõâàòûâàþò ïðàêòè÷åñêè âñå îïóá- ëèêîâàííûå äàííûå ïî íàñåëåíèþ ìèðà. Âñå îñòàëüíîå ñîäåðæàíèå äàííîãî ðàçäåëà ïîñâÿùåíî òåõíè÷åñêèì âîïðîñàì ñîçäàíèÿ áàçû äàííûõ – ïîäõîäàì ê ñáîðó äàííûõ è ê ïðîãðàìì- íîé ðåàëèçàöèè áàçû, îïèñàíèþ äâóõ âàæíåéøèõ ìîäóëåé àâòîìàòè÷åñêîé îáðàáîòêè äàííûõ, à òàê- æå òðåõ ðàçäåëîâ áàçû, óæå ðàçìåùåííûõ íà íà- øåì ñàéòå www.genofond.ru. ÎÁÈËÈÅ ÄÀÍÍÛÕ ÏÎÒÐÅÁÎÂÀËÎ ÑÎÇÄÀÍÈß ÝËÅÊÒÐÎÍÍÎÉ ÁÈÁËÈÎÒÅÊÈ Â îáøèðíîé è áóðíî ðàçâèâàþùåéñÿ îáëàñòè ãåíåòè÷åñêèõ èññëåäîâàíèé ïîïóëÿöèé ìèðà ìàð- êåðû Y-õðîìîñîìû ÿâëÿþòñÿ ñåé÷àñ îäíèìè èç Òàáëèöà 1.1. Õàðàêòåðèñòèêà äâóõ âåäóùèõ áàç äàííûõ ïî Y-õðîìîñîìå ÏÀÐÀÌÅÒÐ Y-base (ñîçäàíà ïîä ðóêîâîäñòâîì àâòîðà) YHRD (îñíîâíîé çàðóáåæíûé àíàëîã) Îáúåì (îáðàçöîâ) ïî SNP ìàðêåðàì 144 464 17 502 Îáúåì (îáðàçöîâ) ïî STR ìàðêåðàì 32 054 143 044 ×èñëî ïîïóëÿöèé 2474 íåò èíôîðìàöèè ×èñëî èñòî÷íèêîâ 238 íåò èíôîðìàöèè Ðàçìåùåíèå www.genofond.ru www.yhrd.org íàèáîëåå èíôîðìàòèâíûõ è øèðîêî èçó÷àåìûõ ãåíåòè÷åñêèõ ñèñòåì. Ïîýòîìó ìàññèâ íàêîïëåí- íûõ äàííûõ îãðîìåí è âîçðàñòàåò åæåìåñÿ÷íî ïî ìåðå ïîÿâëåíèÿ íîâûõ ïóáëèêàöèé. Çàäà÷à ñáîðà ýòèõ äàííûõ è ñîçäàíèÿ ýëåêòðîííîé áèáëèîòåêè òåîðåòè÷åñêè ïðîñòà – îíà õîòÿ è òðóäîåìêà, íî îáëåã÷àåòñÿ òåì, ÷òî ïîäàâëÿþùåå áîëüøèíñòâî ñòàòåé ïóáëèêóþòñÿ íà àíãëèéñêîì ÿçûêå è èõ àí- íîòàöèè, êàê ïðàâèëî, äîñòóïíû â áàçå äàííûõ PubMed íà ñåðâåðå ncbi. Îäíàêî ïîëó÷åíèå ïîëíî- òåêñòîâûõ âåðñèé ñòàòåé, íå èìåþùèõ áåñïëàòíî- ãî äîñòóïà, òðåáóåò äîïîëíèòåëüíûõ óñèëèé è âðå- ìåíè. Òåì íå ìåíåå, â öåëîì ýòà çàäà÷à ðåøàåòñÿ ðóòèííî, è ìíîãèå ïðîôèëüíûå ëàáîðàòîðèè (â òîì ÷èñëå è íàø êîëëåêòèâ) ðàñïîëàãàþò äîñòàòî÷íî îáøèðíûìè ýëåêòðîííûìè áèáëèîòåêàìè. Íàìíîãî áîëåå ñëîæíûì îêàçûâàåòñÿ øàã îò «äîñòàòî÷íî îáøèðíîé» ê ïî÷òè èñ÷åðïûâàþùåé ýëåêòðîííîé áèáëèîòåêå ïî äàííîé òåìàòèêå, ïî- ñêîëüêó ýòîò íåîáõîäèìûé ýòàï ïîäðàçóìåâàåò âêëþ÷åíèå íåàíãëîÿçû÷íûõ ñòàòåé (â ïåðâóþ î÷å- ðåäü íà êèòàéñêîì è ðóññêîì ÿçûêàõ), à òàêæå ïî- èñê ìíîãèõ ñòàòåé, íå èíäåêñèðóåìûõ â PubMed è äðóãèõ öåíòðàëüíûõ õðàíèëèùàõ, íàïðèìåð, ñòà- òüè â ìíîãî÷èñëåííûõ ñáîðíèêàõ, ìîíîãðàôèÿõ, òðóäàõ ðàçëè÷íûõ êîíôåðåíöèé.  îòñëåæèâàíèè ýòèõ ïóáëèêàöèé íàøåìó êîëëåêòèâó ñïîñîáñòâó- þò íàëàæåííûå ñâÿçè ñ ðÿäîì âåäóùèõ ìåæäóíà- ðîäíûõ ãåíåòè÷åñêèõ öåíòðîâ.  îòíîøåíèè ðîñ- ñèéñêèõ, áåëîðóññêèõ, óêðàèíñêèõ, êàçàõñòàíñêèõ ïóáëèêàöèé, ÷àñòî íåñóùèõ âàæíûå è íèãäå áîëåå íå îïóáëèêîâàííûå ñâåäåíèÿ ïî ïîïóëÿöèÿì ýòèõ ñòðàí, áîëüøóþ ïîìîùü îêàçûâàþò íàøè êîëëåãè â ïðåäåëàõ áûâøåãî ÑÑÑÐ.  öåëîì, íàø êîëëåê- òèâ íàõîäèòñÿ â áëàãîïðèÿòíûõ óñëîâèÿõ äëÿ ñî- çäàíèÿ ïîäðîáíîé êîëëåêöèè òåìàòè÷åñêèõ ïóáëè- êàöèé ïî èçìåí÷èâîñòè Y-õðîìîñîìû â ïîïóëÿöè- ÿõ ìèðà è èìååò ìíîãîëåòíèé îïûò ñîçäàíèÿ ïî- äîáíûõ òåìàòè÷åñêèõ áèáëèîòåê. ÓÍÈÔÈÖÈÐÎÂÀÍÍÀß ÕÀÐÀÊÒÅÐÈÑÒÈÊÀ ÏÎÏÓËßÖÈÉ Îäíàêî ñàìûì ñëîæíûì ÿâëÿåòñÿ íå ñáîð èí- ôîðìàöèè, à çàäà÷à åå îáúåäèíåíèÿ â åäèíîé áàçå äàííûõ. Ïðè ðåøåíèè ýòîé çàäà÷è íà ïåðâûé ïëàí
1.1. Áàçà äàííûõ ïî Y-õðîìîñîìå âûõîäÿò âîïðîñû ðàçðàáîòêè íàèáîëåå ïîëíîãî «ïàñïîðòà» äàííûõ è óíèôèêàöèè èõ ôîðìàòà. Íàøèì êîëëåêòèâîì ðàçðàáîòàí, ïîæàëóé, íàè- áîëåå äåòàëüíûé è âûñòðàäàííûé «ïàñïîðò» äëÿ êàæäîé èçó÷åííîé ïîïóëÿöèè – íàáîð ïàðàìåòðîâ, ïî êîòîðûì õàðàêòåðèçóåòñÿ ïîïóëÿöèÿ ïðè âíå- ñåíèè åå â áàçó äàííûõ.  ýòîò íàáîð ïîëåé âêëþ- ÷àåòñÿ íå òîëüêî óñëîâíîå íàçâàíèå ïîïóëÿöèè èç îðèãèíàëüíîé ïóáëèêàöèè (÷åì çà÷àñòóþ îãðàíè- ÷èâàþòñÿ ñîñòàâèòåëè áîëüøèíñòâà ñâîäîê), íî è îáÿçàòåëüíîå óêàçàíèå åå ýòíè÷åñêîé ïðèíàäëåæ- íîñòè, ñòðàíû è ðåãèîíà âíóòðè ñòðàíû, òî÷íûõ ãåîãðàôè÷åñêèõ êîîðäèíàò, ñòðàòåãèè ôîðìèðîâà- íèÿ âûáîðêè è åå ðàçìåð. Âñÿ ýòà èíôîðìàöèÿ ÿâ- ëÿåòñÿ ÷ðåçâû÷àéíî âàæíîé äëÿ ïîñëåäóþùåé èí- òåðïðåòàöèè äàííûõ è îòáîðà ïîïóëÿöèé äëÿ êàæ- äîãî êîíêðåòíîãî âèäà àíàëèçà. Âàæíîñòü òàêîãî ïîäõîäà ïîÿñíèì ïðèìåðîì – çà÷åì, íàïðèìåð, íóæåí òàêîé, êàçàëîñü áû òðåòüå- ñòåïåííûé, ïàðàìåòð êàê «ñòðàòåãèÿ ôîðìèðîâà- íèÿ âûáîðêè». Ïðè èçó÷åíèè ñëîâàöêîé âûáîðêè áûëà îáíàðóæåíà âûñîêàÿ ÷àñòîòà ãåíåòè÷åñêèõ âàðèàíòîâ, õàðàêòåðíûõ äëÿ êîðåííîãî íàñåëåíèÿ Èíäèè. Åñëè áû ýòà âûáîðêà áûëà îáîçíà÷åíà â íàøåé áàçå äàííûõ êàê «Ñëîâàêèÿ» èëè òåì áîëåå êàê «ñëîâàêè», ýòè ðåçóëüòàòû áûëè áû íåîáúÿñ- íèìû. Îäíàêî âíåñåíèå â ÁÄ ñâåäåíèé, ÷òî ñòðà- òåãèÿ ôîðìèðîâàíèÿ äàííîé âûáîðêè áûëà íàöå- ëåíà íà ñîçäàíèå ïðåäñòàâèòåëüíîé êàðòèíû ãåíî- ôîíäà ðàçíûõ ãåîãðàôè÷åñêèõ ðåãèîíîâ Ñëîâàêèè, ïðè÷åì ïðèíöèïèàëüíî áåç ó÷åòà ýòíè÷åñêîé ïðè- íàäëåæíîñòè îáñëåäóåìûõ, ïîçâîëèëî ïðàâèëüíî èíòåðïðåòèðîâàòü ýòîò íà ïåðâûé âçãëÿä ïàðàäîê- ñàëüíûé ðåçóëüòàò. Íàëè÷èå «èíäèéñêèõ» âàðèàí- òîâ îáúÿñíÿëîñü òåì, ÷òî â âûáîðêó ïîïàëè íå òîëü- êî ñëîâàêè, íî è öûãàíå Ñëîâàêèè: â ðÿäå ðàéîíîâ ýòîé ñòðàíû çàìåòíóþ äîëþ íàñåëåíèÿ ñîñòàâëÿ- þò öûãàíå, â ãåíîôîíäå êîòîðûõ, ïî ðåçóëüòàòàì ìíîãèõ èññëåäîâàíèé, ñîõðàíÿåòñÿ ïàìÿòü îá èõ èíäèéñêîì ïðîèñõîæäåíèè. ÓÍÈÔÈÖÈÐÎÂÀÍÍÀß ÕÀÐÀÊÒÅÐÈÑÒÈÊÀ ÃÀÏËÎÃÐÓÏÏ Íî íàñòîÿùèå òðóäíîñòè, ïî íàøåìó îïûòó, íà÷èíàþòñÿ ïðè ïîïûòêå âíåñåíèÿ â åäèíóþ òàá- ëèöó íå äàííûõ î ïîïóëÿöèÿõ, à ðàçíîðîäíîé èí- ôîðìàöèè î ãåíîòèïàõ, èçó÷åííûõ àâòîðàìè ðàç- íûõ ïóáëèêàöèé. Íå ãîâîðÿ óæå î òîì, ÷òî ðàçíû- ìè êîëëåêòèâàìè èñïîëüçóþòñÿ ðàçëè÷íûå íàáî- ðû SNP è STR ìàðêåðîâ, íåðåäêî èñïîëüçóþòñÿ ðàçíûå îáîçíà÷åíèÿ äëÿ îäíîãî è òîãî æå ìàðêåðà (íàçâàíèÿ êîòîðûõ ñòðåìèòåëüíî ýâîëþöèîíèðó- þò â õîäå îòêðûòèÿ íîâûõ SNP ìàðêåðîâ), à ãëàâ- íîå, áîëüøèíñòâî àâòîðîâ ïóáëèêóåò äàííûå â âèäå ÷àñòîò ãàïëîãðóïï. Ýòà îñîáåííîñòü ïðèíöèïèàëü- íà, ïîñêîëüêó íîìåíêëàòóðà ãàïëîãðóïï íà ïðîòÿ- æåíèè ïîñëåäíèõ ëåò íåîäíîêðàòíî ìåíÿëàñü, è ïðîñòîå îáúåäèíåíèå ñòàòåé ðàçíûõ ëåò ìîæåò ïðè- âåñòè íå òîëüêî ê òðóäíî ñîïîñòàâèìûì, íî è ïðî- ñòî ê íåâåðíûì ðåçóëüòàòàì. Ïðè ñîçäàíèè ïåðâîé ðàáî÷åé âåðñèè ÁÄ áûë èñïîëüçîâàí òðàäèöèîííûé ïîäõîä - åäèíèöåé õðà- íåíèÿ â íåé âûñòóïàëà ÷àñòîòà òîé èëè èíîé ãàï- ëîãðóïïû â êàæäîé ïîïóëÿöèè. Åñëè ðàçíûå àâòî- ðû èñïîëüçîâàëè ðàçíûå ìàðêåðû, íî áûëî èçâåñ- òíî, ÷òî ýòè ìàðêåðû ñèíîíèìè÷íû (îïðåäåëÿþò îäíó è òó æå ãàïëîãðóïïó), äàííûå ýòèõ àâòîðîâ êëàññèôèöèðîâàëèñü êàê ÷àñòîòû îäíîé è òîé æå ãàïëîãðóïïû â ñîîòâåòñòâóþùèõ ïîïóëÿöèÿõ. Ê ñîæàëåíèþ, äàííûé ïîäõîä îêàçàëñÿ òðóäîåìêèì, ïîñêîëüêó èíòåãðàöèÿ êàæäîé íîâîé ñòàòüè â áàçó äàííûõ òðåáîâàëà ïðèíÿòèÿ ðåøåíèé ïî «ïðèðàâ- íèâàíèþ» ãàïëîãðóïï. È áîëåå òîãî, îí îêàçàëñÿ áåñïåðñïåêòèâíûì – ïî ìåðå óòî÷íåíèÿ ôèëîãå- íåòè÷åñêîãî äðåâà ãàïëîãðóïï îêàçûâàëîñü, ÷òî SNP ìàðêåðû, ðàíåå ðàññìàòðèâàâøèåñÿ â ëèòåðà- òóðå êàê ñèíîíèìè÷íûå, â äåéñòâèòåëüíîñòè íà- õîäÿòñÿ íà ðàçíûõ èåðàðõè÷åñêèõ óðîâíÿõ âåòâëå- íèÿ ôèëîãåíåòè÷åñêîãî äðåâà (îäèí îïðåäåëÿåò âåòâü, à äðóãîé – äîìèíèðóþùóþ ñóáâåòâü òîé æå âåòâè). Ñ àíàëîãè÷íûìè òðóäíîñòÿìè, íàñêîëüêî íàì èçâåñòíî, ñòîëêíóëèñü è äðóãèå êîëëåêòèâû, ñîñòàâëÿâøèå êðóïíûå ñâîäêè äàííûõ.  ïîäàâ- ëÿþùåì áîëüøèíñòâå ñëó÷àåâ îíè ñîçäàâàëèñü ïîä êîíêðåòíóþ çàäà÷ó è ÷åðåç äâà-òðè ãîäà, ïîñëå ïî- ÿâëåíèÿ â íàó÷íîì îáèõîäå íîâûõ SNP ìàðêåðîâ è èçìåíåíèé â îáîçíà÷åíèÿõ ãàïëîãðóïï, ýòè ñâîäêè ñòàíîâèëèñü ìàëîïðèãîäíû äëÿ ïîïîëíåíèÿ è èñ- ïîëüçîâàíèÿ â äðóãèõ èññëåäîâàíèÿõ. ×òîáû èçáåæàòü ýòèõ îñëîæíåíèé è ñîçäàòü óíèâåðñàëüíóþ äîëãîñðî÷íóþ àâòîìàòè÷åñêóþ èíôîñèñòåìó (ÀÈÑ), ïðè ðàçðàáîòêå åå íûíåøíåé âåðñèè íàìè â îñíîâó ïîëîæåí ïðèíöèï ïîëíîãî ñîõðàíåíèÿ âñåé ïåðâè÷íîé èíôîðìàöèè î ïðî- àíàëèçèðîâàííîì îáðàçöå. Ýòî ïîçâîëÿåò äàëü- íåéøóþ îáðàáîòêó ïðîâîäèòü àâòîìàòè÷åñêè ñïå- öèàëüíûìè ïðîãðàììíûìè ñðåäñòâàìè áàçû äàí- íûõ, è ïðè íåîáõîäèìîñòè ïåðåíàñòðàèâàòü è àâ- òîìàòè÷åñêè ïîâòîðÿòü îáðàáîòêó îáðàçöîâ, íî óæå ïî íîâûì óñëîâèÿì èãðû. Ïîýòîìó åäèíèöåé õðàíåíèÿ â èíôîñèñòåìå Y- base ÿâëÿåòñÿ îòäåëüíûé ïðîàíàëèçèðîâàííûé îá- ðàçåö, à ïîëÿìè öåíòðàëüíîé òàáëèöû ñëóæàò âñå èñïîëüçóåìûå â ïîïóëÿöèîííûõ èññëåäîâàíèÿõ SNP è STR ìàðêåðû (ñ âîçìîæíîñòüþ äîáàâëåíèÿ ëþáûõ íîâûõ ïîëåé). Ýòî îçíà÷àåò, ÷òî èíôîñèñ- òåìà ÿâëÿåòñÿ, âî-ïåðâûõ, íå «ïîïóëÿöèîííî-öåí- òðè÷íîé», à «îáðàçåö-öåíòðè÷íîé», à âî-âòîðûõ, íå «ãàïëîãðóïïî-öåíòðè÷íîé», à «ìàðêåð-öåíòðè÷- íîé». Ýòè äâà øàãà íàâñòðå÷ó ïðàâèëüíîìó ïîñò- ðîåíèþ èíôîñèñòåìû (õðàíåíèþ ìàêñèìàëüíî ôîðìàëèçîâàííûõ è ïåðâè÷íûõ, à íå ïðîèçâîäíûõ äàííûõ) îáåñïå÷èâàþò âîçìîæíîñòü àíàëèçà âñåõ ìèðîâûõ äàííûõ î ïîëèìîðôèçìå Y-õðîìîñîìû è äîëãîâðåìåííîå èñïîëüçîâàíèå èíôîñèñòåìû âíå
Глава 1. Создание баз данных о генофондах мира зависимости от возможных будущих изменений в номенклатуре гаплогрупп или топологии их иерархического древа. Такой подход потребовал создания и программной реализации алгоритма для автоматического преобразования исходных данных о генотипах образцов в частоты гаплогрупп в соответствии с текущей версией их номенклатуры. Y-BASE В ЭПОХУ ПОЛНОГО СЕКВЕНИРОВАНИЯ Y-ХРОМОСОМЫ С 2013 года исследования Y-хромосомы вступили в совершенно новую фазу. Использование технологий секвенирования следующего поколения позволило охарактеризовать всю Y-хромосому ( точнее, ее участки, поддающиеся надежному секвенированию) для многих образцов. И поскольку каждая семья несет свои собственные уникальные мутации, секвенирование десятка новых образцов из разных семей автоматически означает открытие десятка новых гаплотипов, которые могут претендовать на звание новой гаплогруппы. Однако новая гаплогруппа получает полное признание лишь после того, когда она встречена хотя бы у двух неродственных индивидов. В результате были секвенированы сотни образцов и известное науке дерево Y-хромосомы за 3 последних года стало в 10 раз подробнее дерева, составленного за 10 предыдущих лет исследования. Понятно, что в этих условиях маркер-центричный принцип обозначения гаплогрупп является спасением – ведь буквенно-цифровые имена гаплогрупп могут измениться за один день. (Отметим в скобках, что в статье, обобщающей полногеномные ис- следования Y-хромосомы [Karmin et al., 2015] предложен способ стабилизировать и имена гаплогрупп – именовать только ключевые, распространенные ветви на основных иерархических уровнях, а промежуточные ветви и их группы обозначать через знак объединения именованных ветвей). Хотя Y-base может вобрать в себя информацию по частотам тысяч известных сейчас гаплогрупп и десяткам тысяч тех, которые будут несомненно открыты в ближайшие несколько лет, пока нужды в этом нет. Ведь для подавляющего большинства этих новых гаплогрупп их популяционные частоты неизвестны. Известно лишь, что гаплогруппа существует ( данное сочетание SNP-маркеров встречено у пары образцов), но никто не изучал частоту этой гаплогруппы в популяциях. Тем самым все гаплог- руппы резко делятся на два ранга: а) существующие лишь в виде ветви на дереве (частоты в популяциях не изучались); б) существующие и в виде ветви, и в виде географической карты частоты их распространения (частоты известны). И хотя раздел дерева Y-base может отражать все многообразие тысяч известных ветвей (ранг 1), ключевые разделы инфосистемы должны содержать данные лишь по тем гаплогруппам, для которых проведен популяционный скрининг и определены их частоты хотя бы в нескольких популяциях (ранг 2). В 2011 году – до эпохи полного секвенирования Y-хромосом – в мировой литературе мы обнаружили 242 такие гап- логруппы ранга 2. К 2015 году, насколько известно автору, в мировой копилке добавилось лишь около сотни новых открытых гаплогрупп (в основном в пределах «больших» гаплогрупп N, C, E, R1a, R1b), для которых проведен популяционный скрининг по новым субгаплогруппам. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ БД Y-BASE СТРУКТУРА ИНФОСИСТЕМЫ Y-BASE В качестве системы управления инфосистемы Y-base используется свободно распространяемая СУБД PostgreSQL. Инфосистема содержит такие основные разделы: – таблица генотипов для изученных образцов (значения SNP и STR маркеров); – таблица популяций (со справочниками народов, стран, регионов и др.), связанную с таблицей генотипов соотношением «один ко многим»; – иерархически упорядоченное дерево SNP маркеров; – справочник обозначений гаплогрупп и их соответствия одному или нескольким (синонимичным) SNP маркерам (номенклатура гаплогрупп); – первоисточники данных (электронную библиотеку). Логически работа с инфосистемой может быть разделена на два этапа: 1) ввод первичной информации (предусмотрены различные способы ввода); 2) проведение анализа хранимых данных для получения частот гаплогрупп Y-хромосомы в разных популяциях мира (предусмотрена возможность выбора и комбинирования различных критериев, формируемых пользователем системы). Пользователь системы имеет возможность автоматического расчета частот гаплогрупп в популяциях мира. Для анализа данных сторонними программными средствами, реализована функция экспорта данных, с которыми в данный момент работает пользователь, в заданный формат электронной таблицы.
1.1. Áàçà äàííûõ ïî Y-õðîìîñîìå ËÎÃÈÊÀ ÎÁÐÀÁÎÒÊÈ ÄÀÍÍÛÕ Îñíîâíàÿ ñëîæíîñòü îáðàáîòêè äàííûõ ñîñòî- èò âî âçàèìîñâÿçè ðàçëè÷íûõ SNP ìàðêåðîâ, âû- òåêàþùåé èç èåðàðõè÷åñêîé ñòðóêòóðû «ðîäîñëîâ- íîãî äðåâà» Y-õðîìîñîìû. Îáùåïðèíÿòî, ÷òî åñëè äëÿ îáðàçöà âûÿâëåíî íàëè÷èå îïðåäåëåííîãî SNP ìàðêåðà, òî ýòî îäíî- çíà÷íî äîêàçûâàåò ïðèíàäëåæíîñòü îáðàçöà òîëü- êî ê îïðåäåëåííîé âåòâè ýòîãî äåðåâà. Îäíîâðå- ìåííî ýòî îçíà÷àåò, ÷òî â îáðàçöå çàâåäîìî îòñóò- ñòâóþò SNP ìàðêåðû, ñïåöèôè÷íûå äëÿ äðóãèõ êðóïíûõ âåòâåé äðåâà Y-õðîìîñîìû. Îäíàêî åñëè âûÿâëåííàÿ âåòâü Y-õðîìîñîìû èìååò, íàïðèìåð, ïÿòü ñóáâåòâåé, òî êàæäàÿ ñóá- âåòâü îïðåäåëÿåòñÿ åùå è ñâîèì ñîáñòâåííûì SNP ìàðêåðîì. Ïîýòîìó äîïóñòèì, ÷òî äàëåå îáðàçåö áûë ïðîâåðåí íà SNP ìàðêåðû, ñïåöèôè÷íûå òîëü- êî äëÿ òðåõ èç ïÿòè èçâåñòíûõ ñóáâåòâåé äàííîé âåòâè. Åñëè îêàçàëîñü, ÷òî îí íå îòíîñèòñÿ íè ê îäíîé èç òðåõ ïðîàíàëèçèðîâàííûõ ñóáâåòâåé, òî ýòîò îáðàçåö âñå åùå ìîæåò íåñòè SNP ìàðêåðû íà îäíó èç äâóõ îñòàâøèõñÿ ñóáâåòâåé, íî íåèçâåñò- íî, íà êàêóþ èìåííî. Îäíàêî – óâû! – àâòîðû èñ- õîäíûõ äàííûõ íå ãåíîòèïèðîâàëè SNP-ìàðêåðû íà îñòàâøèåñÿ äâå ñóáâåòî÷êè. Êàê ïîñòóïàòü â ýòîì ñëó÷àå?  ýòîì ñëó÷àå ïðè ïîäñ÷åòå ÷àñòîòû âñòðå÷àå- ìîñòè âñåõ âåòâåé (è ñóáâåòâåé) Y-õðîìîñîìû: 1) äàííûé îáðàçåö âõîäèò â ïîäñ÷åò ÷àñòîòû ñâîåé «êðóïíîé» âåòâè ( «+» ); 2) âõîäèò ñ «îòðèöàòåëüíûì» çíà÷åíèåì «-» (êàê îòñóòñòâèå äàííîé âåòâè ó äàííîãî îáðàçöà) â ïîäñ÷åò ÷àñòîòû âñåõ ïðî÷èõ âåòâåé-ãàïëîãðóïï; 3) âõîäèò ñ «îòðèöàòåëüíûì» çíà÷åíèåì «-» (êàê îòñóòñòâèå äàííîé ñóáâåòâè ó äàííîãî îáðàç- öà) äëÿ òåõ òðåõ ñóáâåòâåé ñâîåé âåòâè, ê êîòîðûì, êàê áûëî âûÿâëåíî, îí íå îòíîñèòñÿ; 4) íî ýòîò îáðàçåö íèêàêèì îáðàçîì íå âõîäèò â ïîäñ÷åò ÷àñòîòû äâóõ îñòàâøèõñÿ ñóáâåòâåé, î ïðèíàäëåæíîñòè åãî ê êîòîðûì èç èìåþùèõñÿ äàí- íûõ íåëüçÿ íè÷åãî çàêëþ÷èòü ( «±» ). ÖÅÍÒÐÀËÜÍÛÉ ÌÎÄÓËÜ ÎÏÐÅÄÅËÅÍÈß ÃÀÏËÎÃÐÓÏÏÛ Îïèñàííàÿ îáðàáîòêà îäíîãî îáðàçöà îòíîñè- òåëüíî ëåãêî îñóùåñòâëÿåòñÿ âðó÷íóþ ãðàìîòíûì ñïåöèàëèñòîì, íî îáðàáîòêà äàæå íåñêîëüêèõ ñî- òåí îáðàçöîâ âåñüìà òðóäîåìêà è óæå íåíàäåæíà. Ïîýòîìó â èíôîñèñòåìó èíòåãðèðîâàí ñïåöèàëè- çèðîâàííûé ìîäóëü, êîòîðûé, èñõîäÿ èç ñòàòóñà òåõ SNP ìàðêåðîâ, êîòîðûå èçâåñòíû äëÿ äàííîãî îá- ðàçöà, è èåðàðõè÷åñêîé îðãàíèçàöèè äðåâà ãàïëîã- ðóïï, îïðåäåëÿåò, ê êàêîé èìåííî âåòâè (ãàïëîã- ðóïïå) èëè ñóáâåòâè îòíîñèòñÿ äàííûé îáðàçåö. Ïðèâåäåì ïðèìåð ðàáîòû ìîäóëÿ. Íàïðèìåð, ïîëüçîâàòåëü çàäàë çàïðîñ íà ÷àñòîòû ãàïëîãðóï- ïû G2 â ðàçíûõ ïîïóëÿöèÿõ ìèðà. Ìîäóëü îñóùå- ñòâèò ñêðèíèíã è ñîðòèðîâêó âñåõ çàïèñåé (îáðàç- öîâ) â îòíîøåíèè ýòîãî çàïðîñà íà òðè òèïà.  ïåðâûé òèï («-») ïîïàäóò îáðàçöû, íå îòíî- ñÿùèåñÿ ê äàííîé ãàïëîãðóïïå, à èìåííî òå îáðàç- öû, êîòîðûå íåñóò SNP ìàðêåðû, ìàðêèðóþùèå äðóãèå ãàïëîãðóïïû (âåòâè) èåðàðõè÷åñêîãî äðåâà ãàïëîãðóïï (SNP ìàðêåðîâ, èñêëþ÷àþùèå èõ îò- íåñåíèå ê ãàïëîãðóïïå G2). Âî âòîðîé òèï («+») ïîïàäóò îáðàçöû, íåñóùèå SNP ìàðêåð, îáîçíà÷àåìûé P15, êîòîðûé ìàðêè- ðóåò èñêîìóþ ãàïëîãðóïïó G2.  ýòîò æå òèï ïî- ïàäóò îáðàçöû, íå ïðîàíàëèçèðîâàííûå íà ìàðêåð Ð15, íî èìåþùèå ïðîèçâîäíûé (derived) ñòàòóñ ïî SNP ìàðêåðàì, ïîä÷èíåííûì äàííîìó ìàðêåðó (ìàðêèðóþùèå ñóáâåòâè â ïðåäåëàõ âåòâè, ìàðêè- ðóåìîé P15).  äàííîì ñëó÷àå ýêñïåðèìåíòàëüíî ïîäòâåðæäåííàÿ ïðèíàäëåæíîñòü îáðàçöà ê ñóáâåò- âè àâòîìàòè÷åñêè îçíà÷àåò åãî ïðèíàäëåæíîñòü è ê âåòâè â öåëîì.  òðåòèé òèï («±») ïîïàäóò îáðàçöû, îòíîñÿ- ùèåñÿ ê òîé æå ñóïåðâåòâè, ÷òî è ìàðêèðóåìûå Ð15, íî ïîëîæåíèå êîòîðûõ âíóòðè ñóïåðâåòâè íåèçâå- ñòíî. Äëÿ ýòèõ îáðàçöîâ íåëüçÿ âûíåñòè îïðåäå- ëåííîãî ñóæäåíèÿ, îòíîñÿòñÿ ëè îíè ê âåòâè G2 (P15) èëè íåò. Íàêîíåö, ñëåäóþùèé ìîäóëü (ðàñ÷åòà ÷àñòîò ãàïëîãðóïï) ïîäñ÷èòûâàåò äëÿ êàæäîé ïîïóëÿöèè äîëþ îáðàçöîâ âòîðîãî òèïà îò îáùåãî ÷èñëà îá- ðàçöîâ â äàííîé ïîïóëÿöèè, íî äëÿ ïîïóëÿöèé, èìåþùèõ õîòÿ áû îäèí îáðàçåö òðåòüåãî òèïà, áó- äåò îòìå÷åíî, ÷òî ÷àñòîòà ãàïëîãðóïïû G2 íåîïðå- äåëèìà. Ýòà èíôîðìàöèÿ – ÷àñòîòû ãàïëîãðóïïû G2 âî âñåõ ïîïóëÿöèÿõ, ãäå åå ìîæíî îïðåäåëèòü èç èìåþùèõñÿ äàííûõ, è óêàçàíèå íà íåâîçìîæ- íîñòü òàêîãî îïðåäåëåíèÿ äëÿ îñòàëüíûõ ïîïóëÿ- öèé – è áóäåò ðåçóëüòàòîì èñêîìîãî çàïðîñà. Òàêèì îáðàçîì, ïðèìåíåíèå ìîäóëåé àâòîìà- òè÷åñêîãî îïðåäåëåíèÿ ãàïëîãðóïïû è ðàñ÷åòà ÷à- ñòîò ãàïëîãðóïï ïîçâîëÿåò ïîëíîñòüþ àâòîìàòèçè- ðîâàòü íàèáîëåå òðóäîåìêèé è ñëîæíûé ýòàï îá- ðàáîòêè è ïðåîáðàçîâàíèÿ ïåðâè÷íûõ ãåíîòèïè÷åñ- êèõ äàííûõ äëÿ ðåøåíèÿ êàæäîé êîíêðåòíîé çàäà- ÷è. Ïðè ýòîì âîçìîæíîñòü îáíîâëåíèÿ äåðåâà SNP- ãàïëîãðóïï îáåñïå÷èâàåò ýôôåêòèâíóþ ðàáîòó èíôîñèñòåìû äëÿ ìàêñèìàëüíî øèðîêîãî êðóãà ïîïóëÿöèé: ñèñòåìà íå çàâèñèò îò îòêðûòèÿ íîâûõ âåòâåé èåðàðõè÷åñêîãî äðåâà, ââåäåíèÿ â íàó÷íûé îáîðîò íîâûõ SNP ìàðêåðîâ è äàæå ðåîðãàíèçà- öèè óñòîÿâøåéñÿ ñòðóêòóðû èåðàðõè÷åñêîãî äðå- âà, ïîñêîëüêó âñå ýòè èçìåíåíèÿ ìîæíî âíîñèòü â äåðåâî ãàïëîãðóïï, íå ìåíÿÿ ñàìè äàííûå è ïðî- öåäóðû èõ îáðàáîòêè. Äàííûé ìîäóëü èíôîñèñòåìû ÿâëÿåòñÿ öåíò- ðàëüíûì â òîì ñìûñëå, ÷òî îí ïðåîáðàçóåò ïåðâè÷- íóþ (ýêñïåðèìåíòàëüíî ïîëó÷åííóþ) èíôîðìàöèþ î ñòàòóñå SNP ìàðêåðîâ â äàííîì îáðàçöå â èñêî- ìóþ èíôîðìàöèþ î òîì, ê êàêîé èìåííî ãàïëîã-
Ãëàâà 1. Ñîçäàíèå áàç äàííûõ î ãåíîôîíäàõ ìèðà ðóïïå ïðèíàäëåæèò îáðàçåö. Òàêèì îáðàçîì, ïðî- èñõîäèò àâòîìàòè÷åñêàÿ îáðàáîòêà ýêñïåðèìåí- òàëüíûõ äàííûõ è ïîìåùåíèå îáðàçöà â îäíó èç èçâåñòíûõ ãàïëîãðóïï. Äàííûé ìîäóëü èíôîñèñ- òåìû ïîçâîëÿåò äëÿ êàæäîãî îáðàçöà óêàçàòü àë- ëåëüíîå ñîñòîÿíèå êàæäîãî SNP ìàðêåðà èç ïîë- íîãî ïåðå÷íÿ è, ñîîòâåòñòâåííî, ïðîñòàâèòü ïðè- íàäëåæíîñòü èëè íåïðèíàäëåæíîñòü îáðàçöà ê êàæäîé èç ñîòåí èçâåñòíûõ íà äàííûé ìîìåíò ãàï- ëîãðóïï. Êðàéíå âàæíûé ñìûñë ýòîé îïåðàöèè ñîñòîèò â òîì, ÷òî â òàáëèöå ïðåäñòàâëåíî àëëåëüíîå ñî- ñòîÿíèå äàæå äëÿ òåõ SNP-ìàðêåðîâ, ïî êîòîðûì äàííûé îáðàçåö íå èññëåäîâàëñÿ. Íàïðèìåð, ó îá- ðàçöà, äëÿ êîòîðîãî óñòàíîâëåíî, ÷òî ìàðêåð M9 íàõîäèòñÿ â ñîñòîÿíèè derived (+), òàêæå ìîæíî ïðåäñêàçàòü ñîñòîÿíèå derived è ïî ìàðêåðàì M89, SRY10831.1 è äðóãèì ìàðêåðàì, ïðåäêîâûì ïî îò- íîøåíèþ ê ìóòàöèè â ìàðêåðå M9 (ò.å. ìàðêèðóþ- ùèì áîëåå êðóïíûå âåòâè, íà êîòîðûõ âûðîñëà ýòà áîëåå ìîëîäàÿ âåòâü), õîòÿ â ñòàòüå ýòè ìàðêåðû áîëåå êðóïíûõ âåòâåé è íå èññëåäîâàëèñü. Äëÿ ñî- ïîñòàâëåíèÿ ðàçíûõ èññëåäîâàíèé, èñïîëüçóþùèõ ðàçíûå ïàíåëè ìàðêåðîâ è äèôôåðåíöèðóþùèõ âåòâè äðåâà íà ðàçíóþ ãëóáèíó, òàêîå óêàçàíèå ìàðêåðîâ äëÿ âñåõ èçâåñòíûõ âåòâåé äðåâà ñòàíî- âèòñÿ êðàéíå ïîëåçíûì: ìû ìîæåì àâòîìàòè÷åñêè îòîáðàòü äëÿ èññëåäîâàíèÿ ëþáûå áîëåå êðóïíûå âåòâè, äàæå åñëè èõ ìàðêåðû íå èçó÷åíû â ïóáëè- êàöèè è êðóïíûå ãàïëîãðóïïû íå óêàçàíû. Ðåçóëüòàòîì ðàáîòû ýòîãî öåíòðàëüíîãî ïðî- ãðàììíîãî ìîäóëÿ ÿâëÿåòñÿ òàáëèöà, â êîòîðîé äëÿ êàæäîãî îáðàçöà ïðîñòàâëåíû àëëåëüíûå ñîñòîÿ- íèÿ íå äëÿ 5–20 SNP ìàðêåðîâ, ïî êîòîðûì äëÿ äàí- íîãî îáðàçöà èìåþòñÿ ýêñïåðèìåíòàëüíûå äàííûå, íî ïî âñåì 700 ìàðêåðàì èç ïåðå÷íÿ èçâåñòíîãî íà ìîìåíò ðàçðàáîòêè ìîäóëÿ SNP ìàðêåðîâ. Îáíîâ- ëåíèå äåðåâà ïðîèñõîäèò â ïîëóàâòîìàòè÷åñêîì ðåæèìå, ïîýòîìó ýòî ÷èñëî ëåãêî óâåëè÷èâàåòñÿ äî âñåõ èçâåñòíûõ íà äàííûé ìîìåíò ìàðêåðîâ. Êî- íå÷íî, ðàçðàáîòêà ýòîãî àëãîðèòìà ïðîãðàììíîãî ìîäóëÿ çàíÿëà ìåñÿöû, çàòî âðåìÿ îáðàáîòêè 1000 îáðàçöîâ òåñòîâîé ïðîãðàììîé, äàæå ðåàëèçîâàí- íîé ìàêðîñîì MS Excel, çàíÿëî âñåãî îêîëî 20 ìèíóò. Âûïîëíåíèå ýòîé îïåðàöèè ïðîãðàììîé íå òîëüêî ñîêðàùàåò âðåìÿ ðàáîòû íà íåñêîëüêî ïî- ðÿäêîâ, íî òàêæå èñêëþ÷àåò îøèáêè, âûçâàííûå ÷åëîâå÷åñêèì ôàêòîðîì. ÌÎÄÓËÜ ÐÀÑ×ÅÒÀ ×ÀÑÒÎÒ ÃÀÏËÎÃÐÓÏÏ Èñõîäÿ èç äàííûõ î ïðèíàäëåæíîñòè êàæäîãî îáðàçöà ê òîé èëè èíîé ãàïëîãðóïïå, ýòîò ìîäóëü áàçû äàííûõ ðàññ÷èòûâàåò ÷àñòîòû âûáðàííûõ ïîëüçîâàòåëåì ãàïëîãðóïï â âûáðàííûõ ïîïóëÿöè- ÿõ. Òåì ñàìûì ìîäóëü äàåò ïðÿìîé îòâåò íà íàè- áîëåå òèïè÷íûé çàïðîñ ê èíôîñèñòåìå – êàêîâû ÷àñòîòû èíòåðåñóþùåé ïîëüçîâàòåëÿ ãàïëîãðóïïû â êàæäîé èç âûáðàííûõ ïîïóëÿöèé? Çàäà÷à, êîòîðóþ ðåøàåò ýòîò ìîäóëü ïðîãðàì- ìû – íåïîñðåäñòâåííîå ïîëó÷åíèå ÷àñòîò ãàïëîã- ðóïï äëÿ âñåõ âíåñ¸ííûõ â áàçó äàííûõ ïîïóëÿ- öèé (èëè òîëüêî èçáðàííûõ ïîëüçîâàòåëåì ïîïó- ëÿöèé èëè ðåãèîíîâ) ñ èñïîëüçîâàíèåì òàáëèöû îòíåñåíèÿ/èñêëþ÷åíèÿ êàæäîãî îáðàçöà ê êàæäîé èç èçâåñòíûõ ãàïëîãðóïï, ïîëó÷åííîé â ðåçóëüòà- òå ðàáîòû öåíòðàëüíîãî ìîäóëÿ. Àëãîðèòì îïðåäåëåíèÿ ÷àñòîòû ãàïëîãðóïïû â ïîïóëÿöèè ïî î÷åðåäè ðàññìàòðèâàåò êàæäóþ ïî- ïóëÿöèþ è êàæäûé ìàðêåð, îòäåëüíî îò äðóãèõ ïîïóëÿöèé è ìàðêåðîâ. Ïåðâûé øàã – ðàáîòà ñ «ïî- ïóëÿöèåé À», ìàðêåðîì 12f2.b, âòîðîé – ñ òîé æå ïîïóëÿöèåé, íî óæå ñ ìàðêåðîì 12f2a, è ò.ä. ïîêà ïðîãðàììà íå ïðîéä¸ò âñå ìàðêåðû, âûáðàííûå äëÿ ïîïóëÿöèè À. Çàòåì ñòîëüêî æå øàãîâ äëÿ ïîïóëÿ- öèè Á, ñòîëüêî æå äëÿ  è ò.ä. Êàæäûé øàã – ýòî âûïîëíåíèå ñëåäóþùåé ïðî- öåäóðû: ïðîãðàììà îöåíèâàåò âçâåøåííóþ äîëþ çàïèñåé «D» â äàííîì ñòîëáöå äëÿ äàííîé ïîïóëÿ- öèè è çàïèñûâàåò å¸ â ñòðîêó «âñåãî â ïîïóëÿöèè». Ýòî ÷èñëî – äîëÿ îáðàçöîâ â ïîïóëÿöèè, êîòîðûå èìåþò â äàííîì ìàðêåðå ïðîèçâîäíîå (derived) àëëåëüíîå ñîñòîÿíèå, òî åñòü îòíîñÿòñÿ ê ãàïëîã- ðóïïå, êîòîðóþ äàííûé ìàðêåð îïðåäåëÿåò. Íàïðè- ìåð, âçâåøåííàÿ äîëÿ çàïèñåé, èìåþùèõ â äàííîé ïîïóëÿöèè èçìåíåííîå ñîñòîÿíèå («D») â ëîêóñå P14 – ýòî ÷àñòîòà ãàïëîãðóïïû F â ïîïóëÿöèè À. Îäíàêî, èíîãäà âû÷èñëèòü ýòó äîëþ íåâîçìîæíî: êîãäà õîòÿ áû îäíà çàïèñü â äàííîì ñòîëáöå ó äàí- íîé ïîïóëÿöèè ñîäåðæèò «U», òî åñòü íåèçâåñòíîå àëëåëüíîå ñîñòîÿíèå.  ýòîì ñëó÷àå âìåñòî ÷àñòî- òû ïèøåòñÿ çíàê «Í» - ÷àñòîòà íåîïðåäåëèìà. Ïîñëå òîãî êàê ïðîãðàììà ïðîõîäèò ïî âñåì ïîïóëÿöèÿì è ìàðêåðàì, àëãîðèòì îñòàâëÿåò òîëü- êî çàïèñè, óêàçûâàþùèå äëÿ êàæäîãî ñî÷åòàíèÿ «ïîïóëÿöèÿ-ìàðêåð» äîëþ îáðàçöîâ â äàííîé ïî- ïóëÿöèè, èìåþùèõ ïðîèçâîäíîå ñîñòîÿíèå äàííî- ãî ìàðêåðà. Òåïåðü âñïîìíèì, ÷òî îäíà è òà æå ãàïëîãðóïïà ìîæåò îïðåäåëÿòüñÿ ìíîãèìè ìàðêå- ðàìè. Ïîýòîìó äàëåå ìîäóëü îáúåäèíÿåò âñå ìàð- êåðû äëÿ îäíîé ãàïëîãðóïïû â îäíó çàïèñü (çíà- ÷èòåëüíî ñîêðàùàÿ ÷èñëî ñòîëáöîâ â èòîãîâîé òàá- ëèöå). Òàêèì îáðàçîì, èòîãîâàÿ òàáëèöà ñîäåðæèò â ñòðîêàõ çàïèñè î ïîïóëÿöèÿõ, à â ñòîëáöàõ – î ãàïëîãðóïïàõ. Íà ïåðåñå÷åíèÿõ ñòðîê è ñòîëáöîâ – ÷àñòîòû ãàïëîãðóïï ëèáî çàïèñü î íåâîçìîæíîñ- òè èõ îïðåäåëåíèÿ. ÄÅÐÅÂÎ ÃÀÏËÎÃÐÓÏÏ Y-ÕÐÎÌÎÑÎÌÛ Íà íàøåì ñàéòå www.genofond.ru ðàçìåùåíû òðè ðàçäåëà áàçû äàííûõ: äåðåâî ãàïëîãðóïï, ýëåêòðîí- íàÿ áèáëèîòåêà è ÁÄ ñðåäíåýòíè÷åñêèõ ÷àñòîò (îñ- òàëüíûå ðàçäåëû ïîêà äîñòóïíû òîëüêî ðàçðàáîò÷è- êàì è äðóæåñòâåííûì ïîëüçîâàòåëÿì ïî èõ çàïðîñó).
Доступ онлайн
В корзину