Анализът на главните компоненти (Principal Component Analysis, PCA) е често използван инструмент в генетиката за визуализиране на модели в големи количества генетични данни. Чрез намиране на първите два или три главни компонента на даден набор от данни можем да видим как различните популации са свързани помежду си въз основа на генетичното си сходство. В тази статия ще използваме PCA, за да разгледаме генетичните връзки между съвременните българи и други популации, споменати в подкаста от януари 2023 г. за уебсайта otizvora.com.
За илюстрация на PCA метода започваме с българи от Пловдив и арменци от Армения:

Ясно се вижда как индивидите са разделени на две групи. 10-те арменци са вляво, 10-те българи са вдясно. Между двете групи няма генетично сходство.
Колко близо са балканските народи
Българи и турци от Турция:

Един турчин попада сред българите, може да е наследник на помаци примерно. Един българин е по-близо до масата турци, в сравнение с другите българи.
Българи и гагаузи от Молдова:

Преплетени са, няма ясно разграничение. Може да се каже, че алгоритъмът ги вижда като една популация. Разликите между отделни индивиди са по-големи, отколкото между двете популации.
Попитах изкуствен интелект: Как можем да интерпретираме PCA графиката за две популации, когато няма ясно разделение между индивидите, а те са разпръснати произволно по цялата графика?
Отговорът беше:
Когато индивидите от две популации са разпръснати произволно по целия PCA участък, това показва, че има голямо генетично припокриване между двете популации. Това означава, че няма ясна генетична граница, която да разделя двете популации, и че индивидите от всяка популация могат да бъдат открити в едни и същи области на участъка. Това може да означава, че популациите са силно смесени или че имат общи скорошни предци. То може също така да означава, че PCA не е бил достатъчно мощен, за да раздели популациите въз основа на използваните генетични маркери. В такива случаи може да е необходимо да се използват допълнителни генетични маркери или алтернативни аналитични методи за разграничаване на популациите.
Chatgpt, 1 февруари 2023
Българи и албанци:

Подобно като с гагаузите.
Българи с албанци, гърци и румънци:
Домашна задача: На тази графика виждате три народа, наследници на старо балканско население, и един народ, наследник на новодошли през 7-и век. Открийте новодошлите без да гледате легендата.

Българите и албанците са преплетени, отляво са гърците, отдясно са румънците.
Следващата графика включва българи с албанци, гърци, румънци, турци, гагаузи и кипърци:

Тук турците са ясно отделени вляво, само един турчин попада сред балканските народи. Кипърците са между турците и гърците. Гърците пак са по-наляво от румънците. Българите, гагаузите и албанците са по средата между гърци и румънци.
До кои народи са близо чувашите, башкирите, казанските татари

Чувашите, башкирите и татарите са между руснаците и орокените. Башкирите са най-близо до орокените, чувашите и татарите по-малко. Беларусите са най-далече от орокените, толкова, колкото и българите, гагаузите, кипърците. Част от руснаците се припокрива с беларусите, но повечето показват близост с чуваши, татари, башкири, орокени. Една илюстрация:

Надявам се тази графика да дава яснота на слушатели, които питаха за приликата между българи и татари. Външната прилика между някои казански татари с някои съвременни българи не променя факта, че генетично двете популации ясно се различават.
Поправям една грешка от подкаста – там казах, че методът Globetrotter показва при чувашите смесване от 13-и век между 66% монголци и 33% поляци. Всъщност публикацията е за 33% монголци и 67% поляци.
Колко близо са балканци от бронзовата и желязната епоха до българите

Групата на българите и гагаузите е изцяло покрита от останките от Сърбия (на 4000 години, в подкаста грешно казах, че са на 3000 години) и Македония, и някои от България, на 2500-3000 години. Има и няколко индивида, които са по-различни.
Ъпдейт 2023-02-14: Нова графика, където има повече съвременни народи:

Останките от България на 2500-3000 години са най-„южни“, в посока гърци. Останките от Сърбия на 4000 години са най-„северни“, в посока беларуси. Останките от Македония на 2500-3000 години са по средата и съвпадат с днешните българи.
Колко близо е средноаварското простолюдие до българите

Средноаварското простолюдие, населявало Панония (земите на днешна Унгария), покрива групата на българите и гагаузите, но е по-разнообразно, 3 индивида са по-далечни.
На следващата графика съм добавил монголци, орокени и ранноаварски елит (от днешна Унгария).

Някои индивиди от ранния аварски елит са при орокените и монголците, някои са при средноаварското простолюдие, един е по средата. Нито един не е при българите и гагаузите.
Ъпдейт 2023-02-14: Нова графика, където има повече съвременни народи:

Тук се вижда как турците се приближават към монголците откъм юг (географски), чувашите се приближават към монголците от север (географски), някои от „средноаварите“ се приближават към монголците по средата на графиката, повечето от „средноаварите“ съвпадат с балканците. От „аварския елит“ има три индивида, които са близо до монголците и два индивида, които са между монголци и руснаци.
Колко близо са средновековните алани до българите
Това всъщност са предполагаеми алани, които нямаше да са особено интересни, ако не бяха обявени за наши ираноезични кавказки предци от Светослав Стамов и Тодор Чобанов. Поради липса на друго предполагаемо „прабългарско“ ДНК, ги включвам. Те са от района на северен Кавказ, днешна Русия. Датирани са между 450 и 1350 г. сл. Хр.

Един алан се допира до групата на българите и гагаузите. Два са по-далече (виждат се като един), а други два са много далече. От норвежците някои се припокриват с групата на българи и гагаузи и са по-близо като цяло.
За допълнителна визуализация добавям PCA с днешните ираноезични кавказци, осетинците:

Българите и гагаузите са ясно разграничени от осетинците.
Ъпдейт 2023-02-14: Нова графика, където има повече съвременни народи:

Средновековните алани са близо до осетинците.
Използван софтуер и данни
- smartpca, EIGENSOFT version 8.0.0, 03/30/21.
- Allen Ancient DNA Resource (AADR): Downloadable genotypes of present-day and ancient DNA data, version v54.1, 1240K+HO