Ледж-коэффициент корреляции и его применение для отбора информативных признаков в задачах бинарной классификации
ВВЕДЕНИЕ
Актуальность темы исследования. Развитие технологий сбора и хранения информации, используемых в современных биомедицинских исследованиях, приводит к увеличению объема данных, подлежащих анализу, что вызывает потребность в развитии методов их обработки. Актуальным примером является категория задач бинарной классификации многомерных данных полученных с пептидных, либо ДНК-микрочипов. Такие проблемы исследуются, например, с целью поиска методов ранней диагностики онкологических заболеваний [1-3].
Задачи бинарной классификации состоят в отнесении каждого пациента некоторого данного множества к одному из двух классов, исходя из информации, отражающей результаты определенной диагностики состояния организма пациента. Данная информация, как правило, представлена числовыми значениями очень большого набора биомедицинских признаков. Их количество может доходить до нескольких сотен тысяч, что многократно увеличивает время анализа данных [1, 3].
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ5
1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ9
Распространенные методы отбора информативных признаков9
Взаимосвязь числового и бинарного признаков типа «ледж»11
Крайние случаи связи. Ледж-коэффициент корреляции13
Выводы15
2. ПРЕДЛАГАЕМЫЙ МЕТОД ОТБОРА ПРИЗНАКОВ16
Теоретические основы алгоритмов16
Поиск оптимальных отрезков, вычисление ледж-коэффициента корреляции19
Проверка гипотезы о наличии связи типа «ледж»22
Предобработка данных27
Выводы29
3. ИСПОЛЬЗОВАНИЕ ПРЕДЛОЖЕННОГО МЕТОДА В ЗАДАЧАХ БИНАРНОЙ КЛАССИФИКАЦИИ ДАННЫХ С МИКРОЧИПОВ30
Описание экспериментов30
Сравнительный анализ методов отбора информативных признаков и классификации32
Выводы40
ЗАКЛЮЧЕНИЕ41
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ42
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Alanni R., Hou J., Azzawi H., Xiang Y. A novel gene selection algorithm for cancer classification using microarray datasets. BMC Med Genomics. 2019. V. 12. doi: 10.1186/s12920-018-0447-6.
2. Renard B.Y., Löwer M., Kühne Y., Reimer U., Rothermel A., Türeci O., Castle J.C., Sahin U. Rapmad: Robust analysis of peptide microarray data. BMC Bioinformatics. 2011. V. 12. doi: 10.1186/1471-2105-12-324.
3. Önskog J., Freyhult E., Landfors M., Rydén P., Hvidsten T.R. Classification of microarrays; synergistic effects between normalization, gene selection and machine learning. BMC Bioinformatics. 2011. V. 12. doi: 10.1186/1471-2105-12-390.
4. Mohammed A., Biegert G., Adamec J., Helikar T. CancerDiscover: An integrative pipeline for cancer biomarker and cancer class prediction from high-throughput sequencing data. Oncotarget. 2018. V. 9. № 2. P. 2565–2573. doi: 10.18632/oncotarget.23511.
5. Xi M., Sun J., Liu L., Fan F., Wu X. Cancer Feature Selection and Classification Using a Binary Quantum-Behaved Particle Swarm Optimization and Support Vector Machine. Computational and Mathematical Methods in Medicine. 2016. V. 2016. P. 1–9. doi: 10.1155/2016/3572705.
6. Hira Z., Gillies D. A review of feature selection and feature extraction methods applied on microarray data. Advances in Bioinformatics. 2015. V. 2015. P. 1-13. doi: 10.1155/2015/198363.
7. Saeys Y., Inza I., Larranaga P. A review of feature selection techniques in bioinformatics. Bioinformatics. 2007. V. 23. № 19. P. 2507-2517. doi: 10.1093/bioinformatics/btm344.
8. Lazar C., Taminau J., Meganck S., Steenhoff D., Coletta A., Molter C., de Schaetzen V., Duque R., Bersini H., Nowe A. A survey on filter techniques for feature selection in gene expression microarray analysis. IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2012. V. 9. № 4. P. 1106-1119. doi: 10.1109/TCBB.2012.33.
9. Jafari P., Azuaje F. An assessment of recently published gene ex
Поэтому включение отрезков является строгим, т.к. по лемме 2.2 Без ограничения общности можно считать, что максимальный по включению отрезок, внутри которого все числа q(j) равны 0, что по определению этих чисел означает Ясно, что тогда отрезок нейтрален, В силу оптимальности выполнено q(j)=q, а значит
что противоречит оптимальности . Теорема доказана.
Доказанное утверждение означает, что в наборе чисел q(j), когда j пробегает оптимальный отрезок, два нуля не могут следовать подряд, что обосновывает поиска самого длинного оптимального отрезка.
2.2. Поиск оптимальных отрезков, вычисление ледж-коэффициента корреляции
Поиск коэффициента LE сводится к вычислению S(Y) для заданной бинарной цепочки. Фактически, ниже будет описания алгоритм поиска самого короткого оптимального отрезка, в котором искомое S(Y) вычисляется «по пути». Исходя из леммы 2.2, наша цель – найти такой отрезок, для которого число q будет максимально.