Введение в нейронные сети. 7 рассказов о математике

Александр Титов (С.-Петербург)

Рассказ третий. Статистика знает все

Кто не играл в такую игру — отвечаем на анкету. Вопрос, типа: «Вы в магазине прятали когда-нибудь в карман одеколон?» Все отвечают: конечно, нет! И получают доп. балл за честность. И все в таком духе, прямо в лоб.

А бывает, что экзаменатор быстро задает вопросы:

— «5 или 4″?

— «Кто не синий?»

— «Три ли тещи?»

— «Или не он, или 10?»

И так примерно 200 вопросов. А потом говорит: нет, в наших органах вы работать не будете. Вы, товарищ, склонны к спонтанному надувательству других и безответственному поведению!

Да на каком основании?! Да как вы узнали?! Оказывается, основание есть.

Вспомним тему прошлого очерка и представим себе многомерное пространство. Или нет, сначала наше, трехмерное. А в нем – репер. Репер — это три направления, по которым можно измерить расстояние до любой точки. Например, угол Вашей комнаты. От него можно вдоль стен отсчитать расстояние до любого предмета в комнате. Три известные со школы оси X,Y,Z придумал во времена мушкетеров Рене Декарт. Теперь отложим по осям числа, которыми измерены характеристики людей.

По одной оси рост.

По другой — смелость

По четвертой — средний балл диплома

По пятой — число детей

По шестой….

Характеристик можно придумать больше трех. Каждый испытуемый попадает в точку в пространстве этих осей. Это похоже на небо со звездами, но оно многомерное. КАК мы все это мерили, пока неважно. Как-то померили даже смелость. Теперь простейший выбор — берем тех, кто дальше от начала координат по оси смелости, но не слишком далеко по осям «средний балл» и «рост». В начале координат, где все оси пересекаются, стоит 0. Значит, выбираем самых смелых, но не шибко умных и высоких, и в танк их! Хорошо? Может быть…

Рассмотрим отвлеченную на первый взгляд задачу. Как расположены точки в пространстве измерений? Они равномерно заполняют всю область, или собираются в пространственные (многомерные) облака, фигуры?

Допустим, в проекции на оси «Смелость» и «Рост» испытуемые собрались в два облака: низкие смелые и высокие несмелые. Это уже, можно сказать, открытие. Вообще, если выборка образует четко различимую фигуру в проекции на пространство некоторых измерений, то говорят, что эти измерения коррелированы, или зависимы. Кто сможет увидеть эти фигуры в многомерном пространстве? Увидеть нельзя, но можно РАССЧИТАТЬ коэффициент корреляции между случайными величинами. Пример коррелированных (но не жестко зависимых) факторов: рост, вес, возраст и должность.

И все-таки, есть ли облака в пространстве характеристик? Напомним, что каждая точка соответствует одному (или нескольким)испытуемым. Пространство характеристик многомерно, нарисовать его на бумаге трудно, одни цифры. Но можно произвести (иногда несложные) вычисления, которые покажут, есть ли облака. Если есть, то каждое облако соответствует группе людей, в каком-то смысле похожих. Чаще всего совершенно непонятно, в каком именно смысле, но на группы они делятся! Такие группы называют кластерами, а занятие это — кластерным анализом. Попробуем понять, в каком же смысле похожи представители кластера. Для этого выберем типичного представителя, который расположен в самой середине облака (середину многомерного облака тоже нельзя увидеть, но можно вычислить).

Итак, пусть выборка образует два кластера, в которых типичные представители — А и Б. Ставим их перед строем и смотрим, что же это за люди. И если мы сможем сформулировать или хотя бы внятно почувствовать, как именно они совсем разные («Свой в доску», «Дохлая интеллигенция»), то пространство измерений было выбрано хорошо.

Формулы все простые. Искусство авторов теста состоит в выборе характеристик для измерения! Удивительно, что если рассмотреть пространство характеристик вроде такого:

По одной оси рост.

По второй — вариант ответа («да» или «нет») на вопрос «три ли тещи?» (это измерение, в отличие от нашего пространства, дискретное)

По третьей — цена брюк испытуемого

По четвертой — сумма цифр номера его машины

По пятой — число детей

По шестой….

то может оказаться, что испытуемые делятся на кластеры, соответствующие каким-то четким формальным («ветеран труда», «школьник начальных классов») или неформальным характеристикам («свой в доску», «дохлая интеллигенция»). Конечно, не наверняка, а с известной вероятностью. Для некоторых тестов профориентации вероятность получения верной характеристики близка к 100%. Еще раз обращаем ваше внимание на то, что возможны тесты-игрушки (поводы поговорить) и тесты-приговоры. В книжках можно встретить, например, тесты, размещающие вашу личность в какой-то классификации (шизоидный тип, параноидальный, антишизоидный и т.п.) Это можно рассматривать, как способ структурировать деятельность, дать опору для дальнейшего чтенияразговора. Между тем, если тест профпригодности с вероятностью 98% дает 90-балльное смирение, то лучше авиадиспетчером вам не быть.

(Заметим, что к результату теста приложена вероятность правильности этого результата).

Это самое «смирение» может означать, что когда авария неминуема, вы, горестно обхатив руками голову, упадете ею на пульт и прекратите работу. Между тем, 1) кое-что возможно (и даже предписано) сделать и после аварии 2) можно было предотвратить аварию, вы ошиблись в оценке неотвратимости.

Итак, отвечая на вопросы серьезного теста, вы, скорее всего, не поймете, что именно хотят о вас узнать (и, скорее всего, они это узнают). А если вы вынуждены проходить тест, в котором мало вопросов и они поставлены «в лоб», то этот тест — игрушка, и важных решений на основании такого тестирования принимать не стоит.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>