Цифровые диктофоны

Алексей Смирнов (С.-Петербург)

Запись речи, имеющая свою продолжительную историю, в наше время достигла высот интерактивного совершенства, из аналоговой (на магнитную ленту) превратившись в цифровую. Подавляющее большинство людей пока не осознает тех преимуществ, которые дает цифровая запись. Между тем конструкция цифровых диктофонов за последнее десятилетие выписала столь же стремительную спираль, что и сотовые телефоны. Вершиной этой спирали (на сегодняшний день) стало применение в диктофонах чипов памяти стандарта flash.

К сожалению, производители средств цифровой записи речи стараются не уточнять технические характеристики своих изделий, делая ставку на «психологическое программирование» потребителей. Попытаемся разобраться в достоинствах и недостатках современной технологии записи речи на примере двух цифровых диктофонов, появившихся на рынке с интервалом менее двух лет.

Представляем кандидатов

Диктофон производства компании AIWA комплектуется сменной SD-картой, емкость которой составляет 64 Mбайт. Из них 32 Mбайт зарезервировано для хранения музыкальных МР3-записей, эта часть памяти не доступна для использования в диктофонном режиме. Таким образом, в распоряжении пользователя всего 32 Mбайт, которых достаточно для непрерывной записи в течение 2 часов 14 минут при частоте дискретизации 8000 кГц. Теоретический верхний предел АЧХ составляет 4000 Гц, но в реальности он несколько ниже. Встроенный микрофон расположен в корпусе так, что обеспечивает максимальную «звуковую доступность» для внешнего сигнала, а это увеличивает чувствительность к низкочастотной составляющей звукового спектра (20-200 Гц). Применение выносного микрофона не предусмотрено.

Диктофон компании Sanyo укомплектован несменной flash-памятью объемом 128 Mбайт. Этот объем разделен на 4 каталога, одинаково доступных для записи любых файлов пользователя. В диктофоне два встроенных микрофона (есть режим стереофонической записи), вмонтированных в специальные «камеры» с узким горлышком, что улучшает акустические характеристикив полосе 20-200 Гц.

Этот диктофон можно использовать с выносным стереомикрофоном (внутренние микрофоны при этом отключаются), что существенно повышает разборчивость речи. Частота дискретизации сигнала — 16 кГц, однако DSP-процессор и встроенное ПО позволяют сжимать сигнал в полосе до 4000 Гц в самом экономичном режиме записи, который, собственно, и используется при записи речи. Максимальная продолжительность записи речи (LP-mode) — 17 часов 51 минута.

В отличие от диктофона AIWA, сохраняющего записи в «расточительном» формате PCM.WAV (требуется отдельная утилита для конвертации в МР3), диктофон Sanyo хранит данные непосредственно в формате MP3, который экономичнее на 5% (следует принять во внимание также разницу полосы частот, см. ниже).

Оба диктофона питаются от одной батарейки AA, которой хватает на 6-8 часов записи (с периодическим переносом данных в ПК).

В чем же качественное различие?

Для оценки качества моделей будем использовать такие «естественные» характеристики, как:

  • Полоса частот записи
  • Неравномерность полосы записи
  • Разборчивость записи
  • Соотношение сигнал/шум

Для сравнения диктофонов были сделаны две записи в совершенно идентичных условиях:

1. Запись «в упор» относительно источника звука (чтобы максимально нивелировать различия в конструкции микрофонного узла).

2. Запись в «естественных условиях» (1-2 метра от источника).

Сравнение спектра записи диктофонов как раз и выявляет качественные различия.

Диктофон AIWA в состоянии записывать звук в пределах часот 20-3000 Гц (частота режекции 3200 Гц), при этом демонстрирует хорошую равномерность записи при динамическом перепаде в 56 DBa и более чем приемлемое соотношение сигнал/шум.

Диктофон Sanyo записывает звук в пределах 400-4000 Гц с глубокой режекцией в полосе 20-200 Гц, слегка подкрашивает тембр в полосе 200-400 Гц, обеспечивает однородность записи при динамическом перепаде в 59 DBa (микрофон был установлен в режим LS — Low Sensitivity). Частота режекции 4400 Гц и отличное соотношение сигнал/шум.

Таким образом, наиболее значимые различия между двумя моделями заключаются в полосе частот записи (3600 и 3200 Гц) и в существенно разной чувствительности записи в полосе 20-400 Гц. Иными словами, встроенный DSPпроцессор Sanyo и особая конструкция звуковых камер встроенных микрофонов дает частотный сдвиг полосы записи на 400 Гц и расширяет ее на те же 400 Гц в области высоких частот. Для чего это сделано? Все очень просто — чтобы многократно повысить распознаваемость речи в условиях реального (зашумленного) помещения. Особенно ярко эта особенность диктофона Sanyo проявляется в замкнутых помещениях, где превалирует низкочастотный участок спектра человеческой речи.

Для иллюстрации на рисунке приведены параметры записи речи (читка текста на удалении 1 метр от микрофонов — зона «В»), звука от радиоприемника с минимальной громкостью звучания (зона «А») и в условиях шума от группы вентиляторов в системном блоке ПК.

Сравнение результатов эксперимента показывает кардинальные различия в подходах к обработке звука. Если AIWA предпочитает «подтягивать» (при помощи АРУ) акустический сигнал к некоему максимально достижимому уровню, проигрывая при этом в соотношении сигнал/шум, то Sanyo оптимизирует громкость в соответствии с естественной голосовой модуляцией, предпочитая «задавить» шумовую составляющую, не обладающую высокими динамическими перепадами.

В области записи, помеченной символами «А» на обеих спектрограммах, «утоплено» монотонное звучание радиоприемника, однако этот звук хорошо различим в записи диктофона Sanyo (разборчивость речи диктора на уровне 100%) и абсолютно неразличим в фонограмме AIWA.

Зона «всплеска» (С) наглядно демонстрирует различия в записи динамичных сигналов — это «клик» мышкой на расстоянии полуметра от микрофонов.

Сравнение спектрограмм записи AIWA и Sanyo (речь «В» и шум + радиоприемник «А») дает ответ на вопрос о причине различий. DSP-процессор AIWA «схватывает» шумовую дорожку и «топит» высокочастотный сигнал, тогда как DSP-процессор Sanyo умудряется «привязывать» коэффициент усиления канала записи к динамическим особенностям сигнала, что дает подъем высокочастотной части спектра даже в шумовом участке (зона «А»). Эффект локального амплитудного «подскока» на пиках полезного сигнала у Sanyo способствует смысловому распознаванию сигнала человеческим ухом.

Выводы

Два диктофона внешне близкой конструкции, как видно на деле, отличаются РАЗИТЕЛЬНО.

Суть различия кроется в программных методах обработки звука. Особенно ярко это различие проявляется при записи человеческой речи в замкнутых помещениях, когда говорящий в силу морфологических и психологических особенностей предпочитает монотонно бубнить. Степень распознавания такой речи у диктофона AIWA не превышает 30%. Аналогичные записи на диктофон Sanyo разборчивы даже будучи сделанными в условиях шумового фона.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *