Разборчивость речи зависит от диапазона. Разборчивость речи и методы ее измерения

Глава 10. ПОНЯТНОСТЬ И РАЗБОРЧИВОСТЬ РЕЧИ .
10.1. ВВЕДЕНИЕ.
Основной характеристикой любого канала передачи речи является понятность речи. Для определения этой характеристики применяется статистический метод с участием большого числа слушателей и дикторов. Понятность речи - определяющая характеристика тракта передачи речи, так как если тракт не обеспечи­вает полной понятности ее, то никакие другие преиму­щества его не имеют значения - он не пригоден к эксплуатации.

Для непосредственного определения этой качествен­ной характеристики есть только один метод: статисти­ческий с участием большого количества операторов (слушателей и дикторов). Разработан косвенный, коли­чественный метод определения понятности речи через ее разборчивость.

Разборчивостью речи называют относительное или процентное количество принятых элементов речи из общего числа переданных по тракту. Элементы речи - это слоги, звуки, слова, фразы (команды), цифры. Со­ответственно этому есть слоговая, звуковая, словесная, смысловая и цифровая разборчивость. В практике ис­пользуют преимущественно слоговую, звуковую и сло­весную разборчивость. Для измерений разборчивости разработаны специальные таблицы слогов, звукосочетаний и слов с учетом их встречаемости в русской ре­чи (аналогичные таблицы есть и для других языков). Звуковых таблиц нет, так как звуки, кроме гласных, отдельно не произносятся, а для измерений звуковой разборчивости пользуются слоговыми таблицами или таблицами звукосочетаний. Все эти таблицы называют артикуляционными.

Измеряют разборчивость с помощью группы трени­рованных слушателей и дикторов, называемой артику­ляционной бригадой, поэтому метод измерений назы­вают артикуляционным . Тренировка бригады необходи­ма, так как иначе результаты измерений некоторое время будут расти при неизменных условиях, по мере натренированности артикулянтов. Тренировку проводят до тех пор, пока артикулянты не будут давать стабиль­ные результаты при заданных условиях измерений. Дольше всего артикулянты тренируются на слоговых таблицах. Бригаду составляют из молодых людей без нарушений слуха и речи.

Артикулянты дают наибольшие возможные значения разборчивости речи в заданных условиях работы трак­та. Поэтому для определения связи между разборчи­востью, измеренной артикулянтами , и понятностью ре­чи для обычных абонентов в тех же условиях были проведены массовые испытания. В этих испытаниях участвовали самые разнообразные люди из числа по­тенциальных абонентов общим числом более 2000 че­ловек. Были взяты самые разнообразные тракты с раз­личными условиями их работы. Разговор велся по спе­циальным разговорникам в обе стороны, как при теле­фонных переговорах. При этом контролировалось по­нимание абонентами друг друга. Оценка ставилась по пятибалльной системе: отлично, если понятность была полная, без каких-либо переспросов; хорошо, если бы­ли отдельные переспросы редко встречающихся слов или неизвестных названий, фамилий и т. п., о которых нельзя догадаться по смыслу; удовлетворительно, если требовались частые переспросы и слушатели сообщали, что трудно разговаривать; предельно допустимо, если требовались неоднократные переспросы одного и того же материала с передачей отдельных слов по буквам с полным напряжением слуха; срыв связи, если або­ненты не могли понять друг друга и отказывались от разговора. Одновременно для каждого из условий испытаний и каждого тракта были измерены величины разборчивости речи с помощью тренированной брига­ды.

Та блица 10.1

В табл. 10.1 приведены градации понятности речи и соответствующие им величины разборчивости. Одно­временно с указанными испытаниями были измерены статистические зависимости между слоговой, словес­ной, звуковой и смысловой разборчивостью для рус­ской речи.

Кроме этого, был разработан ускоренный метод из­мерения разборчивости речи - метод выбора . Он осно­ван на следующем. Каждая таблица составлена из не­скольких групп слов. В каждой группе подобраны сло­ва, по звучанию сходные между собой. Диктор пере­дает из каждой группы только одно слово. Слушатели имеют перед собой таблицу и должны отметить то слово, которое, по их мнению, было передано. Чередо­вание слов изменяется в случайном порядке. Опреде­ляется процент правильно принятых слов. Между коли­чеством принятых слов по этому и артикуляционному методам установлена статистическая связь. Этот метод не требует длительной тренировки слушателей, но точ­ность его ниже артикуляционного.

Зависимость между понятностью речи и ее разбор­чивостью, приведенная в табл. 10.1, справедлива, когда идет прием самой разнообразной информации. В тех же случаях, когда идет обмен информацией с гораздо меньшим объемом (т. е. при ограниченном словаре), понятность речи будет выше, чем в общем случае при той же разборчивости речи. Например, для диспетчер­ской связи полная понятность речи получается при сло­говой разборчивости речи около 40%, что соответст­вует удовлетворительной понятности в общем случае. Поэтому при расчете устройств, подобных диспетчер­ской связи, ориентируются на меньшие величины раз­борчивости речи, чем при расчетах систем широкого применения. Но в каждом случае необходимо предва­рительно знать величину разборчивости, при которой будет полная понятность передаваемой информации.
^ 10.2. ФОРМАНТНЫЙ МЕТОД ОПРЕДЕЛЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ.
Был предпринят ряд попыток для нахождения непо­средственной связи между разборчивостью речи, с од­ной стороны, характеристиками трактов передачи речи и условиями ее приема и передачи, с другой, но не бы­ло получено приемлемых результатов. Только при по­средстве формантной теории, разработанной Флетчером и Коллардом, удалось установить эту связь.

Форманты звуков речи заполняют весь частотный диапазон от 150 до 7000 Гц. Средняя вероятность по­явления формант в том или ином участке диапазона для каждого языка вполне определенна. Условились делить весь частотный диапазон на 20 таких полос, чтобы в каждой из них вероятность появления формант была одинаковой. Соответствующие полосы назвали полосами равной разборчивости. Они определены для ряда языков, в том числе и для русского. Оказалось, что при достаточно большом количестве передаваемого материала вероятности появления формант подчиняют­ся правилу аддитивности. Вследствие этого вероятность появления формант в каждой полосе равной разборчи­вости равна 0,05.

Если слушать речь в условиях шумов и помех, то ее разборчивость получается меньшей, чем в их отсутст­вие. Дело в том, что форманты имеют различные уров­ни интенсивности: у громких звуков выше, чем у глу­хих. Поэтому при увеличении уровня шумов сначала маскируются форманты с низкими уровнями, а затем с более и более высокими. Вследствие этого по мере увеличения уровня шумов и помех вероятность вос­приятия формант постепенно уменьшается. Коэффи­циент, определяющий это уменьшение, называют ко­эффициентом восприятия или коэффициентом разбор­чивости w . Таким образом, в каждой полосе равной разборчивости вероятность приема формант будет ΔА = 0,05 w .

Так как в основном вся энергия звуков речи сосре­доточена в формантах, то уровни формант практически совпадают с уровнями звуков речи. На рис. 10.1 показано распределение уровней речи, т. е. интегральная вероятность появления уровня не менее заданного в за­висимости от разности между средним уровнем речи, определенным за длительный интервал времени, и за­данным уровнем. Эта вероятность практически совпа­дает с вероятностью распределения формант. Заметим, что это распределение почти не зависит от частоты.

Порог слышимости в шумах (см. § 2.7) определяет­ся спектральными уровнями шумов. Для флуктуационных шумов величина порога слышимости почти не за­висит от времени. Вследствие этого разность между средним спектральным уровнем речи и спектральным уровнем шумов будет определять вероятность появле­ния формант выше уровня шумов. Но разность между уровнем сигнала и уровнем порога слышимости назы­вают уровнем ощущения . Следовательно, коэффициент разборчивости w определяется уровнем ощущения фор­мант

где B р - средний спектральный уровень речи; В ш - спектральный уровень шумов.

Коэффициент разборчивости может быть определен с помощью графика рис. 10.1. Для примера на этом рисунке показаны уровень ощущения Е и соответст­вующий ему коэффициент разборчивости w .

Между формантной и другими видами разборчивости экспериментально были найдены зависимости. Для сло­говой разборчивости такая зависимость приведена на рис. 10.2. Интересно отметить, что при формантной разборчивости, равной 0,5 (принимается только поло­вина всех формант), слоговая разборчивость равна 80%, т. е. получается почти полная понятность речи

Это характеризует избыточность речи и комбинацион­ную способность человеческого мозга.


Рис. 10.1. Интегральное рас­пределение уровней речи: 1 - для непреобразованного сигна­ла; 2 - для предельно-ограниченно­го по амплитуде


Рис. 10.2. Зависимость сло­говой разборчивости от формантной

Звуковые единицы характеризуются различными свойствами в зависимости от различных факторов их рассмотрения. Образованию звуковых единиц соответствует артикуляционный фактор, который называют анатомо-физиологическим. Акустический фактор относится к свойствам звуковых единиц в результате работы произносительных органов и определяет звучание речи. Восприятие звуков человеком относится к персептивному фактору.

Первоначально описания звуковых систем осуществлялось на основе

анализа артикуляций. Но с развитием техники акустического анализа звуков исследователи приходят к выводу, что акустические характеристики речи наиболее важны. Современная фонетика учитывает тесную связь и взаимообусловленность между артикуляционными и акустическими характеристиками речи.

Исследования восприятия речевых единиц показывает, что они воспринимаются не так, как любые другие звуки. Это объясняется, как способностью человека преобразовывать их в соответствующие артикуляции, так и функциональными свойствами речевых звуковых единиц.

Звуки речи являются сложными звуками в основном из-за того, что процесс речеобразования сопровождается резонансными явлениями, собственные частоты которых изменяются в зависимости от того, какой звук в данный момент произносится.

Источник звука вызывает в системе резонаторов речеобразующего тракта собственные колебания. Звуки на собственных частотах резонаторов являются наиболее усиленными. Собственные частоты резонаторов называют формантами звука, так как они формируют характерное звучание гласных и согласных.

Частоты формант определяются конфигурацией речевого тракта и свойства источника звука на них не влияет. Это одно из важнейших положений акустической теории речеобразования. Это положение позволяет связывать частоты формант только со спецификой артикуляции и по частотам формант судить о положении артикуляционных органов.

Число формант, существенно характеризующих определенный звук речи, исследователи определяют по разному, но в большинстве случаев исследователи считают, что в образовании определенного звука участвуют четыре форманты.
^ Основные параметры звукового поля. Устанавливается следующий минимальный набор критериев, характеризующих параметры звукового поля, формируемого СЗО (системой звукового обеспечения) :

· показатель разборчивости речи;

· диапазон эффективно воспроизводимых звуковых частот;

· неравномерность поля уровней на озвучиваемой поверхности;

· номинальный уровень звукового давления (УЗД).
Электроакустический расчет выполняется для всей озвучиваемой поверхности. Под озвучиваемой поверхностью подразумевается плоскость параллельная полу помещения, а в случае озвучивания открытых пространств - параллельной поверхности земли. Высота этой поверхности относительно уровня пола при наличии сидячих зрительских мест принимается равной 1.2 м, а для стоящих слушателей - 1.6 м.
Конечным критерием оценки разборчивости речи является ее понятность. Она представляет собой субъективную категорию с 5 градациями, указанными в графе 1 табл.1. При определении понятности следует исходить из ее связи с расчетными (или измеренными) критериями. В графах 2 и 3 табл. 1. данная связь показана для слоговой разборчивости русской речи и для быстрого индекса передачи речи (RASTI) .

Таблица 1


Понятность

Отлич

ная


Хоро

шая


Удовлетвори

тельная


Плохая

Недопустимо плохая

Слоговая разборчивость S,%

/Справочник ./


80-100

55-80

44-55

25-40

>25

^ RASTI /МЭК 268-16/

0.75-1.00

0.60-0.75

0.45-0.60

0.30-0.45

>0.30

Для проектируемых СЗО должна быть обеспечена разборчивость речи, соответствующая ее понятности не хуже "хорошей".

В отдельных случаях, оговоренных в ТЗ на проектирование, допускается обеспечение "удовлетворительной" понятности речи. Такой подход допустим лишь в тех случаях, когда особенности очень гулкого помещения не позволяют снизить значение его времени реверберации на средних частотах менее чем до 2.0-2.5 с. Типичным примером таких помещений являются залы-памятники архитектуры, а также культовые сооружения.

Расчет разборчивости речи производится для всех озвучиваемых поверхностей. Помимо электроакустических и геометрических параметров СЗО, к исходным данным для расчета разборчивости речи относятся время реверберации озвучиваемого помещения (RT60, с) и ожидаемый в нем уровень акустических шумов (LN, дБ). Оба эти показателя устанавливаются в виде набора значений на частотах стандартного октавного ряда в пределах эффективно воспроизводимого диапазона частот. Значения RT60 и LN заимствуются из соответствующих разделов проекта, посвященных акустическому решению помещений и их защите от шума. При отсутствии этих данных в указанных разделах проекта, значения RT60 должны быть вычислены отдельно, а значения LN могут быть приняты как допустимые значения октавных УЗД, указанных в нормативной документации на данный тип помещений (например, согласно МГСН 2.04-97). При расчете RT60 может быть использована традиционная методика.

Диапазон эффективно воспроизводимых частот определяется как участок амплитудно-частотной характеристики с неравномерностью не более ± 3 дБ в октавных полосах.

Неравномерность поля уровней на озвучиваемой поверхности DL в дБ определяется отдельно в октавных полосах в заданном для данного типа СЗО по выражению:

где LMAX и LMIN соответственно максимальные и минимальные значения общих уровней звукового давления (с учетом прямого звука и диффузной составляющей поля) на озвучиваемой поверхности, вычисляемые при работе СЗО на установленных для отдельных акустических излучателей значениях подводимой электрической мощности, которые не должны превышать значений номинальной электрической мощности, оговоренных в ТУ на данный вид акустического излучателя.

^ Речевые СЗО.

Основным требованием к речевой СЗО является обеспечение достаточной разборчивости речи на всей озвучиваемой поверхности.

Расчет электроакустических параметров следует проводить для октавных полос со среднегеометрическими частотами 500, 1000 и 2000 Гц.

Минимально допустимые регламентируемые настоящим Руководством параметры поля речевой СЗО приведены в табл. 2

Таблица 2.


^ Параметр звукового поля

Уровень комфорта

I

II

разборчивость

отл.

хор.


200 - 4000 Гц

200 - 6300 Гц


2 дБ

3 дБ

уровень звукового давления

см. п. 5.2.11 (минимальное допустимое значение - 80 дБ)

^ Трансляционные музыкально-речевые СЗО.

Основными требованиями к трансляционным музыкально-речевым СЗО являются обеспечение достаточной разборчивости речи на озвучиваемой поверхности, соответствующей местам постоянного или временного пребывания людей, а также обеспечение возможности высоко качественного прослушивания музыки.

Расчет электроакустических параметров следует проводить для октавных полос со среднегеометрическими частотами 250, 500, 1000, 2000 и 4000 Гц по формуле (1).

Минимально допустимые регламентируемые настоящим Руководством параметры поля трансляционной музыкально-речевой СЗО приведены в табл. 3.

Таблица 3.


^ Параметр звукового поля

Уровень комфорта

I

II

разборчивость

отл.

хор.

диапазон эффективно воспроизводимых частот

60 - 16000 Гц

100 - 12500 Гц

неравномерность поля уровней на озвучиваемой площади

2 дБ

3 дБ

уровень звукового давления

см. п. 5.2.11 (минимальное допустимое значение - 90 дБ)

^ Концертные музыкально-речевые СЗО.

К категории концертных музыкально-речевых относятся системы, предназначенные звукового обеспечения концертных выступлений, театральных постановок, музыкально-речевых шоу-программ, кино- и видеопоказа и решения других задач, требующих особо высокого качества звучания.

Расчет электроакустических параметров следует проводить для октавных полос со среднегеометрическими частотами 125, 250, 500, 1000, 2000, 4000, 8000 Гц.

Минимально допустимые регламентируемые настоящим Руководством параметры поля речевой СЗО приведены в табл. 4

Таблица 4.


^ Параметр звукового поля

Уровень комфорта

I

II

разборчивость

отл.

хор.

диапазон эффективно воспроизводимых частот

45 - 18000 Гц

80 - 12500 Гц

неравномерность поля уровней на озвучиваемой площади

2 дБ

3 дБ

уровень звукового давления

см. п. 5.2.11 (минимальное допустимое значение - 100 дБ)

^ 10.3. МЕТОДЫ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ.
Введение . Одним из методов повышения разборчи­вости речи является снижение уровней шумов и помех. Но в большинстве случаев они бывают заданными и не зависят от нас, хотя иногда можно снизить помехи от диффузного звука (путем уменьшения акустического отношения), от шумов, проникающих под заглушки, и т. п. Остается возможность манипулирования уровня­ми речи у слушателя по прямому звуку. Это возможно следующим образом: повышением уровня голоса гово­рящего, приближением микрофона ко рту и уменьше­нием неравномерности озвучения (путем приближения минимального уровня прямого звука к максимально­му), увеличением индекса тракта. Последний способ возможен только при условии, что в системах звуко­усиления не достигнут предельный индекс тракта, а в других системах - рациональный. И, наконец, есть еще способ повышения разборчивости речи - способ такой компрессии динамического диапазона речевого сигнала, при которой происходит повышение уровней слабых звуков речи при сохранении уровней громких звуков речи. Для систем с обратной акустической связью этот метод непригоден, так как возникает самовозбуждение системы. А в остальных системах сла­бые уровни речи повышаются на величину компрессии динамического диапазона.

Из компрессоров наиболее применимы ограничите­ли уровня, действие которых сводится к выравниванию пиковых уровней громких звуков, при этом не изменя­ются соотношения между уровнями слабых звуков. Подробно об этом будет сказано в курсе «Радиове­щание».

^ Амплитудное ограничение. Рассмотрим предельный случай компрессии речи - предельное амплитудное ограничение , при котором речевой сигнал превращается в последовательность прямоугольных импульсов постоянной амплитуды, но с меняющимися интервалами между нулевыми переходами. При моду­ляции сигнала передатчика таким речевым сигналом получается телеграфный режим работы. А это означает, что все звуки речи будут иметь одинаковый и притом максимальный уровень на приеме. Если при передаче неограниченной речи слабые звуки маскировались по­мехами, то при таком способе передачи они окажутся выше уровней помех и разборчивость будет выше, чем при приеме неограниченной речи. Правда, качество зву­чания и разборчивость речи в отсутствие помех будут ниже, чем для неограниченной речи, но остаются еще в допустимых пределах. Оказывается, что предельно ог­раниченный речевой сигнал для слуха будет иметь распределение по частоте и по уровням, не очень силь­но отличающееся от распределений неограниченной ре­чи. На рис. 10.1 приведено среднее распределение уров­ней для предельного ограничения речи (кривая 2 ) и без него (кривая 1 ), крутизна кривой изменяется толь­ко вдвое, а на рис. 10.3 приведены спектральные оги­бающие звуков речи также для обоих условий (полу­чаются несколько сглаженные форманты). Это объяс­няется тем, что слух имеет «комплект» узкополосных фильтров и, когда в одном или нескольких фильтрах уровень в данный момент повышается, то в других он уменьшается и наоборот, в результате чего в каждом из них процесс происходит с переменным уровнем.

В случае непредельного ограничения или компрес­сии результат получается промежуточный между пре­дельным ограничением и передачей неограниченной, некомпрессированной речи.

^ Вокодерная связь . Вокодер представляет со­бой устройство, в передающей части которого из речевого сигнала выделяются параметры, определяющие информативность речи. К этим параметрам относятся спектральные огибающие звуков речи и параметры ос­новного тона речи, т. е. признаки звуков речи, медлен­но изменяющиеся во времени. Параметр основного тона управляет частотой генератора основного тона, на­ходящегося в приемной части вокодера.

Рис. 10.3. Спектраль­ные огибающие зву­ков речи до ограничения (сплошные кри­вые) и после (пунктирные) : а ) звука «э»; б ) зву­ка «м»
Напряжение от этого генератора, создающего импульсы, сходные с им­пульсами гортани, подается на сложный фильтр, ими­тирующий акустическую систему речевого тракта для звонких звуков речи. При синтезе глухих звуков речи генератор создает шумовое напряжение, подаваемое на фильтры, имитирующие систему для глухих звуков речи. Параметрами этих фильтров и уровнем звуков речи управляют параметры, выделенные на передаю­щем конце, в результате чего восстанавливается спект­ральная огибающая речевого сигнала. Качество и разборчивость восстановленного сигнала получаются до­статочно высокими.

В зависимости от типа выделяемых параметров ре­чевого сигнала есть вокодеры полосные, гармониче­ские, формантные и фонемные. В полосных выделяется комплекс ординат спектра в узких полосках, в гармо­нических - коэффициенты Фурье от разложения спек­тральной огибающей в сумму гармоник, в формантных - частоты и амплитуды формант, в фонемных - какой звук произнесен. Так как эти параметры изменя­ются во времени со скоростью произнесения звуков речи (8-10 звуков в секунду), то частотный диапазон каждого параметра не превышает 20-25 Гц. Кроме то­го, в каждом из перечисленных типов вокодеров выде­ляется параметр (частота) основного тона голоса.

В полосных вокодерах берут 12-18 полос. Динами­ческий диапазон каждого параметра не превышает 25 дБ, поэтому при переводе параметров в импульсную форму достаточен четырехзначный код (16 значений по 1,5 дБ), а во времени достаточно 50 отсчетов в се­кунду. Необходимая пропускная способность для спект­ральных параметров требуется 18х4х50=3600 имп/с Ш на передачу основного тона еще 1200 имп/с, а всего 4800 имп/с. В настоящее время уже достигнуто высокое значение разборчивости речи и качества ее при скоро­сти в 2400 имп/с. В гармоническом вокодере требуемая скорость передачи несколько меньшая.

В наиболее распространенном типе формантного вокодера выделяются четыре формантных частоты и четыре формантных уровня. Динамический диапазон этих параметров - не более 20 дБ, поэтому достаточ­ны трехзначный код (8 значений по 2,5 дБ) и 40 отсче­тов в секунду. Всего получается 8х3х40 = 960 имп/с и 240 имп/с отводится на передачу мелодии основного тона. Требуемая скорость передачи параметров полу­чается равной 1200 имп/с.

Для фонемного вокодера требуемая скорость пере­дачи пока еще не ниже 300 имп/с, при этом теряется информация об индивидуальности говорящего.

Применение вокодеров дает повышение разборчи­вости речи в условиях радиопомех, так как сигналы пе­редаются в телеграфном режиме со специальным по­мехоустойчивым кодированием. Речь, передаваемая с помощью вокодерной связи, идет с высоким уровнем и хорошей разборчивостью даже при наличии сильных помех и замираний. Хорошая помехоустойчивая радиосвязь получается при формантном кодировании. Ее при­меняют на линиях KB связи.

Импульсная форма сигнала дает возможность коди­рования речи аналогично кодированию телеграфной передачи. Такую закодированную речь невозможно под­слушать современными методами. Кроме того, вокодерная связь дает возможность значительного увеличения числа каналов в импульсных системах связи. Для обыч­ного речевого сигнала требуется пропускная способ­ность около 50 000 имп/с. В этом канале можно разме­стить около десяти передач при использовании полосно­го вокодера и около 40 при использовании формантного.

Мы разговариваем по телефону, мы слушаем выступления и речи в концертных залах. Некоторые из нас пытаются подслушать чужой разговор, иные – сделать прослушку невозможной. Однако для всех наведенных выше случаев бывали такие ситуации, когда посторонний шум настолько мешал услышать нужное, что слова становились попросту неразборчивыми. Чтобы таких проблем не возникало, перед эксплуатацией трактов проводится акустическая экспертиза каналов речевой коммуникации.

Канал, либо тракт речевой коммуникации (или канал передачи речевой информации) – это физическая среда, путь, который проходит звук от отправления к приему. Это может быть воздушный, электроакустический, вибрационный, параметрический, оптико-электронный канал, однако не будем останавливаться на их рассмотрении, так как наша цель – измерение важнейшего критерия качества тракта – разборчивость речи.

Методы измерения разборчивости речи можно коротко подать в виде списка:

  • Субъективные:
    • Чисто субъективный метод;
    • Объективизированный;
    • Тональный;
  • Объективные:
    • Формантные:
      • AI (Индекс артикуляции);
      • SII (Индекс разборчивости речи);
    • Модуляционные:
      • STI (Speech transmission index – Индекс передачи речи);
      • RASTI (Быстрый STI);
      • STIPA (STI для систем звукоусиления);
      • STITEL (STI для телекоммуникационных систем);
    • %ALcons (Оценка потерь артикуляции согласных);
Конечно, есть еще советские методы Покровского, Быкова, Сапожкова, однако трогать их не будем, по крайней мере пока, так как приведенные выше методы обеспечивают лучший результат.

Разумеется, охватить все и сразу мы не в силах, потому для начала рассмотрим отличия объективных методов от субъективных, а также поподробнее остановимся на последних.

Чистый субъективизм

В оценке разборчивости речи чистым субъективным методом участвует пара диктор-аудитор. Их работу удобно рассматривать на примере тестирования радиостанции по рекомендациям МККР (Международного Консультативного Комитета по Радиосвязи): на передающей стороне радиоканала диктор читает текст, в то время как аудитор на принимающей стороне выставляет оценку тракта по пятибалльной (или какой-либо другой) шкале. Тяжело не заметить очевидный большой недостаток такого подхода, а именно неизбежное влияние на результат особенностей речи и слуха тестирующих людей.

Решение этой проблемы такое же очевидное, как и сама проблема.

Объективизированность

Наиболее распространенным объективизированным методом является метод артикуляции. Он заключается в том, что перед началом измерений в испытуемом канале создаются нормальные акустические условия (уровни шумов). Участвуют несколько аудиторов, а диктор вместо обычного текста читает специально составленные таблицы слогов (артикуляционные таблицы). Аудиторы записывают услышанное и по окончанию сеанса передачи сверяют свои таблицы с дикторскими. Отношение правильно услышанных слогов к их общему числу и есть оценка разборчивости речи, которая выражается в процентах либо в долях единицы.

Отметим, что при большем числе продиктованных и соответственно принятых слогов влияние различных факторов усредняется. Влияние факторов еще более усредняется, если в испытаниях принимают участие различные группы дикторов и аудиторов. В этом и заключается объективизированность артикуляционного метода. Однако не только в этом. Получить объективные результаты помогает начитка именно звукосочетаний, не имеющих смысловой нагрузки, так как при приеме слов или фраз можно додумать и восстановить искаженный трактом элемент.

Что касается аудиторов, есть мнение, что это должны быть специально натренированные бригады, однако ГОСТ Р 50840-95 требует совершенно обратное. Лично я больше склоняюсь к последнему.

Достоинства:

  • Универсальность (метод применим к любому типу тракта);
  • Простота (метод не требует у операторов специальных технических знаний)
Недостатки:
  • Громоздкость процедуры измерений (требуются значительные затраты временных, материальных и человеческих ресурсов);
  • Создание артикуляционных таблиц (с каждым новым типом таблиц результаты измерений отличаются);
  • Зависимость результатов от степени тренерованости операторов;
  • Человеческий фактор (влияние на результат особенностей речи и слуха)

Объективизированность. Часть 2

Рассмотрим еще один объективизированный субъективный метод – тональный, согласно которому диктор заменяется генератором чистых тонов. Этот искусственный голос на деле – обычный громкоговоритель без диффузора, который генерирует сигналы таким образом, чтобы уровень звуковых давлений, создаваемый на различных частотах, соответствовал бы кривой спектра формант. Аудиторы никуда не деваются. Теперь их задача – это просто определить, слышен ли сигнал на данной частоте или нет.
Частоты, на которых проводятся измерения
250 500 650 800 990 1125 1300 1500 1700 1875
2050 2225 2425 2725 3100 3500 3850 4550 6150 8600

Уровень ощущения формант измеряется путем плавного ввода затухания до исчезновения слышимости звука, затем затухание следует убавлять до момента появления звука. Два значения затухания усредняются – это и есть результат измерения.

Формантная разборчивость речи определяется по таблице:

дБ % дБ % дБ % дБ % дБ % дБ %
1 0.04 10 0.65 19 1.92 28 3.22 37 4.28 46 4.75
2 0.09 11 0.76 20 2.07 29 3.37 38 4.37 47 4.78
3 0.14 12 0.89 21 2.2 30 3.51 39 4.46 48 4.8
4 0.19 13 1.03 22 2.36 31 3.64 40 4.52 49 4.82
5 0.24 14 1.18 23 2.5 32 3.75 41 4.57 50 4.85
6 0.3 15 1.32 24 2.65 33 3.87 42 4.62 51 4.88
7 0.37 16 1.47 25 2.79 34 3.97 43 4.66 52 4.95
8 0.46 17 1.62 26 2.93 35 4.08 44 4.69
9 0.55 18 1.77 27 3.08 36 4.18 45 4.72
дБ - уровень ощущения тона; % - формантная разборчивость речи

Общая формантная разборчивость определяется как сумма составляющих:
Для окончания измерения разборчивости речи достаточно определить слоговую разборчивость:

Достоинства:
  • Не нужна бригада дикторов;
  • Значительно сокращается время измерений;
  • Не нужны артикуляционные таблицы
Недостатки:
  • Повышенные требования к технической образованности измеряющего персонала;
  • Невозможность автоматизации процесса;
  • Человеческий фактор

А как же…

… отличия объективных методов от субъективных? Думаю, вы уже догадались, что все дело в человеческом факторе, а точнее в его отсутствии, так как для измерений используют искусственный голос, рот и ухо.

Рассмотрим простейший объективный метод.

Прежде всего, на приемном конце испытуемого тракта создается уровень шума, соответствующий условиям работы. Далее измеряется уровень шума на выходе искусственного уха в критической полосе частот слуха, при этом средняя частота этой полосы равна частоте измерительного тона. Этот уровень шума обязательно нужно зафиксировать, он нам еще понадобится. После этого вместо шума на вход тракта подают тональный сигнал. Уровень интенсивности звука на микрофоне берется таким, чтобы при условном нуле на регулировщике затухания распределение звуковых давлений соответствовало кривой спектра формант. Далее с помощью регулирования затухания добиваются, чтобы уровень тонального сигнала на выходе тракта стал равен зафиксированному нами ранее уровню шума. Показания регулятора затухания – результат измерения.

Чтобы определить формантную и слоговую разборчивости, пользуются теми же способами, что и в тональном методе.

Достоинства:

  • Точность и быстрота;
  • Не требуются дикторы и аудиторы;
  • Возможность полной автоматизации процедуры измерений
Недостатки:
  • Повышенные требования к технической образованности измеряющего персонала

The End

Обычно после этих слов и быть ничего не должно, ну разве что титры, потому буду предельно краток: это был «никнейм_внизу», смотрите нас в любое удобное для вас время. И спасибо за внимание! Мы разговариваем по телефону, мы слушаем выступления и речи в концертных залах. Некоторые из нас пытаются подслушать чужой разговор, иные – сделать прослушку невозможной. Однако для всех наведенных выше случаев бывали такие ситуации, когда посторонний шум настолько мешал услышать нужное, что слова становились попросту неразборчивыми. Чтобы таких проблем не возникало, перед эксплуатацией трактов проводится акустическая экспертиза каналов речевой коммуникации.

Канал, либо тракт речевой коммуникации (или канал передачи речевой информации) – это физическая среда, путь, который проходит звук от отправления к приему. Это может быть воздушный, электроакустический, вибрационный, параметрический, оптико-электронный канал, однако не будем останавливаться на их рассмотрении, так как наша цель – измерение важнейшего критерия качества тракта – разборчивость речи.

Методы измерения разборчивости речи можно коротко подать в виде списка:

  • Субъективные:
    • Чисто субъективный метод;
    • Объективизированный;
    • Тональный;
  • Объективные:
    • Формантные:
      • AI (Индекс артикуляции);
      • SII (Индекс разборчивости речи);
    • Модуляционные:
      • STI (Speech transmission index – Индекс передачи речи);
      • RASTI (Быстрый STI);
      • STIPA (STI для систем звукоусиления);
      • STITEL (STI для телекоммуникационных систем);
    • %ALcons (Оценка потерь артикуляции согласных);
Конечно, есть еще советские методы Покровского, Быкова, Сапожкова, однако трогать их не будем, по крайней мере пока, так как приведенные выше методы обеспечивают лучший результат.

Разумеется, охватить все и сразу мы не в силах, потому для начала рассмотрим отличия объективных методов от субъективных, а также поподробнее остановимся на последних.

Чистый субъективизм

В оценке разборчивости речи чистым субъективным методом участвует пара диктор-аудитор. Их работу удобно рассматривать на примере тестирования радиостанции по рекомендациям МККР (Международного Консультативного Комитета по Радиосвязи): на передающей стороне радиоканала диктор читает текст, в то время как аудитор на принимающей стороне выставляет оценку тракта по пятибалльной (или какой-либо другой) шкале. Тяжело не заметить очевидный большой недостаток такого подхода, а именно неизбежное влияние на результат особенностей речи и слуха тестирующих людей.

Решение этой проблемы такое же очевидное, как и сама проблема.

Объективизированность

Наиболее распространенным объективизированным методом является метод артикуляции. Он заключается в том, что перед началом измерений в испытуемом канале создаются нормальные акустические условия (уровни шумов). Участвуют несколько аудиторов, а диктор вместо обычного текста читает специально составленные таблицы слогов (артикуляционные таблицы). Аудиторы записывают услышанное и по окончанию сеанса передачи сверяют свои таблицы с дикторскими. Отношение правильно услышанных слогов к их общему числу и есть оценка разборчивости речи, которая выражается в процентах либо в долях единицы.

Отметим, что при большем числе продиктованных и соответственно принятых слогов влияние различных факторов усредняется. Влияние факторов еще более усредняется, если в испытаниях принимают участие различные группы дикторов и аудиторов. В этом и заключается объективизированность артикуляционного метода. Однако не только в этом. Получить объективные результаты помогает начитка именно звукосочетаний, не имеющих смысловой нагрузки, так как при приеме слов или фраз можно додумать и восстановить искаженный трактом элемент.

Что касается аудиторов, есть мнение, что это должны быть специально натренированные бригады, однако ГОСТ Р 50840-95 требует совершенно обратное. Лично я больше склоняюсь к последнему.

Достоинства:

  • Универсальность (метод применим к любому типу тракта);
  • Простота (метод не требует у операторов специальных технических знаний)
Недостатки:
  • Громоздкость процедуры измерений (требуются значительные затраты временных, материальных и человеческих ресурсов);
  • Создание артикуляционных таблиц (с каждым новым типом таблиц результаты измерений отличаются);
  • Зависимость результатов от степени тренерованости операторов;
  • Человеческий фактор (влияние на результат особенностей речи и слуха)

Объективизированность. Часть 2

Рассмотрим еще один объективизированный субъективный метод – тональный, согласно которому диктор заменяется генератором чистых тонов. Этот искусственный голос на деле – обычный громкоговоритель без диффузора, который генерирует сигналы таким образом, чтобы уровень звуковых давлений, создаваемый на различных частотах, соответствовал бы кривой спектра формант. Аудиторы никуда не деваются. Теперь их задача – это просто определить, слышен ли сигнал на данной частоте или нет.
Частоты, на которых проводятся измерения
250 500 650 800 990 1125 1300 1500 1700 1875
2050 2225 2425 2725 3100 3500 3850 4550 6150 8600

Уровень ощущения формант измеряется путем плавного ввода затухания до исчезновения слышимости звука, затем затухание следует убавлять до момента появления звука. Два значения затухания усредняются – это и есть результат измерения.

Формантная разборчивость речи определяется по таблице:

дБ % дБ % дБ % дБ % дБ % дБ %
1 0.04 10 0.65 19 1.92 28 3.22 37 4.28 46 4.75
2 0.09 11 0.76 20 2.07 29 3.37 38 4.37 47 4.78
3 0.14 12 0.89 21 2.2 30 3.51 39 4.46 48 4.8
4 0.19 13 1.03 22 2.36 31 3.64 40 4.52 49 4.82
5 0.24 14 1.18 23 2.5 32 3.75 41 4.57 50 4.85
6 0.3 15 1.32 24 2.65 33 3.87 42 4.62 51 4.88
7 0.37 16 1.47 25 2.79 34 3.97 43 4.66 52 4.95
8 0.46 17 1.62 26 2.93 35 4.08 44 4.69
9 0.55 18 1.77 27 3.08 36 4.18 45 4.72
дБ - уровень ощущения тона; % - формантная разборчивость речи

Общая формантная разборчивость определяется как сумма составляющих:
Для окончания измерения разборчивости речи достаточно определить слоговую разборчивость:

Достоинства:
  • Не нужна бригада дикторов;
  • Значительно сокращается время измерений;
  • Не нужны артикуляционные таблицы
Недостатки:
  • Повышенные требования к технической образованности измеряющего персонала;
  • Невозможность автоматизации процесса;
  • Человеческий фактор

А как же…

… отличия объективных методов от субъективных? Думаю, вы уже догадались, что все дело в человеческом факторе, а точнее в его отсутствии, так как для измерений используют искусственный голос, рот и ухо.

Рассмотрим простейший объективный метод.

Прежде всего, на приемном конце испытуемого тракта создается уровень шума, соответствующий условиям работы. Далее измеряется уровень шума на выходе искусственного уха в критической полосе частот слуха, при этом средняя частота этой полосы равна частоте измерительного тона. Этот уровень шума обязательно нужно зафиксировать, он нам еще понадобится. После этого вместо шума на вход тракта подают тональный сигнал. Уровень интенсивности звука на микрофоне берется таким, чтобы при условном нуле на регулировщике затухания распределение звуковых давлений соответствовало кривой спектра формант. Далее с помощью регулирования затухания добиваются, чтобы уровень тонального сигнала на выходе тракта стал равен зафиксированному нами ранее уровню шума. Показания регулятора затухания – результат измерения.

Чтобы определить формантную и слоговую разборчивости, пользуются теми же способами, что и в тональном методе.

Достоинства:

  • Точность и быстрота;
  • Не требуются дикторы и аудиторы;
  • Возможность полной автоматизации процедуры измерений
Недостатки:
  • Повышенные требования к технической образованности измеряющего персонала

The End

Обычно после этих слов и быть ничего не должно, ну разве что титры, потому буду предельно краток: это был «никнейм_внизу», смотрите нас в любое удобное для вас время. И спасибо за внимание!

Понятность и разборчивость речи

Понятность речи - основная характеристика, определяющая пригодность тракта для передачи речи. Непосредственное определение этой характеристики может быть осуществлено статистическим методом с привлечением большого числа слушателей и дикторов. Количественное определение понятности речи – разборчивость .

Разборчивостью речи называют относительное или процентное число правильно принятых элементов речи из общего числа переданных по тракту. Элементы речи – сложные звуки, слова, фразы, цифры. Соответственно различают слоговую , звуковую , словесную , смысловую и цифровую разборчивости . Между ними существует статистическая взаимосвязь. В практике преимущественно используют слоговую, словесную и смысловую разборчивости.

Для измерений разборчивости разработаны специальные таблицы слогов с учетом встречаемости их в русской речи. Эти таблицы называются артикуляционными . Разборчивость измеряют с помощью тренированной бригады слушателей без нарушений слуха и речи путем проведения субъективно-статистических экспертиз. При этом измерения могут проводиться различными методами, например, методом бальной оценки, методом определения процента правильно принятых слов и т.д.

Зависимость между разборчивостью речи и ее понятностью, приведена в табл. 16.1. В этой таблице понятность речи оценена четырьмя градациями:

1) отличная, если понятность полная, без переспросов;

2) хорошая, если у слушателей возникла необходимость в отдельных переспросах редко встречающихся слов или отдельных названий;

3) удовлетворительная, если слушатели сообщили, что им трудно понимать, имели место частые переспросы;

4) предельно допустимая, если требовались неоднократные переспросы одного и того же материала с передачей отдельных слов по буквам при полном напряжении слуха.

Таблица 16.1

Причинами снижения разборчивости являются акустические шумы в помещении, помехи от реверберации и диффузного звука, недостаточное усиление сигналов первичного источника звука.

Системы озвучения и звукоусиления должны обеспечивать требуемую понятность речи. При передаче информационных программ, проведении митингов и собраний необходима отличная понятность речи, которая обеспечивается при 80 % слоговой и 98 % словесной разборчивостях. Для диспетчерской связи полная разборчивость речи (удовлетворительная понятность) получается при 40...50 % слоговой и 87...93 % словесной разборчивостях. Поэтому при расчете диспетчерской связи ориентируются на меньшие величины разборчивости, чем при расчетах систем широкого применения.

Существует связь между разборчивостью речи, условиями приема и характеристиками трактов передачи, которую удалось установить при помощи формантной теории, разработанной Флетчером и Коллардом.

Области концентрации энергии в том или ином участке частотного диапазона называются формантами . Их расположение зависит как от положения звука в слове или фразе, так и от индивидуальных особенностей артикуляционного аппарата человека. Каждый звук имеет несколько формант. Форманты звуков речи заполняют частотный диапазон от 150 до 7000 Гц.

Этот диапазон частот условились поделить на 20 полос, в каждой из которых вероятность появления формант одинакова. Такие полосы частот назвали полосами равной разборчивости . Они определены для ряда языков, в том числе для русского. Установили, что вероятность появления фомант подчиняется правилу аддитивности. При достаточно большом количестве звукового материала вероятность появления формант в каждой полосе равна 0,05.

Форманты имеют различные уровни интенсивности: у звонких звуков они выше, чем у глухих. При увеличении уровня акустических шумов сначала маскируются форманты с низкими уровнями, а затем с более высокими. В результате маскировки уменьшается вероятность восприятия формант. Коэффициент, определяющий это уменьшение в к - й полосе, называют коэффициентом восприятия или разборчивости к ф . Иначе говоря, в к -ой полосе вероятность приема формант

где коэффициент восприятия формант к ф зависит от уровня ощущения, который в свою очередь определяется разностью между средним спектральным уровнем речи В р в полосе равной разборчивости и спектральным уровнем шумов и помех в той же полосе В ш :

Е ф = В р - В ш . (16.2)

Коэффициент восприятия (разбогрчивости) может быть определен по графику, представленному на рис. 16.1. На этом графике приведены уровни ощущения Е ф и соответствующие им коэффициенты восприятия к ф .

Для уровней ощущения 0-18 дБ к ф может быть определен приближенно по формуле k ф =(Е+ 6)/30.

Рисунок 16.1.Интегральное распределе­ние уровней речи.

В общем случае для каждой полосы равной разборчивости коэффициент восприятия будет разным. Общая формантная разборчивость в речевом диапазоне частот определяется из

(16.3)

Рисунок 16.2.Зависимость слоговой разборчивости от формантной.

Зависимость между формантной и другими видами разборчивости была найдена экспериментально. Такая зависимость для слоговой разборчивости показана на рис. 16.2. Из этого рисунка видно, что почти полная понятность речи (слоговая разборчивость равна 80 %) получается при приеме лишь половины всех формант (формантная разборчивость равна 0,5), что свидетельствует об избыточности речи и комбинационной способности мозга.

Определение разборчивости речи для озвучиваемых помещений прежде всего осуществляют для точек озвучиваемой поверхности с минимальным уровнем прямого звука и максимальным уровнем акустичеких шумов. Спектральный уровень прямого звука у слушателя, находящегося в такой точке,

, (16.4)

где В рм -спектральный уровень речи у микрофона (определяется из таблиц);

,

где r м - удаление микрофона от оратора; - спектральный уровень речи на расстоянии 1 м (определяется из справочных таблиц);
- индекс усиления (индекс тракта - разность между уровнями звука, создаваемыми громкоговорителем системы звукоусиления у уха слушателя и первичным источником звука на входе микрофона).

Эти данные определяют для каждой полосы равной разборчивости. Для этих же полос спектральные уровни шумов и помех в месте слушания

где В аш - спектральный уровень акустических шумов (определяется из справочных таблиц); В п - спектральный уровень помех от речи (самомаскировка речи),

где
- поправка на помехи от диффузного звука(R - акустическое отношение в расчетной точке); N д - дифракционная поправка, поправка на отражение от головы слушателя (определяется из справочных таблиц);
- поправка на реверберационные помехи (Т р - время реверберации).

Уровень акустических шумов не зависит от индекса тракта, в то время как уровень помех от речи растет с увеличением индекса тракта (16.4), (16.6). Поэтому для повышения уровня ощущения целесообразно увеличивать индекс тракта. После достижения условия

В п = В аш + 6 (16.7)

дальнейшее увеличение индекса тракта не рационально, так как уровень ощущения в пределе может повыситься лишь на 1 дБ. Это условие с учетом (16.4), (16.6), (16.7) определяет индекс тракта

Такой индекс тракта называют рациональным . Он в основном определяется максимальным значением акустического отношения
в расчетной точке и временем реверберации.

При рациональном усилении из (16.5) следует, что

В ш = В п + 1, (16.9)

т.е. вклад акустических шумов В аш в общий уровень шумов и помех незначителен.

Полученные выражения позволяют определить разборчивость и понятность речи. Для этого по формулам (16.4), (16.6), (16.9) находят уровни речи, шумов и помех и далее по формуле (16.2) определяют уровень ощущения формант Е ф для каждой полосы равной разборчивости. Графическая зависимость, представленная на рис. 16.1, позволяет найти коэффициенты разборчивости к ф , соответствующие полученным значениям Е ф . Общая формантная разборчивость А в речевом диапазоне частот находится из выражения (16.3), а соответствующая ей слоговая разборчивость определяется по рис. 16.2. Понятность речи определяется по табл. 16.1.

Методы повышения разборчивости речи

    Снижение уровней помех. (На практике этого достигнуть удается не всегда). Стараются увеличивать L p у слушателя(приближение микрофона, увеличение уровня голоса говорящего).

    Повышение уровня звукового давления у слушателя по прямому звуку, приближением микрофона к источнику звука, повышением уровня голоса говорящего, увеличением индекса тракта.

    Сжатие D речевого сигнала - повышение уровней звукового давления слабых звуков при сохранении максимальных уровней звукового давления.

Предельным случаем сжатия D является амплитудное ограничение - клиппирование . При этом речевой сигнал превращается в последовательность импульсов постоянной амплитуды, но с меняющимися интервалами между нулевыми переходами (телеграфный режим работы). В результате все звуки речи будут иметь одинаковый (максимальный) уровень при приеме. Качество звучания в этом случае ухудшается, но разборчивость резко повышается, так как слабые звуки не клиппированной речи, маскирующиеся помехами, при таком способе передачи окажутся выше уровней помех.

    Применение вокодеров.

Вокодер представляет собой устройство, в передающей части которого из речевого сигнала выделяются параметры, определяющие информативность речи: спектральные огибающие звуков речи и параметры основного тона речи, т.е. медленно меняющиеся во времени признаки звуков речи.

В приемной части вокодера имеется сложный фильтр, имитирующий акустическую систему речевого тракта для звонких звуков речи и глухих. Уровнем синтезируемых звуков и параметрами фильтров управляют сигналы, выделенные на передающем конце вокодера, в результате чего восстанавливается спектральная огибающая речевого сигнала. Качество и разборчивость восстановленного сигнала получаются достаточно высокими.

    Увеличение средней мощности сигнала, а следовательно разборчивости, за счет разделения сигнала на огибающую и мгновенную фазы и их особая обработка.

Расчет разборчивости речи

    Вычисляем спектральные уровни речи с поправкой на расстояние от микрофона

, (16.10)

где В’ p – спектральный уровень речи на расстоянии 1 м (определяется из справочных таблиц).

2. По заданному спектру и уровню акустических шумов находим его спектральные уровни В а (определяется из справочных таблиц).

3. Определяем суммарную поправку ΣΔ L .

4. Определяем фактический индекс тракта Q мс .

5. Все данные заносятся в таблицу.

6. Вычисляем спектральные уровни речи у слушателя

(16.11)

7. Вычисляем спектральные уровни помех

. (16.12)

8. Суммируем спектральные уровни помех со спектральными уровнями акустических шумов

9. Вычитаем из спектрального уровня речи спектральный уровень суммарных помех и шумов и получаем уровень ощущения формант

. (16.14)

10. По найденному уровню ощущения находим коэффициент разборчивости k ф;

для 0. (16.15)

или находим его точные значения по таблице. Все вычисленные значения заносим в сводную таблицу.

11. Суммируем полученные величины коэффициентов разборчивости и находим формантную разбочивость

. (16.16)

По формантной разборчивости определяем слоговую S и словестную W разборчивсти и понятность речи.

Из анализа данных коэффициента разборчивости следует, что нижние частоты передаются намного хуже верхних. Так как есть запас по предельному индексу тракта на этих частотах, то можно спроектировать их примерно на 4 дБ. Разборчивость от этого практически не изменится, но повысится качество звучания.

Для ориентировочного определения разборчивости речи можно воспользоваться сокращенной методикой расчета. Если спектры речи и шумов изменяются по частоте не очень резко,то нет смысла вычислять их для всехполос равной разборчивости, а достаточно расчитать из на октавных частотах.

Октаве 173-350 Гц соотетствует одна полоса равной разборчивости (200-350 Гц).

Октава 350-700 Гц охватывает три полосы (330-465);

Октава 700-1400 Гц включает в себя 4 полосы (750-900);

Октава 1400-2800 Гц → 6 полос (1410-2840).

Октава 2800-5600 Гц → 5 полос (2840-5640).

Участок дапазона 5600-7000 Гц соответствует последней полосе равной разборчивости (5640-7000).

С учетом этого формантная разборчивость определяется по формуле

где k ф1 - k ф6 – коэффициенты разборчивости на октавных частотах.

Все методы измерения разборчивости речи условно делятся на субъективные и объективные . «Условно» - поскольку существует по меньшей мере две трактовки «субъективности-объективности» метода.

Первая трактовка. Согласно первой трактовке, при субъективном методе разборчивость речи оценивают по результатам единственного опыта – отсюда неизбежное влияние на результаты измерений особенностей речи и слуха людей, участвующих в испытаниях. Чтобы объективизировать метод, нужно осуществить много экспериментов с различными дикторами и абонентами, а затем усреднить результаты измерений.

Разборчивость передаваемой речи оценивают по пятибалльной шкале Международного Консультативного Комитета по Радиосвязи (МККР) :

· неразборчиво;

· разборчиво временами;

· разборчиво с трудом;

· разборчиво;

· совсем разборчиво.

Примером объективизации измерений разборчивости речи служат современные методы оценки качества передачи речи по трактам связи, изложенные в Государственном стандарте Российской Федерации , согласно которым в испытаниях должно участвовать не менее 3-х дикторов и 4-5-ти аудиторов, удовлетворяющих ряду условий (отсутствие выраженных дефектов речи и слуха, нетренированность). Например, при оценивании фразовой разборчивости диктор читает одну таблицу фраз в нормальном темпе произнесения (одна фраза за 2,4 с) и вторую таблицу в ускоренном темпе (одна фраза за 1,5-1,6 с). Пауза между фразами должна быть 5-6с. Аудитор прослушивает сначала таблицу, прочитанную диктором в нормальном темпе, затем таблицу, прочитанную тем же диктором в ускоренном темпе. Правильность приема фраз определяют по квитанции, переданной по каналу телефонной связи. Цикл измерений состоит из передачи всеми дикторами по 10 таблиц каждым, и приема всеми аудиторами всех переданных таблиц. Фразу считают неправильно принятой, если хотя бы одно слово принято неправильно, пропущено или добавлено. Фразовую разборчивость определяют путем вычисления процента правильно принятых фраз для нормального и ускоренного темпов произнесения по формуле

где j i - результат единичного измерения фразовой разборчивости, %; N - число единичных измерений; J Н - фразовая разборчивость при нормальном темпе произнесения, %; J У - фразовая разборчивость при ускоренном темпе произнесения, %.

Методы, подобные описанному выше, называют артикуляционными . При их использовании необходимо располагать специальными артикуляционными таблицами, составление которых – самостоятельная сложная задача. Другой недостаток артикуляционных методов – большое время испытаний, составляющее несколько недель.

Очевидное достоинство артикуляционных методов – простота, позволяющая участвовать в испытаниях операторам с относительно низким уровнем технической квалификации.

Вторая трактовка. При второй трактовке «субъективности-объективности» метода субъективными называют все методы, в которых человек является составной частью измерительного тракта, а объективными – такие методы, в которых весь измерительный процесс осуществляется приборами без участия органов чувств человека. С этой целью передающий и принимающий операторы должны быть заменены искусственными эквивалентами («искусственный голос», «искусственное ухо»).

Тональный метод. В описывается два метода измерения разборчивости речи, базирующихся на такой трактовке объективности. В так называемом «тональном методе» несколько дикторов заменены единственным искусственным голосом, который генерирует чистые тоны. Искусственный голос представляет собой обычный громкоговоритель без диффузора, возбуждаемый с помощью тонального генератора таким образом, чтобы уровень звуковых давлений, создаваемых на различных частотах, соответствовал бы кривой спектра формант . Помещение передачи и помещение приема речевых сигналов искусственно зашумляют – тем самым обеспечивают требуемое отношение сигнал-шум, при котором испытываемая система должна нормально функционировать. Прием информации по-прежнему производит бригада аудиторов. При этом задача аудиторов упрощается : вместо того, чтобы осмыслить и записать услышанное звукосочетание, от них требуется лишь определить, слышен ли сигнал на данной частоте или не слышен. Кроме того, операторы должны измерить уровень ощущения формант – делается это весьма просто, путем введения положительного или отрицательного затухания в тракт связи. Если сигнал слышен, затухание делают положительным, пока сигнал перестанет быть слышным. Наоборот, если сигнал не слышен, затухание делают отрицательным, пока сигнал не станет слышным. Дальнейшее определение величины разборчивости речи производят аналитически, с помощью графиков и несложных формул.

Таки образом, тональный метод, в отличие от артикуляционного, можно отнести к косвенным методам измерений разборчивости.

Достоинства тонального метода:

1) не применяются артикуляционные таблицы;

2) значительное сокращение времени измерений.

Недостатки тонального метода:

1) повышенные требования к технической грамотности персонала, организующего испытания;

2) человек еще не выведен из состава измерительной системы.

Как указано в , тональный метод регламентирован ГОСТ № 8031-56. К настоящему времени, возможно, данный ГОСТ заменен более совершенным.

Объективный метод. В другом методе, именуемом «объективным», применяют как искусственный голос, так и искусственное ухо. В данном методе, как видим, человек полностью выведен из состава измерительной системы . Следует отметить, что искусственное ухо – обычный в технике акустических измерений прибор, применяемый при испытании телефонов и позволяющий воспроизвести акустическую нагрузку, создаваемую на телефон естественным ухом. Тем самым удается измерить звуковое давление, создаваемое звучащим телефоном в ухе.

Общий порядок измерений при этом такой:

1) С помощью генератора шума и громкоговорителя создают уровень шума, соответствующий условиям работы приемного конца испытуемого тракта. Измеряют уровень шума на выходе искусственного уха в критической полосе частот слуха, причем средняя частота этой полосы равна частоте измерительного тона.

2) Генератор шума выключают, а вместо него на вход тракта «искусственный голос - канал передачи - искусственное ухо» подают тональный сигнал. Уровень интенсивности звука на микрофоне берется таким, чтобы при условном нуле на регулировщике затуханий распределение звуковых давлений соответствовало кривой спектра формант.

3) С помощью регулирования затуханий добиваются, чтобы уровень сигнала на выходе искусственного уха был таким же, как уровень шума. Показания регулятора затуханий представляют собой результат измерений уровня ощущений .

Объективный метод точнее и быстрее тонального, для его проведения не нужны операторы (дикторы и аудиторы). Наконец, объективный метод принципиально позволяет полностью автоматизировать процедуру измерений на базе современных ЭВМ.

Как и тональный метод, объективный метод является косвенным, т.е. разборчивость речи оценивается не путем подсчета правильно распознанных речевых единиц, а путем проведения специального измерительного эксперимента со звуковыми сигналами в виде тона и полосового шума, в ходе которого измеряются уровни ощущений в нескольких полосах частот. Разборчивость речи вычисляют, базируясь на результатах экспериментальных измерений.

Ввиду неоспоримых достоинств объективного метода, а также в силу отмеченного выше принципиального сходства ТПР и ТКУИ, в настоящее время объективный метод в той или иной модификации применяют как при оценке качества каналов связи , так и при оценке эффективности защиты речевой информации . Поэтому целесообразно подробно рассмотреть идею, лежащую в основе рассмотренных выше косвенных методов измерения разборчивости речи. При этом целесообразно также вспомнить некоторые положения психофизиологии речи и слуха, на использовании которых базируются косвенные методы.


Похожая информация.