Математики проверили на прочность закон Ципфа

Математики проверили на прочность закон Ципфа

Испанские математики проверили на прочность закон Ципфа, согласно которому при попытке упорядочить все слова языка или текст по убыванию частоты их использования частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n. О результатах исследования рассказывается в свежем выпуске журнала PLOS ONE.

Для того, чтобы определить правильность закона Ципфа, исследователи решили использовать его применительно к проекту «Гутенберг» — инициативе по созданию и распространению электронной универсальной библиотеки, которая включает 31075 книг на английском языке. Прежние попытки применить закон Ципфа ограничивались десятками текстов, а теперь исследователи работали с настоящим массивом данных.

Ученые поставили перед собой задачу определить, вписываются ли тексты в закономерность, согласно которой второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. Таким образом, ими была избрана простейшая формулировка закона Ципфа.

Математики проверили на прочность закон Ципфа


Формула вдохновения

Физики нашли ключ к индивидуальности писателя

Согласно итогам исследования, при условии, что опущены наиболее редкие и архаичные формы слов, порядка 55 процентов текстов вписываются в закон Ципфа. Если учитывать эти слова, то соответствие закономерности снижается до 40 процентов.

Лингвист Джордж Кингсли Ципф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее.


После этого вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Ципф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского — 0,06-0,07.

Источник
Другие новости раздела: Наука

Бизнес / Наука

NASA увольняет сотрудников на территории России

В связи со снижением сотрудничества в рамках МКС

Россия / Наука

Выделены 487 миллионов рублей на развитие научно-технологической долины МГУ

Разработка ее концепции ведется с 2013 года

В мире / Наука / Здоровье

Глава ВОЗ спрогнозировал новые трудности в борьбе с пандемией COVID-19

В новом году

Популярное в сети

Общество / Украина

Украинцы проголосовали за легализацию медицинской марихуаны и пожизненное заключение за коррупцию

Стали известны результаты опроса, инициированного президентом страны

Шоубизнес / Культура

«Союзмультфильм» показал новых героев сериала «Ну, погоди!»

Первая серия выйдет зимой 2020 года

ИноСМИ / Политика

Байден назвал Россию главной угрозой для США

А Китай является главным ее конкурентом

Россия

Онищенко порекомендовал включать в школьный рацион больше рыбы отечественного производства

В Госдуме обсудили вопросы сбалансированности школьного питания

В мире / Политика

Муфтий Чечни назвал президента Франции «врагом всех мусульман»

За акции памяти убитого преподавателя Самюэля Пати

Похожие публикации

Наука

Говорить не своим голосом станет возможно

Есть вероятность, что скоро станет возможным менять свой голос на чей-то другой

Россия

Диссертацию Мединского назвали лженаучной. Физики и математики не скрывают негатива к деятельности власти

Учёные из РАН предложили лишить министра культуры РФ Владимира Мединского учёной степени, сообщает "Коммерсантъ" со ссылкой на текст обращения.

Наука

Опубликован самый большой цифровой обзор видимой Вселенной

Исследователи составили крупнейшую на сегодняшний день цифровую карту Вселенной - Pan-STARRS1

Общество / Россия

В России принят закон об изучении родных языков

Закон защищает право граждан на свой родной язык

Общество / В мире

Украинцы предпочитают смотреть телепередачи на русском языке

За это высказались 60 процентов респондентов

Наука / Здоровье

Новый анализ крови поможет обнаружить рак до проявления симптомов

Новое генетическое исследование крови сможет выявлять ранние стадии рака