Это абсолютно просто и очень разумно. В большинстве случаев фразу произносят, не зная об этом. Например, в качестве сюрприза или даже для поддержания разговора.
Представьте, что вы хотите выучить и знать русский язык. Сколько слов вам нужно выучить, чтобы понимать 20% текстов на этом языке? Или не понимать, но узнавать не менее 20% слов в тексте.
Очевидно, что полезно сперва учить частотные слова, а потом уже редкие: знать слово « собака» куда важнее, чем « самец» или « всадник» , и уж тем более, чем « вольвокс» или « рейсфедер» .
Довести эту идею до логического завершения можно с помощью очень простого способа изучения языка. Возьмите словарь частот слов, получите классифицированные частоты и изучайте их сверху вниз.
Самый популярный частотный словарь русского языка был создан Ольгой Ляшевской и Сергеем Шаровым в 2009 году. В свободном доступе на сайте Российского института В. В. Виноградова. Первые и самые распространенные русские слова — это «и», за которым следуют ‘,’, «нет», «не», «не», «не». 、、、、、、、 …….. ‘I’, ‘me’ и т.д. — таким образом, запоминайте их один за другим в соответствии с этим справочником.
Давайте вернемся к предложению о размещении проекта.
Представьте, что вы хотите выучить и знать русский язык. Сколько слов вам нужно выучить, чтобы понимать 20% текстов на этом языке?
20% — это 4 слова, так как 20 слов входят в это число. А теперь посмотрите внимательно. Выучив первые 14 слов из частотного словаря, узнайте четыре слова в этом тексте — «что», «что», «что»., «and», «to» и «that». Желаемый результат достигнут: 20% текста понято (что, конечно, еще далеко от смысла).
Каждое слово в частотном словаре показывает, сколько раз оно встречается в тексте из одного миллиона слов. Слово «и» в этом тексте встречается примерно 35 802 раза, «31 374 раза», «слово» и так далее. Суммируя частоты первых 14 слов, можно увидеть, что текст охватывает 188 072 слова из 1 миллиона. Это близко к преследуемым 20%. Чтобы достичь 200 000, необходимо добавить еще три слова («to», «but» и «»). Для понимания 10% текста необходимо всего четыре слова.
Это полные слова, достаточные для понимания 10%, 20%, 30% и 40% русского текста.
Первые 10% не требуют от незнакомца особых усилий. Для следующих 10% необходимо 13 слов, для достижения 30% — 29 слов, а для достижения 40% — 86 слов. Далее мы переходим к частотным справочникам, где не очень полезно искать каждое последующее слово.
Другими словами, в каждом языке мало высокочастотных слов и много низкочастотных. Например, по данным словарей Ляшевской и Шарова, в миллионе слов 1478 слов., «уклонение», «боеприпасы», «воскрешение»., «mapping». Понятно, что это не первые слова, которые нужно выучить.
Слова, города и всё на свете: закон Ципфа
Частота слов определяется простым математическим методом, открытым американцем Джорджем Кингсли Ципфом (1902-1950) в середине 20-го века.
Источник.
Он формулирует зависимость, известную как «закон ЗИПФ». Частота слова обратно пропорциональна количеству слов в каталоге частот. Например, если первое слово имеет частоту 60 000, то второе слово имеет частоту 60 000 / 2 = 30 000, третье 60 000 / 3 = 20 000 и т.д. В реальных языках все не так хорошо. Например, русский частотный словарь лучше согласуется с законом ЗИПФ, если слов «частота» и «» будет 60 000 вместо 35 802, но даже такой подход работает. Если распределение частот первых 200 русских слов представить графически, то окажется, что оно является формой преувеличения.
Закон Ципфа — один из редких примеров закона, который был открыт на материале языка, а потом нашел применение во множестве других областей.
Это определяется размером территории, количеством связей с местами и размером предприятия. Обычно в больших и многих маленьких городах их очень мало — есть несколько очень важных мест, к которым относятся все люди и многие места. или почти никого — есть огромные компании, но гораздо меньше.
Например, в Берлине проживает 3,5 миллиона человек. Примерно в два раза меньше, чем в Гамбурге, втором по величине городе Германии, где проживает 1,8 млн. человек — примерно в шесть раз больше, чем в Штутгарте, шестом по величине городе страны. Законодательство ZIPF может оказаться полностью работоспособным с этими данными.
Когда пытаются понять, написан ли какой-то текст на человеческом языке или нет, одна из первых проверок, которые стоит сделать, — посмотреть, подчиняется ли текст закону Ципфа.
Например, загадочная рукопись Войнича очень хорошо соответствует законодательству Ципфа. На самом деле, это лишь необходимое условие, но не еще одно доказательство того, что мы имеем дело с естественным языком, поскольку закон ZIPF применим практически ко всему, включая невербальные данные.
Зачем нужны частоты
Частотные словари могут быть очень полезны для изучающих иностранные языки. Конечно, это не должно заставлять человека при изучении нового слова выяснять, какое именно место оно занимает в частотном каталоге, но это может дать ему представление о том, стоит ли слово того, чтобы его запомнить. Например, в словаре Macmillan есть два типа слов. Красные и черные, красные слова имеют больше звездочек — 1, 2, 3. Вот несколько примеров.
Красное слово с тремя звездочками занимает в частотном словаре место от 1 до 2500, слово с двумя звездочками — от 2501 до 5000, а слово с 5001 до 7500 звездочек. Черные слова располагаются ниже 7500h. Это дает очень простой результат для пользователя. Если вы ищете слово в словаре и видите его с тремя звездочками, убедитесь, что Есть возможность увидеть его еще много раз. Если у слова есть только одна звездочка, оно достаточно полезно, но часто не полезно. Наконец, черные слова встречаются очень редко. Их стоит учить только в том случае, если вы хотите изучать язык на продвинутом уровне, но если вы не можете, то это не имеет значения. Вы можете очень хорошо говорить по-английски, не зная, чтоthatch означает «плетень», а crescent — «полумесяц». Вы можете сделать это без слов «ограничение», «животное» и слова «игра».
Еще одна важная область, где применяется частотный анализ, — автоматическая обработка текста (обработка естественного языка). Например, при контроле правописания и исправлении ошибок важно знать, какие слова встречаются редко, а какие — часто. Предположим, пользователь набирает эту английскую фразу.
Я вижу черную собаку.
Мы прекрасно знаем, что в нем содержатся ложные ошибки. Однако это вполне может быть следствием чего-то другого. Что произойдет, если пользователь захочет ввести 10, но случайно нажмет букву h вместо n? Или он хочет поступить на технологию, но избежал буквы «с»? Почему мы предполагаем, что это слово означает, что две буквы отложены? Конечно, можно долго спорить, что вы получите неправильное предложение с десятью и технологией (например, десять черных собак — плохое сочетание слов и должно быть десять черных собак), но эти знания трудно стандартизировать, и они попадают в компьютеры. Однако мы можем поступить проще: взглянув на частотный словарь, мы увидим, что вероятность того, что пользователь захочет ввести это слово, особенно высока, поскольку оно является самым популярным английским словом. Эта стратегия — постоянно исправлять ошибки между типографикой наиболее распространенных слов — может показаться примитивной, но она работает очень хорошо.
В 2007 году директор по исследованиям компании Google Питер Норвиг за несколько часов, проведе–нных в самолете (даже без интернета!), написал программу для исправления опечаток, которая занимает всего 22 строки кода на языке Python и в первую очередь опирается на частотность.
Все это свидетельствует об одном. Человеческий язык описывается не только грамматическими правилами. Важно знать, как часто встречаются некоторые слова. К счастью, эти знания легко приобрести благодаря компьютерам. Это открывает новые перспективы для лингвистики.
У слов есть номинативная функция — способность называть что-то. Людям нужны слова, чтобы общаться и давать названия вещам, которые соприкасаются с их жизнью.
Внешнее и внутреннее в слове
Используя слова, люди организуют речь. В русском языке слова существуют как готовые, исторически оформленные речевые единицы. Чтобы сказать что-то, мы не говорим это каждый год с самого начала — мы используем язык, который выучили с детства. Маленькие дети знакомятся с миром слов через речь других людей.
Слова — это прежде всего определенный набор звуков. Ударение — это одна из вокальных особенностей слова. Иногда только произношение отличает слово.
Звуковой корпус и произношение являются внешними. Когда слово услышано, его можно записать графически с помощью букв. В этом отношении слова очень важны.
Слова имеют внутренний смысл. Каждое слово с организованной звуковой оболочкой относится к определенному предмету, характеристике, действию и т.д.
Например, в слове «трава» гласные звуки сочетаются с тремя согласными, расположенными в строго определенном порядке, что означает «покрытый зеленой травой, состоящей из мелких побегов».
Если заменить или удалить один звук, слово превращается в бессмысленный набор звуков и теряет свой смысл.
Таким образом, слово — это объединение внешнего и внутреннего, звуков и содержания. В этом отношении можно дать следующее определение
Помимо лексического значения, слова также содержат грамматические значения, которые являются общими для групп слов одного типа. Грамматика — это общее значение слова как части языка.
Например, некоторые указания (моряк, станция, стена) имеют грамматическое значение для подлежащего и отвечают на вопрос. Что
По общей грамматике такие словосочетания объединяются в лексико-грамматические категории, называемые существительными. Слова с субъективным значением включают морфологические категории рода, числа и падежа.
Слова «решение», «определение» и «дефиниция» регулируются понятием действия. Эти слова отвечают на вопросы: что я могу сделать? Что мне делать?
Они являются различными частями слов, глаголами глаголов, в соответствии с их общим грамматическим значением. Как глаголы, эти слова имеют такие морфологические характеристики, как жанр, переход, время, наклонение, лицо и число.
Таким образом, русский язык имеет звукообразование, лексическое и грамматическое значение.
Значение этого лингвистического термина, приведенное в Википедии, следующее
Слово — одна из основных структурных единиц языка, называющая предметы, свойства, характеристики, их взаимодействия, а также фантастические и абстрактные понятия, созданные человеческим воображением.
Каждое слово состоит не только из звуков, но и из бессмысленных частей. Слова могут состоять из предлогов, корней, суффиксов, окончаний, норм и спрягаемых гласных.
Сочетаемость слов
Говорящие используют слова кратко в речи.
В речи каждое слово используется в сочетании со своими лексическими особенностями, морфологическими характеристиками и особенностями с другими словами в речи.
В этом отношении некоторые слова свободно сочетаются с другими словами, в то время как другие имеют ограниченные или тесные сочетания. При свободной взаимозаменяемости слова имеют разнообразные широкие связи с другими словами без ограничений. Таким образом, ночь-ночь сочетается со словами.
- звездная, лунная, темная, дождливая, морозная и пр.;
- наступила, пришла, закончилась, длится и т.д.
Из-за ограниченного количества комбинаций слово показывает выбор. Оно сочетается только с узким и ограниченным диапазоном слов: слово сочетается только с узким и ограниченным диапазоном слов.
- вороной конь, а не верблюд, собака или кот;
- круглый год, а не час, неделя, месяц;
- табун лошадей, а не овец или коров.
Звуковой корпус и произношение являются внешними. Когда слово услышано, его можно записать графически с помощью букв. В этом отношении слова очень важны.
Помимо значения словарного запаса, слова также содержат грамматические значения, которые являются общими для групп слов одного типа. Грамматика — это общее значение слова как части языка.
Например, некоторые указания (моряк, станция, стена) имеют грамматическое значение для подлежащего и отвечают на вопрос. Что
По общей грамматике такие словосочетания объединяются в лексико-грамматические категории, называемые существительными. Слова с субъективным значением включают морфологические категории рода, числа и падежа.
Слова «решение», «определение» и «дефиниция» регулируются понятием действия. Эти слова отвечают на вопрос: что я могу сделать?
По общему грамматическому значению они относятся к глаголу, который является самостоятельной частью слова. Как глаголы, эти слова имеют такие морфологические характеристики, как жанр, переход, время, наклонение, лицо и число.
Таким образом, русские слова имеют звукообразование, лексическое и грамматическое значение.
Значение этого лингвистического термина, приведенное в Википедии, следующее
Слово — одна из основных структурных единиц языка, называющая предметы, свойства, характеристики, их взаимодействия, а также фантастические и абстрактные понятия, созданные человеческим воображением.
Каждое слово состоит не только из звуков, но и из бессмысленных частей. Внутри слова можно определить приставки, корни, окончания, конечные и спрягаемые гласные.
Сочетаемость слов
При создании произношения дикторы иногда легко обращаются со словами, не задумываясь об их взаимозаменяемости.
В речи каждое слово используется с учетом его конкретного лексического значения, его морфологических свойств и специфики сочетания с другими словами в произношении.
Способность сочетать слово с другими словами называется значением.
С этой точки зрения, некоторые слова свободно сочетаются с другими словами, в то время как другие имеют ограниченные или узкие сочетания. С точки зрения свободной комбинации, слова имеют разнообразные и широкие связи с другими словами без ограничений. Другими словами, слово ночь сочетается со словами.
- звездная, лунная, темная, дождливая, морозная и пр.;
- наступила, пришла, закончилась, длится и т.д.
В ограниченных сочетаниях слова проявляют свою избирательность. В сочетании с ограниченным набором слов только:.
- вороной конь, а не верблюд, собака или кот;
- круглый год, а не час, неделя, месяц;
- табун лошадей, а не овец или коров.
Признаки слова
Подводя итог предыдущим размышлениям, отметим некоторые характеристики слов:.
- определенная фонетическая оформленность, ударение;
- материальность (звучание и буквенное отображение);
- воспроизводимость (готовая единица речи);
- номинативная функция (способность называть);
- информативность;
- лексическое и грамматическое значение;
- лексико-грамматическая принадлежность (часть речи);
- синтаксическая самостоятельность (способность употребляться в качестве высказывания);
- валентность (свободная и ограниченная сочетаемость).
- определенное морфемное строение.
Слова с собственным значением — это строительные блоки выражения, с помощью которых говорящие оформляют свои идеи. Каждое слово обещает выразить часть общего смысла. В целом смысл речи складывается из значений отдельных слов, составляющих ее. Слова — это наименее важные элементы речи для выражения идей и общения между людьми.