БлогNot. Анализ текста на основе цепей Маркова

Анализ текста на основе цепей Маркова

На нормальном компе хочется проверить что-нибудь нормальное. Вот автономный исходник на C++ , который может анализировать текст и использовать цепи Маркова с генерацией нового спам-текста в том же самом стиле.

Параметр NumberOfChains позволяет управлять размером генерируемого текста.

Проект запускался в консоли Visual Studio 2019, за входной текст бралась не очень тщательно почищенная от мусора "Война и мир" Лейбы Н. Толстого.

На входе программы - файл data.txt из папки проекта, что легко изменить в исходнике, на выходе - записанные в ту же папку файлы generated.txt с результатом работы и stats.txt со статистикой. Все файлы должны быть в кодировке Windows-1251, а не в UTF-8, эта кодировка ставится директивами Studio из windows.h, а не из стандарта.

Вот только начало какого-то generated.txt:

, отбежала несколько шагов. Тронулся один, с Бородинского сражения и кануна его, над широким лбом и необычайной, странной белизной продолговатого лица. Вечер Анны Павловны, имело выражение невинности и юности; голос у него уже нет места в место награды и выдвинуты вперед новые люди

Ниже приводится архив .zip проекта, почищенный от лишних файлов. На 4-гигагерцнике считалось секунд 15.

 Скачать консольный проект Visual Studio 2019 в архиве .zip, папка уже создана внутри (1305 Кб)

Не очень тщательная чистка - сноски убирал просто вот так
Не очень тщательная чистка - сноски убирал просто вот так

16.11.2019, 20:57 [1536 просмотров]


теги: textprocessing c++ программирование статистика математика спам

К этой статье пока нет комментариев, Ваш будет первым