Анализ текста на основе цепей Маркова
На нормальном компе хочется проверить что-нибудь нормальное. Вот автономный исходник на C++ , который может анализировать текст и использовать цепи Маркова с генерацией нового спам-текста в том же самом стиле.
Параметр NumberOfChains
позволяет управлять размером генерируемого текста.
Проект запускался в консоли Visual Studio 2019, за входной текст бралась не очень тщательно почищенная от мусора "Война и мир" Лейбы Н. Толстого.
На входе программы - файл data.txt
из папки проекта, что легко изменить в исходнике, на выходе - записанные в ту же папку файлы generated.txt
с результатом работы и stats.txt
со статистикой. Все файлы должны быть в кодировке Windows-1251, а не в UTF-8, эта кодировка ставится директивами Studio из windows.h, а не из стандарта.
Вот только начало какого-то generated.txt
:
, отбежала несколько шагов. Тронулся один, с Бородинского сражения и кануна его, над широким лбом и необычайной, странной белизной продолговатого лица. Вечер Анны Павловны, имело выражение невинности и юности; голос у него уже нет места в место награды и выдвинуты вперед новые люди
Ниже приводится архив .zip
проекта, почищенный от лишних файлов. На 4-гигагерцнике считалось секунд 15.
Скачать консольный проект Visual Studio 2019 в архиве .zip, папка уже создана внутри (1305 Кб)
Не очень тщательная чистка - сноски убирал просто вот так
16.11.2019, 20:57 [1536 просмотров]