Автоматическая обработка текста и ее анализ: обзор программ и сервисов: Tropes, LIWC, Threat Triage , SALT, DICTION, Leximancer, Lexalytics, VisualText……
Tropes (http://www.tropes.fr/download.htm) – бесплатное программное обеспечение, разработанное для семантической классификации, извлечения ключевых слов, лингвистического и качественного анализа. Является идеальным инструментом для информатики, маркетинговых исследований, социологического анализа, научных и медицинских исследований и т. д. Tropes_Manual
Программный продукт TROPES
Дополнительно:
Voyant Tools — это веб-среда для чтения и анализа текста.
Введите или вставьте текст, который вы хотите проанализировать, в поле ниже. После того, как вы нажмете «Анализ», вы получите выбранный набор результатов LIWC-22 для вашего текста. В настоящее время существует ограничение в 5000 символов (примерно 1000 слов) для любого текста. Представленный вами текст может быть сохранен и использован для тонкой настройки будущих версий LIWC.
Обратите внимание, что эта веб-демонстрация в настоящее время способна анализировать тексты только на английском языке. Результаты, которые вы получите в этой онлайн-демонстрации, могут немного отличаться от результатов, рассчитанных официальным настольным приложением LIWC-22.
https://threattriage.com/threat/default.aspx
Threat Triage — это веб-инструмент, предназначенный для специалистов по безопасности для оценки угрожающих сообщений с точки зрения вероятности целенаправленного насилия. Инструмент психолингвистического анализа контента Threat Triage способен оценить большое количество письменных сообщений за считанные минуты.
SALT 20 для Windows® 11/10/8 (64-разрядная версия) и Mac OSX v10.13–12.3 содержит редактор транскрипции, набор стандартных отчетов и справочные базы данных на английском, двуязычном (испанский/английский) и одноязычном испанском языках. динамики. Просмотрите примеры тематических исследований, чтобы быстро понять, как SALT используется для оценки разговорной речи. Отчет о производительности позволяет писать отчеты быстрее и точнее. Справочник ОСВ предоставляет концептуальные основы анализа языковых образцов, практические рекомендации по использованию SALT и обширные приложения для быстрого ознакомления со всеми протоколами баз данных, соглашениями о транскрипции, специальным кодированием и многим другим. Копия этой книги в формате PDF включена в программное обеспечение (доступно из меню «Справка»).
DICTION 7 может читать различные текстовые форматы и может принимать большое количество файлов в рамках одного проекта. Проекты, содержащие более 1000 файлов, анализируются с использованием анализа мощности для повышения скорости и эффективности отчетов, а результаты автоматически экспортируются в файл электронной таблицы в формате .csv.
Программа использует встроенную базу данных, состоящую из тысяч ранее проанализированных тестов. Пользователь может применять эти общие нормы или выбирать из тридцати шести подкатегорий, включая речи, поэзию, редакционные статьи газет, деловые отчеты, научные документы, телевизионные сценарии, телефонные разговоры и т. д., чтобы получить сравнительный «моментальный снимок» своих результаты.
DICTION записывает результаты в числовые файлы для последующего статистического анализа. Варианты вывода включают необработанные итоги, стандартизированные баллы, количество слов и символов и проценты, тем самым предоставляя пользователю различные способы понимания анализируемого текста.
Leximancer автоматически анализирует текстовые документы, чтобы определить концепции высокого уровня, предоставляя ключевые идеи и практические идеи, которые вам нужны, с помощью мощных моделей, интерактивных визуализаций и экспорта данных. Анализ настроений без предвзятости.
Интеллектуальная платформа Lexalytics: превратите сложные текстовые документы в данные, идеи и ценность.
http://www.textanalysis.com/index.html
VisualText — это ведущая интегрированная среда разработки для создания систем извлечения информации, систем обработки естественного языка и анализаторов текста. Профессиональная версия теперь БЕСПЛАТНА для личного, внутреннего, академического, развивающего и некоммерческого использования. Операционные системы включают Windows 7, XP и другие. Анализаторы можно запускать в Linux.
https://mimno.github.io/Mallet/index
MALLET — это пакет на основе Java для статистической обработки естественного языка, классификации документов, кластеризации, тематического моделирования, извлечения информации и других приложений машинного обучения для преобразования текста.
MALLET включает в себя сложные инструменты для классификации документов: эффективные процедуры для преобразования текста в «функции», широкий спектр алгоритмов (включая наивный байесовский алгоритм, максимальную энтропию и деревья решений) и код для оценки производительности классификатора с использованием нескольких часто используемых показателей. Краткое руководство / Руководство разработчика
https://software.sil.org/fieldworks/
FieldWorks состоит из программных средств, помогающих управлять лингвистическими и культурными данными. FieldWorks поддерживает задачи, начиная от первоначального ввода собранных данных и заканчивая подготовкой данных к публикации, включая разработку словаря, интерлинеаризацию текстов, морфологический анализ и другие публикации.
https://sites.google.com/site/philologic3/home
PhiloLogic™ — это основной инструмент полнотекстового поиска, извлечения и анализа, разработанный проектом ARTFL и Центром разработки цифровых библиотек (DLDC) Чикагского университета. Это бесплатная программная реализация PhiloLogic для больших TEI-Lite .коллекции документов. Широкий спектр спецификаций XML-данных и недавнее развертывание основных инструментов обработки XML предоставляет важную возможность для совместной разработки интероперабельных инструментов более высокого уровня для приложений гуманитарных вычислений.
http://www.analyst.ru/index.php?lang=rus
TextAnalyst™ разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.
https://provalisresearch.com/products/
Provalis Research — ведущий мировой разработчик инструментов анализа текста, предлагающий новаторские программы качественного и количественного анализа, такие как QDA Miner, инновационное программное обеспечение для качественного анализа данных с использованием смешанных методов; WordStat, мощное программное обеспечение для компьютерного анализа контента и анализа текста; и SimStat, простое, но мощное статистическое программное обеспечение.
https://readabilityformulas.com/free-readability-formula-tests.php
Вставьте образец текста и нажмите «ПРОВЕРИТЬ читабельность текста». Достаточный объем выборки состоит из 4-5 полных предложений; примерно 200-600 слов всего. Для больших текстов, таких как книги, руководства или диссертации, возьмите 1-2 образца из каждой главы. (Примечание. Мы ограничиваем размер выборки до 3000 слов. Размер выборки более 3 000 слов усекается.)
PractiCount and Invoice — это программа подсчета слов и строк и выставления счетов для переводчиков-фрилансеров, агентств по переводу и локализации, медицинских транскрипционистов, медицинских транскрипционных агентств, юридических транскрипционных агентств и юридических транскрипционных агентств, писателей, руководителей проектов и других специалистов , которые основывают свои расценки и счета на документах. подсчет текста ( количество слов, количество строк, общее количество строк, количество символов, количество страниц или другие типы подсчета текста, а также часы/минуты). Наш инструмент обрабатывает все эти типы текстовой статистики, тем самым экономя ваше время.
Семантический анализ текста Адвего для SEO онлайн — профессиональный инструмент для оценки качества текстов, seo оптимизации статей и поиска ключевых слов в тексте. Проверьте количество символов, тошноту и водность, плотность ключевых слов и фраз онлайн, семантическое ядро текста бесплатно!
https://neon.niederlandistik.fu-berlin.de/textstat/
TextSTAT — простая программа для анализа текста. Он читает текстовые файлы (в различных кодировках) и HTML-файлы (также прямо из Интернета) и создает из этих файлов списки частотности слов и соответствия. У TextSTAT есть собственный веб-паук, который позволяет вам собирать любое количество страниц с данного веб-сайта в корпус TextSTAT. Встроенная программа чтения новостей читает отчеты из групп новостей Usenet и превращает их в корпус TextSTAT.
TextSTAT также читает файлы MS Word и файлы OpenOffice. Вы можете легко добавить файлы в корпус без дальнейшего преобразования и т. д.
Эта БЕСПЛАТНАЯ программа позволяет создавать списки слов и искать в текстовых файлах на естественном языке слова, фразы и шаблоны. SCP — это программа согласования и составления списков слов, которая может читать тексты, написанные на многих языках. Имеются встроенные алфавиты для английского, французского, немецкого, польского, греческого, русского и т. д. SCP содержит редактор алфавита , который вы можете использовать для создавать алфавиты для любого другого языка.
CATMA 6 ориентирована на проекты. Вы можете загрузить свой собственный корпус, поделиться им со своей командой и работать над ним совместно. Вы работаете более чем над одним проектом, в каждом из которых участвуют разные члены команды? В CATMA вы можете работать с любым количеством проектов.
В CATMA вы можете выбирать между несколькими интерактивными визуализациями. От облака слов до графика распределения или двойного дерева — вы можете выбрать идеальную визуализацию для своих данных!
http://www.laurenceanthony.net/software.html
Бесплатный набор инструментов для анализа корпуса и анализа текста.
Программное обеспечение на базе Windows: MonoConc Pro, ParaConc или Collocate 2.0.
ParaConc — это двуязычный или многоязычный конкордансер для Windows, который можно использовать для сравнительного анализа, изучения языка и переводческих исследований/обучения
https://www.kdnuggets.com/software/text.html
Программное обеспечение для анализа текста, интеллектуального анализа текста и поиска информации
http://www.alias-i.com/lingpipe/index.html
LingPipe — это набор инструментов для обработки текста с использованием компьютерной лингвистики.
- http://www.lexiquepro.com/download.htm
- http://www.gb-software.com/index.html
- http://wordcorr.sourceforge.net/index.php
- https://gsgen.ru/
- https://rvb.ru/soft/catalogue/catalogue.html
- http://asknet.ru/Analytics/programms.htm
- https://nlp.stanford.edu/links/statnlp.html#MT
Просмотров: 14797