Анализ текста и его обработка: обзор программ
Автоматическая обработка текста и ее анализ: обзор программ и сервисов: Tropes, LIWC, Threat Triage , SALT, DICTION, Leximancer, Lexalytics, VisualText……
Tropes (http://www.tropes.fr/download.htm) – бесплатное программное обеспечение, разработанное для семантической классификации, извлечения ключевых слов, лингвистического и качественного анализа. Является идеальным инструментом для информатики, маркетинговых исследований, социологического анализа, научных и медицинских исследований и т. д. Tropes_Manual
Программный продукт TROPES
Voyant Tools — это веб-среда для анализа текста.
LIWC (Linguistic Inquiry and Word Count) https://www.liwc.app/demo – это программный инструмент для анализа использования слов. Он сравнивает каждое слово в тексте с набором словарных слов и вычисляет процентное соотношение общего количества слов в тексте, которые соответствуют каждой из категорий словаря.
Некоторые ключевые особенности и информация о LIWC-22 включают в себя:
- Инструмент анализа текста, сравнивающий слова в данном тексте с набором словарных слов
- Расчет процентного соотношения общего количества слов в тексте, соответствующих каждой категории словаря
- Веб-демо имеет ограничение в 5000 символов (приблизительно 1000 слов) на любой текст и в настоящее время может анализировать только тексты на английском языке
Threat Triage https://threattriage.com/threat/default.aspx — это веб-инструмент, предназначенный для специалистов по безопасности для оценки угрожающих сообщений с точки зрения вероятности целенаправленного насилия. Инструмент психолингвистического анализа контента Threat Triage способен оценить большое количество письменных сообщений за считанные минуты.
Lexalytics https://www.lexalytics.com/ – это программное обеспечение для анализа текста, которое использует технологии обработки естественного языка (Natural Language Processing, NLP) для определения тональности текста, категоризации документов и извлечения сущностей.
Основные функции Lexalytics включают:
- Анализ тональности: Определение, является ли текст положительным, отрицательным или нейтральным.
- Категоризация: Сортировка и организация документов в настраиваемые группы.
- Извлечение сущностей: Поиск людей, мест, дат, компаний, продуктов, должностей и других сущностей в тексте.
- Интенциональное обнаружение: Определение намерений, выраженных в тексте.
SALT Software https://www.saltsoftware.com/ – это компания, которая разработала программное обеспечение Systematic Analysis of Language Transcripts (SALT), которое предназначено для улучшения оценки расстройств языка через использование языковых образцов. SALT содержит редактор транскрипции, набор стандартных отчетов и справочные базы данных на английском, двуязычном (испанский/английский) и одноязычном испанском языках. Справочник ОСВ предоставляет концептуальные основы анализа языковых образцов, практические рекомендации по использованию SALT и обширные приложения для быстрого ознакомления со всеми протоколами баз данных, соглашениями о транскрипции, специальным кодированием и многим другим. Копия этой книги в формате PDF включена в программное обеспечение (доступно из меню «Справка»).
Основные шаги работы с SALT Software включают в себя:
- Запись языковых образцов с помощью цифрового аудио- или видеорекордера.
- Транскрипция: передача цифрового файла на компьютер и транскрипция записи в SALT Editor.
- Анализ: использование SALT Editor для анализа языковых образцов и получения отчетов о языковых характеристиках.
Сайт http://www.gb-software.com/index.html представляет собой сайт компании GB Software, которая занимается исследованиями и разработкой программного обеспечения для анализа содержания в образцах устной и письменной речи. Компания разрабатывает методы анализа содержания, которые позволяют надежно и точно определять значимое содержание в образцах устной и письменной речи.
Сайт DICTION https://dictionsoftware.com/ представляет собой платформу, предлагающую программное обеспечение под названием DICTION, которое предназначено для анализа текста и определения его тональности.
Вот основные цели и функции этого программного обеспечения, которые можно выделить из предоставленных данных:
- DICTION – это компьютеризированная программа для анализа текста, которая использует серию словарей для поиска в тексте пяти семантических особенностей: Активность, Оптимизм, Уверенность, Реализм и Общность, а также тридцати пяти под-особенностей. Программа использует заранее определенные словари и может также использовать до тридцати пользовательских словарей для более целевых исследовательских целей.
- DICTION 7, теперь с режимом Power Mode, способен читать различные форматы текста и принимать большое количество файлов в рамках одного проекта. Проекты, содержащие более 1000 файлов, анализируются с использованием мощного анализа для улучшения скорости и эффективности отчетности, с автоматическим экспортом результатов в файл таблицы .csv.
- DICTION пишет результаты в числовые файлы для последующего статистического анализа. Варианты вывода включают сырые итоги, стандартизированные оценки, подсчет слов и символов, а также проценты, что предоставляет пользователю различные способы понимания анализируемого текста.
DICTION, предлагаемый на dictionsoftware.com, использует серию словарей для поиска в тексте пяти семантических особенностей:
- Активность: Язык, характеризующийся движением, изменением, реализацией идей и избеганием инерции.
- Оптимизм: Язык, поддерживающий какое-либо лицо, группу, концепцию или событие, или выделяющий их положительные аспекты.
- Уверенность: Язык, указывающий на решимость, непоколебимость и завершенность, а также склонность к категоричности в высказываниях.
- Реализм: Язык, описывающий осязаемые, непосредственные, узнаваемые вещи, влияющие на повседневную жизнь людей.
- Общность: Язык, выделяющий согласованные ценности группы и отвергающий идиосинкратические способы взаимодействия
Leximancer https://www.leximancer.com/ – это программное обеспечение для анализа текста, которое автоматически анализирует любой текст для выявления высокоуровневых концепций и предоставляет ключевые идеи и практические идеи с помощью мощных моделей, интерактивных визуализаций и экспорта данных. Оно представляет информацию в виде концептуальной карты, обеспечивая обзор материала и отображая основные концепции в тексте и их взаимосвязи.
Основные особенности Leximancer, которые делают его уникальным по сравнению с другими программами анализа текста, включают:
- Автоматический анализ текста: Leximancer автоматически анализирует текст для выявления высокоуровневых концепций и предоставляет ключевые идеи и практические идеи с помощью мощных моделей, интерактивных визуализаций и экспорта данных.
- Визуализация концепций: Программа представляет информацию в виде концептуальной карты, обеспечивая обзор материала и отображая основные концепции в тексте и их взаимосвязи.
- Применение в различных областях: Leximancer используется для анализа данных в различных отраслях.
VisualText http://www.textanalysis.com/index.html — это ведущая интегрированная среда разработки для создания систем извлечения информации, систем обработки естественного языка и анализаторов текста. Профессиональная версия теперь БЕСПЛАТНА для личного, внутреннего, академического, развивающего и некоммерческого использования. Операционные системы включают Windows 7, XP и другие. Анализаторы можно запускать в Linux.
Проект WordCorr http://wordcorr.sourceforge.net/index.php представляет собой инструмент, который помогает лингвистам сохранять списки слов для сравнения, а также извлекать и организовывать все возможные звуковые соответствия, которые могут служить доказательством для гипотез о историческом развитии языков, которые представляют эти списки слов. Инструмент предназначен для анализа звуковых соответствий в языках и исследования их исторического развития. WordCorr помогает лингвистам в проведении сравнительного анализа языков и изучении их звуковых систем.
FieldWorks https://software.sil.org/fieldworks/– это набор программных инструментов, предназначенных для управления лингвистическими и культурными данными. FieldWorks поддерживает задачи, начиная от первоначального ввода собранных данных до подготовки данных для публикации, включая разработку словарей, интерлингвистический анализ текстов, морфологический анализ и другие публикации.
Сайт PhiloLogic3 https://sites.google.com/site/philologic3/home представляет собой инструмент для полнотекстового поиска, извлечения и анализа текста, разработанный проектом ARTFL и Университетом Чикаго. PhiloLogic3 является модульной системой, в которой текстовая база данных рассматривается как набор согласованных или связанных баз данных, включая базу данных объектов (текстовые единицы, такие как письмо, сцена, документ и т. д.), базу данных словоформ, индекс словоформ, сопоставленный текстовым объектам, и менеджер объектов, сопоставляющий текстовые объекты с байтовыми смещениями в файлах данных. Каждая из этих баз данных хранится и управляется с использованием собственной подсистемы. PhiloLogic3 также поддерживает широкий спектр текстовых и гипермедийных баз данных в сотрудничестве с многочисленными академическими учреждениями и, более недавно, коммерческими организациями.
TextAnalyst™ http://www.analyst.ru/index.php?lang=rus разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.
Provalis Research https://provalisresearch.com/products/ – это компания, которая разрабатывает программное обеспечение для анализа текста. Они предлагают несколько продуктов, включая QDA Miner, WordStat, SimStat и ProSuite, которые позволяют проводить качественный и количественный анализ текста, а также анализ структурированных и неструктурированных данных.
- QDA Miner – это программа для качественного анализа данных, которая позволяет проводить анализ текста, изображений и видео. Она предоставляет мощные инструменты для кодирования, аннотирования, организации и анализа качественных данных.
- WordStat – это программа для анализа текста и текстового майнинга, которая позволяет проводить анализ текста на основе ключевых слов, тем и трендов. Она предоставляет мощные инструменты для анализа текста, включая анализ тональности, анализ контента и анализ тем.
- SimStat – это программа для статистического анализа данных, которая позволяет проводить анализ структурированных данных. Она предоставляет мощные инструменты для анализа данных, включая дескриптивную статистику, корреляционный анализ, регрессионный анализ и другие.
- ProSuite – это набор интегрированных инструментов для анализа текста, включая QDA Miner, WordStat и SimStat. Он позволяет проводить анализ структурированных и неструктурированных данных, а также проводить качественный и количественный анализ текста.
Сайт https://neon.niederlandistik.fu-berlin.de/textstat/ предоставляет доступ к программе TextSTAT, которая представляет собой простой инструмент для анализа текста и создания конкордансов. Вот некоторые из основных функций и возможностей, предоставляемых этим инструментом:
- Анализ текста: TextSTAT предоставляет возможность анализа текста, включая чтение текстовых файлов в различных кодировках и создание списков частотности слов.
- Создание конкордансов: Программа позволяет создавать конкордансы из текстовых файлов и HTML-файлов, а также использовать встроенный веб-спайдер для создания корпусов текста из веб-страниц.
- Поддержка различных платформ: TextSTAT доступен для Windows, GNU/Linux и MacOS, что обеспечивает его универсальность и доступность для пользователей различных операционных систем.
- Многоязычность: Программа поддерживает несколько языков, включая английский, немецкий, голландский, португальский, испанский, каталонский, французский, итальянский, галисийский, финский, польский и чешский.
Сайт http://www.textworld.com/scp/ предлагает программу Simple Concordance Program (SCP), которая предназначена для создания списков слов и поиска слов, фраз и шаблонов в текстах естественного языка. Вот некоторые из основных функций и возможностей, предоставляемых этим инструментом:
- Создание списков слов: SCP предоставляет возможность создания списков слов и поиска слов, фраз и шаблонов в текстах.
- Анализ текста: Программа позволяет проводить анализ текста с использованием различных функций, таких как поиск слов, фраз и шаблонов.
- Обработка текстовых файлов: SCP позволяет работать с текстовыми файлами и проводить анализ текста на основе их содержимого.
Сайт https://catma.de/ представляет собой инструмент для разметки и анализа текста, разработанный в Университете Гамбурга. Он предоставляет возможности для разметки текста и анализа текстовых данных. Программа является бесплатной и с открытым исходным кодом. Она предоставляет возможности для аннотации текста и анализа текстовых данных.
Программа AntConc http://www.laurenceanthony.net/software.html, разработанная Лоренсом Энтони, представляет собой бесплатный инструмент для анализа текста и создания конкордансов. Вот некоторые из основных функций и возможностей, предоставляемых этим инструментом:
- Анализ текста: AntConc предоставляет возможность проводить анализ текста, включая чтение текстовых файлов в различных кодировках и создание списков частотности слов.
- Создание конкордансов: Программа позволяет создавать конкордансы из текстовых файлов и HTML-файлов, а также использовать встроенный веб-спайдер для создания корпусов текста из веб-страниц.
- Поддержка различных платформ: AntConc доступен для Windows, GNU/Linux и MacOS, что обеспечивает его универсальность и доступность для пользователей различных операционных систем.
Сайт http://athel.com/ предлагает программное обеспечение для создания конкордансов. Программное обеспечение на базе Windows: MonoConc Pro, ParaConc или Collocate 2.0.
ParaConc https://paraconc.com/ — это двуязычный или многоязычный конкордансер для Windows, который можно использовать для сравнительного анализа, изучения языка и переводческих исследований/обучения
Сайт Readabilityformulas https://readabilityformulas.com/free-readability-formula-tests.php предлагает бесплатные инструменты для оценки уровня читаемости текста. Эти инструменты позволяют анализировать текст с использованием различных формул читаемости, таких как индекс читаемости Флеша-Кинкейда, индекс читаемости Ганнинга, индекс автоматической читаемости и другие. Сайт предоставляет возможность оценить сложность чтения текста и определить уровень образования, необходимый для его понимания. Такие инструменты могут быть полезны для авторов, редакторов и издателей, а также для обеспечения доступности текста для широкой аудитории.
На сайте readabilityformulas.com предоставляются различные формулы читаемости, которые позволяют оценить уровень сложности текста. Вот некоторые из них:
- Средний уровень чтения (Average Reading Level)
- Консенсусный расчет (Consensus Calc)
- Автоматический индекс читаемости (Automated Readability Index (ARI))
- Индекс читаемости Флеша (Flesch Reading Ease)
- Индекс Ганнинга (Gunning Fog Index)
- Индекс читаемости Флеша-Кинкейда (Flesch-Kincaid Grade Level)
- Индекс Коулмана-Лиау (Coleman-Liau Index)
- Индекс SMOG
- Индекс Линсира-Райгора (Linsear Write Readability Formula)
- Новая формула читаемости Дейла-Чалла (New Dale-Chall Readability Formula)
- Формула читаемости SPACHE
- Графическая формула читаемости Фрайа (Fry Graph Readability Formula)
- Графическая формула читаемости Райгора (Raygor Graph Readability Formula)
- Формула читаемости на основе списка слов (Word List Based)
Эти формулы позволяют оценить сложность чтения текста и определить уровень образования, необходимый для его понимания.
На сайте Advego https://advego.com/text/seo/ предоставляются различные метрики для SEO-анализа текста. Вот некоторые из них, которые были упомянуты в предоставленных источниках:
- Плотность ключевых слов: Оценка количества ключевых слов в тексте.
- Процент ключевых фраз: Оценка процента использования ключевых фраз в тексте.
- Частотность слов: Анализ частоты использования отдельных слов в тексте.
- Количество стоп-слов: Определение количества стоп-слов в тексте.
- Объем текста: Оценка общего объема текста в символах и словах.
- Грамматические ошибки: Анализ наличия грамматических ошибок в тексте.
- Водность текста: Оценка степени водности текста.
- Тошнота текста: Оценка уровня тошноты текста.
- Классическая и академическая тошнота: Оценка уровня классической и академической тошноты текста.
- Уникальность текста: Оценка уровня уникальности текста.
Сайт http://www.alias-i.com/lingpipe/index.html представляет собой ресурс, связанный с LingPipe – инструментарием для обработки текста с использованием вычислительной лингвистики. LingPipe разработан компанией Alias-i и предлагает широкий спектр функций для анализа текста. LingPipe предоставляет возможности для обработки текста, включая различные методы анализа и обработки текстовых данных.
Mallet (MAchine Learning for LanguagE Toolkit) https://mimno.github.io/Mallet/index – это пакет на языке Java для статистической обработки естественного языка, классификации документов, кластеризации, моделирования тем, извлечения информации и других приложений машинного обучения для текста. MALLET включает в себя сложные инструменты для классификации документов: эффективные процедуры для преобразования текста в «функции», широкий спектр алгоритмов (включая наивный байесовский алгоритм, максимальную энтропию и деревья решений) и код для оценки производительности классификатора с использованием нескольких часто используемых показателей. Краткое руководство.