Анализ текста и его обработка: обзор программ

Автоматическая обработка текста и ее анализ: обзор программ и сервисов: Tropes, LIWC,  Threat Triage ,  SALT,  DICTION, Leximancer, Lexalytics, VisualText……

Tropes (http://www.tropes.fr/download.htm) – бесплатное программное обеспечение, разработанное для семантической классификации, извлечения ключевых слов, лингвистического и качественного анализа. Является идеальным инструментом для информатики, маркетинговых исследований, социологического анализа, научных и медицинских исследований и т. д. Tropes_Manual

Программный продукт TROPES

 

Voyant Tools — это веб-среда для анализа текста.


LIWC (Linguistic Inquiry and Word Count) https://www.liwc.app/demo – это программный инструмент для анализа использования слов. Он сравнивает каждое слово в тексте с набором словарных слов и вычисляет процентное соотношение общего количества слов в тексте, которые соответствуют каждой из категорий словаря.

Некоторые ключевые особенности и информация о LIWC-22 включают в себя:

  • Инструмент анализа текста, сравнивающий слова в данном тексте с набором словарных слов
  • Расчет процентного соотношения общего количества слов в тексте, соответствующих каждой категории словаря
  • Веб-демо имеет ограничение в 5000 символов (приблизительно 1000 слов) на любой текст и в настоящее время может анализировать только тексты на английском языке

 

Threat Triage https://threattriage.com/threat/default.aspx — это веб-инструмент, предназначенный для специалистов по безопасности для оценки угрожающих сообщений с точки зрения вероятности целенаправленного насилия. Инструмент психолингвистического анализа контента Threat Triage способен оценить большое количество письменных сообщений за считанные минуты.

 

Lexalytics https://www.lexalytics.com/ – это программное обеспечение для анализа текста, которое использует технологии обработки естественного языка (Natural Language Processing, NLP) для определения тональности текста, категоризации документов и извлечения сущностей.

Основные функции Lexalytics включают:

  • Анализ тональности: Определение, является ли текст положительным, отрицательным или нейтральным.
  • Категоризация: Сортировка и организация документов в настраиваемые группы.
  • Извлечение сущностей: Поиск людей, мест, дат, компаний, продуктов, должностей и других сущностей в тексте.
  • Интенциональное обнаружение: Определение намерений, выраженных в тексте.

SALT Software  https://www.saltsoftware.com/  – это компания, которая разработала программное обеспечение Systematic Analysis of Language Transcripts (SALT), которое предназначено для улучшения оценки  расстройств языка через использование языковых образцов. SALT содержит редактор транскрипции, набор стандартных отчетов и справочные базы данных на английском, двуязычном (испанский/английский) и одноязычном испанском языках. Справочник ОСВ предоставляет концептуальные основы анализа языковых образцов, практические рекомендации по использованию SALT и обширные приложения для быстрого ознакомления со всеми протоколами баз данных, соглашениями о транскрипции, специальным кодированием и многим другим. Копия этой книги в формате PDF включена в программное обеспечение (доступно из меню «Справка»).

Основные шаги работы с SALT Software включают в себя:

  1. Запись языковых образцов с помощью цифрового аудио- или видеорекордера.
  2. Транскрипция: передача цифрового файла на компьютер и транскрипция записи в SALT Editor.
  3. Анализ: использование SALT Editor для анализа языковых образцов и получения отчетов о языковых характеристиках.

 

Сайт http://www.gb-software.com/index.html представляет собой сайт компании GB Software, которая занимается исследованиями и разработкой программного обеспечения для анализа содержания в образцах устной и письменной речи. Компания разрабатывает методы анализа содержания, которые позволяют надежно и точно определять значимое содержание в образцах устной и письменной речи.

 

Сайт  DICTION https://dictionsoftware.com/ представляет собой платформу, предлагающую программное обеспечение под названием DICTION, которое предназначено для анализа текста и определения его тональности.

Вот основные цели и функции этого программного обеспечения, которые можно выделить из предоставленных данных:

  • DICTION – это компьютеризированная программа для анализа текста, которая использует серию словарей для поиска в тексте пяти семантических особенностей: Активность, Оптимизм, Уверенность, Реализм и Общность, а также тридцати пяти под-особенностей. Программа использует заранее определенные словари и может также использовать до тридцати пользовательских словарей для более целевых исследовательских целей.
  • DICTION 7, теперь с режимом Power Mode, способен читать различные форматы текста и принимать большое количество файлов в рамках одного проекта. Проекты, содержащие более 1000 файлов, анализируются с использованием мощного анализа для улучшения скорости и эффективности отчетности, с автоматическим экспортом результатов в файл таблицы .csv.
  • DICTION пишет результаты в числовые файлы для последующего статистического анализа. Варианты вывода включают сырые итоги, стандартизированные оценки, подсчет слов и символов, а также проценты, что предоставляет пользователю различные способы понимания анализируемого текста.

DICTION, предлагаемый на dictionsoftware.com, использует серию словарей для поиска в тексте пяти семантических особенностей:

  • Активность: Язык, характеризующийся движением, изменением, реализацией идей и избеганием инерции.
  • Оптимизм: Язык, поддерживающий какое-либо лицо, группу, концепцию или событие, или выделяющий их положительные аспекты.
  • Уверенность: Язык, указывающий на решимость, непоколебимость и завершенность, а также склонность к категоричности в высказываниях.
  • Реализм: Язык, описывающий осязаемые, непосредственные, узнаваемые вещи, влияющие на повседневную жизнь людей.
  • Общность: Язык, выделяющий согласованные ценности группы и отвергающий идиосинкратические способы взаимодействия

 

Leximancer  https://www.leximancer.com/ – это программное обеспечение для анализа текста, которое автоматически анализирует любой текст для выявления высокоуровневых концепций и предоставляет ключевые идеи и практические идеи с помощью мощных моделей, интерактивных визуализаций и экспорта данных. Оно представляет информацию в виде концептуальной карты, обеспечивая обзор материала и отображая основные концепции в тексте и их взаимосвязи.

Основные особенности Leximancer, которые делают его уникальным по сравнению с другими программами анализа текста, включают:

  • Автоматический анализ текста: Leximancer автоматически анализирует текст для выявления высокоуровневых концепций и предоставляет ключевые идеи и практические идеи с помощью мощных моделей, интерактивных визуализаций и экспорта данных.
  • Визуализация концепций: Программа представляет информацию в виде концептуальной карты, обеспечивая обзор материала и отображая основные концепции в тексте и их взаимосвязи.
  • Применение в различных областях: Leximancer используется для анализа данных в различных отраслях.

 

VisualText http://www.textanalysis.com/index.html — это ведущая интегрированная среда разработки для создания систем извлечения информации, систем обработки естественного языка и анализаторов текста. Профессиональная версия теперь БЕСПЛАТНА для личного, внутреннего, академического, развивающего и некоммерческого использования. Операционные системы включают Windows 7, XP и другие. Анализаторы можно запускать в Linux.

 

Проект WordCorr http://wordcorr.sourceforge.net/index.php  представляет собой инструмент, который помогает лингвистам сохранять списки слов для сравнения, а также извлекать и организовывать все возможные звуковые соответствия, которые могут служить доказательством для гипотез о историческом развитии языков, которые представляют эти списки слов. Инструмент предназначен для анализа звуковых соответствий в языках и исследования их исторического развития. WordCorr помогает лингвистам в проведении сравнительного анализа языков и изучении их звуковых систем.

 

FieldWorks  https://software.sil.org/fieldworks/– это набор программных инструментов, предназначенных для управления лингвистическими и культурными данными. FieldWorks поддерживает задачи, начиная от первоначального ввода собранных данных до подготовки данных для публикации, включая разработку словарей, интерлингвистический анализ текстов, морфологический анализ и другие публикации.

 

Сайт PhiloLogic3 https://sites.google.com/site/philologic3/home  представляет собой инструмент для полнотекстового поиска, извлечения и анализа текста, разработанный проектом ARTFL и Университетом Чикаго. PhiloLogic3 является модульной системой, в которой текстовая база данных рассматривается как набор согласованных или связанных баз данных, включая базу данных объектов (текстовые единицы, такие как письмо, сцена, документ и т. д.), базу данных словоформ, индекс словоформ, сопоставленный текстовым объектам, и менеджер объектов, сопоставляющий текстовые объекты с байтовыми смещениями в файлах данных. Каждая из этих баз данных хранится и управляется с использованием собственной подсистемы. PhiloLogic3 также поддерживает широкий спектр текстовых и гипермедийных баз данных в сотрудничестве с многочисленными академическими учреждениями и, более недавно, коммерческими организациями.


TextAnalyst™  http://www.analyst.ru/index.php?lang=rus  разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.

 

Provalis Research https://provalisresearch.com/products/ – это компания, которая разрабатывает программное обеспечение для анализа текста. Они предлагают несколько продуктов, включая QDA Miner, WordStat, SimStat и ProSuite, которые позволяют проводить качественный и количественный анализ текста, а также анализ структурированных и неструктурированных данных.

  • QDA Miner – это программа для качественного анализа данных, которая позволяет проводить анализ текста, изображений и видео. Она предоставляет мощные инструменты для кодирования, аннотирования, организации и анализа качественных данных.
  • WordStat – это программа для анализа текста и текстового майнинга, которая позволяет проводить анализ текста на основе ключевых слов, тем и трендов. Она предоставляет мощные инструменты для анализа текста, включая анализ тональности, анализ контента и анализ тем.
  • SimStat – это программа для статистического анализа данных, которая позволяет проводить анализ структурированных данных. Она предоставляет мощные инструменты для анализа данных, включая дескриптивную статистику, корреляционный анализ, регрессионный анализ и другие.
  • ProSuite – это набор интегрированных инструментов для анализа текста, включая QDA Miner, WordStat и SimStat. Он позволяет проводить анализ структурированных и неструктурированных данных, а также проводить качественный и количественный анализ текста.

 

Сайт https://neon.niederlandistik.fu-berlin.de/textstat/ предоставляет доступ к программе TextSTAT, которая представляет собой простой инструмент для анализа текста и создания конкордансов. Вот некоторые из основных функций и возможностей, предоставляемых этим инструментом:

  • Анализ текста: TextSTAT предоставляет возможность анализа текста, включая чтение текстовых файлов в различных кодировках и создание списков частотности слов.
  • Создание конкордансов: Программа позволяет создавать конкордансы из текстовых файлов и HTML-файлов, а также использовать встроенный веб-спайдер для создания корпусов текста из веб-страниц.
  • Поддержка различных платформ: TextSTAT доступен для Windows, GNU/Linux и MacOS, что обеспечивает его универсальность и доступность для пользователей различных операционных систем.
  • Многоязычность: Программа поддерживает несколько языков, включая английский, немецкий, голландский, португальский, испанский, каталонский, французский, итальянский, галисийский, финский, польский и чешский.

 

Сайт http://www.textworld.com/scp/ предлагает программу Simple Concordance Program (SCP), которая предназначена для создания списков слов и поиска слов, фраз и шаблонов в текстах естественного языка. Вот некоторые из основных функций и возможностей, предоставляемых этим инструментом:

  • Создание списков слов: SCP предоставляет возможность создания списков слов и поиска слов, фраз и шаблонов в текстах.
  • Анализ текста: Программа позволяет проводить анализ текста с использованием различных функций, таких как поиск слов, фраз и шаблонов.
  • Обработка текстовых файлов: SCP позволяет работать с текстовыми файлами и проводить анализ текста на основе их содержимого.

 

Сайт https://catma.de/ представляет собой инструмент для разметки и анализа текста, разработанный в Университете Гамбурга. Он предоставляет возможности для разметки текста и анализа текстовых данных. Программа является бесплатной и с открытым исходным кодом. Она предоставляет возможности для аннотации текста и анализа текстовых данных.

 

Программа AntConc http://www.laurenceanthony.net/software.html, разработанная Лоренсом Энтони, представляет собой бесплатный инструмент для анализа текста и создания конкордансов. Вот некоторые из основных функций и возможностей, предоставляемых этим инструментом:

  • Анализ текста: AntConc предоставляет возможность проводить анализ текста, включая чтение текстовых файлов в различных кодировках и создание списков частотности слов.
  • Создание конкордансов: Программа позволяет создавать конкордансы из текстовых файлов и HTML-файлов, а также использовать встроенный веб-спайдер для создания корпусов текста из веб-страниц.
  • Поддержка различных платформ: AntConc доступен для Windows, GNU/Linux и MacOS, что обеспечивает его универсальность и доступность для пользователей различных операционных систем.

 

Сайт http://athel.com/  предлагает программное обеспечение для создания конкордансов. Программное обеспечение на базе Windows: MonoConc Pro, ParaConc или Collocate 2.0.

ParaConc https://paraconc.com/ — это двуязычный или многоязычный конкордансер для Windows, который можно использовать для сравнительного анализа, изучения языка и переводческих исследований/обучения


Сайт Readabilityformulas https://readabilityformulas.com/free-readability-formula-tests.php предлагает бесплатные инструменты для оценки уровня читаемости текста. Эти инструменты позволяют анализировать текст с использованием различных формул читаемости, таких как индекс читаемости Флеша-Кинкейда, индекс читаемости Ганнинга, индекс автоматической читаемости и другие. Сайт предоставляет возможность оценить сложность чтения текста и определить уровень образования, необходимый для его понимания. Такие инструменты могут быть полезны для авторов, редакторов и издателей, а также для обеспечения доступности текста для широкой аудитории.

На сайте readabilityformulas.com предоставляются различные формулы читаемости, которые позволяют оценить уровень сложности текста. Вот некоторые из них:

  • Средний уровень чтения (Average Reading Level)
  • Консенсусный расчет (Consensus Calc)
  • Автоматический индекс читаемости (Automated Readability Index (ARI))
  • Индекс читаемости Флеша (Flesch Reading Ease)
  • Индекс Ганнинга (Gunning Fog Index)
  • Индекс читаемости Флеша-Кинкейда (Flesch-Kincaid Grade Level)
  • Индекс Коулмана-Лиау (Coleman-Liau Index)
  • Индекс SMOG
  • Индекс Линсира-Райгора (Linsear Write Readability Formula)
  • Новая формула читаемости Дейла-Чалла (New Dale-Chall Readability Formula)
  • Формула читаемости SPACHE
  • Графическая формула читаемости Фрайа (Fry Graph Readability Formula)
  • Графическая формула читаемости Райгора (Raygor Graph Readability Formula)
  • Формула читаемости на основе списка слов (Word List Based)

Эти формулы позволяют оценить сложность чтения текста и определить уровень образования, необходимый для его понимания.

 

На сайте Advego https://advego.com/text/seo/ предоставляются различные метрики для SEO-анализа текста. Вот некоторые из них, которые были упомянуты в предоставленных источниках:

  • Плотность ключевых слов: Оценка количества ключевых слов в тексте.
  • Процент ключевых фраз: Оценка процента использования ключевых фраз в тексте.
  • Частотность слов: Анализ частоты использования отдельных слов в тексте.
  • Количество стоп-слов: Определение количества стоп-слов в тексте.
  • Объем текста: Оценка общего объема текста в символах и словах.
  • Грамматические ошибки: Анализ наличия грамматических ошибок в тексте.
  • Водность текста: Оценка степени водности текста.
  • Тошнота текста: Оценка уровня тошноты текста.
  • Классическая и академическая тошнота: Оценка уровня классической и академической тошноты текста.
  • Уникальность текста: Оценка уровня уникальности текста.

 

Сайт http://www.alias-i.com/lingpipe/index.html представляет собой ресурс, связанный с LingPipe – инструментарием для обработки текста с использованием вычислительной лингвистики. LingPipe разработан компанией Alias-i и предлагает широкий спектр функций для анализа текста. LingPipe предоставляет возможности для обработки текста, включая различные методы анализа и обработки текстовых данных.

 

Mallet (MAchine Learning for LanguagE Toolkit)  https://mimno.github.io/Mallet/index – это пакет на языке Java для статистической обработки естественного языка, классификации документов, кластеризации, моделирования тем, извлечения информации и других приложений машинного обучения для текста. MALLET включает в себя сложные инструменты для классификации документов: эффективные процедуры для преобразования текста в «функции», широкий спектр алгоритмов (включая наивный байесовский алгоритм, максимальную энтропию и деревья решений) и код для оценки производительности классификатора с использованием нескольких часто используемых показателей. Краткое руководство.

Related Articles

Анимация и мультфильмы: обзор программ

Анимация – это технология, позволяющая при помощи неодушевленных неподвижных объектов создавать иллюзию движения. Наиболее популярная форма анимации, представляющая собой серию рисованных изображений, в России долгое…

Интерактивная доска: назначение и программное обеспечение

Обновление: 7.04.2021 Интерактивная доска – это сенсорный экран, подсоединенный к компьютеру, изображение с которого передает на доску проектор. Достаточно только прикоснуться к поверхности доски, чтобы…