Разработка ПО для автоматизированного анализа тональности текста
!!!Проект учебный!!!
1. Введение Целью разработки является создание программного обеспечения для автоматизированного анализа текстовых данных, включающего классификацию текстов и определение их тональности с применением методов машинного обучения и нейросетевых моделей.
2. Основания для разработки Разработка актуальна в связи с необходимостью эффективной обработки больших массивов текстовой информации, что важно для анализа пользовательских отзывов, мониторинга социальных сетей и управления репутацией. Использование современных методов NLP и машинного обучения повысит точность классификации и определения тональности текстов.
3. Цели и задачи проекта 3.1. Цель: Создание системы, обеспечивающей высокоточную и быструю обработку текстовых данных.
3.2. Задачи:
- Анализ существующих методов классификации и определения тональности.
- Разработка и тестирование моделей машинного обучения (SVM, LSTM, BERT и др.).
- Реализация предобработки текста (токенизация, лемматизация, удаление стоп-слов).
- Разработка интерфейса пользователя для удобного ввода и обработки данных.
- Внедрение механизма многокритериальной оптимизации.
- Разработка системы визуализации результатов анализа.
- Текстовые данные (отзывы, публикации, статьи, сообщения).
- Датасеты для обучения и тестирования моделей (IMDb, Yelp, SST и др.).
- Автоматическая классификация текстов по категориям (положительный, нейтральный, отрицательный тон).
- Анализ тональности с учетом контекста.
- Возможность загрузки текстов для пакетной обработки.
- Визуализация результатов анализа в виде графиков и гистограмм.
- Настройки для выбора модели анализа (SVM, BERT и др.).
- Классификация текста (тональность).
- Графики распределения результатов.
- Отчеты о точности модели (Accuracy, Precision, Recall, F1-score).
- Высокая точность предсказаний (>70% для современных моделей NLP).
- Производительность: обработка текста до 1 секунды.
- Возможность интеграции с API.
- Язык программирования: Python.
- Фреймворки и библиотеки: Scikit-learn, TensorFlow, PyTorch, Hugging Face Transformers.
- NLP-инструменты: NLTK, SpaCy, Pandas.
- Визуализация: Matplotlib, Seaborn.
- Интерфейс: Streamlit.
- База данных: SQLite, CSV.
- Разработка модуля предобработки текста.
- Обучение и дообучение моделей на размеченных датасетах.
- Разработка веб-интерфейса с возможностью анализа пользовательского текста.
- Тестирование производительности и точности модели.
- Создано программное обеспечение для анализа текстовых данных.
- Реализована поддержка нескольких моделей классификации.
- Достигнута >70 точность предсказаний.
- Обеспечена возможность визуализации результатов анализа.