Хай, в настоящее время я работаю над своей диссертацией по созданию OCR для языка урду. У меня есть текст, написанный на изображениях. Я знаю, что в CNN есть сверточные и объединяющие слои для изучения шаблонов или (извлечения функций). Что я прочитал о RNN, так это то, что она изучает последовательности. Я хочу спросить, как функции извлечения RNN узнать, что находится на изображении?

0
Ahmad Raza 8 Окт 2018 в 09:23

2 ответа

Лучший ответ

RNN в основном нужны некоторые функции и метки на этапе обучения, чтобы узнать последовательность в данных. В случае числовых данных проблем нет, мы просто разделяем наш набор данных на характеристики (X) и целевое значение (Y). Но в случае данных изображения мы используем комбинацию CNN и RNN ( CNN-RNN ). Здесь, поверх слоев RNN ( LSTM или GRU ), слои свертки используются для извлечения функций из изображения, а затем мы передаем эти функции слоям RNN.

0
Ahmad Raza 26 Ноя 2018 в 06:43

Сеть RNN использует скрытый слой, который обновляется с течением времени. Взятие образцов и прогнозирование следующих выборок на основе уменьшения ошибки (или потерь). LSTM - это тип RNN, который позволяет забыть о давних зависимостях. Возможно, этот тип может быть полезен для вашей диссертации.

1
Ali Mahdavi 8 Окт 2018 в 20:24