Эта часть решения задачи целиком ложится на аналитика. Состав и глубина статистической выборки как обучающей последовательности имеет для нейросети такое же значение, как и внутренние управляющие параметры. Что касается состава данных - здесь возникает широкое поле для экспериментов. Не стоит включать данные, совсем не имеющие никакого отношения к прогнозируемому параметру. Однако, с другой стороны, аналитик располагает значительным количеством деловой информации, прямо или косвенно относящейся к "его" сектору рынка. Проблема в том, как отфильтровать информацию, выделив нужные данные.
Это полезно знать (финансовый ликбез)
Во-первых, современные нейропакеты, как правило, содержат функцию "определение чувствительности нейросети по входам". Практически имеющиеся данные "сваливаются в кучу", а затем нейросеть после серии предварительных прогонов дает развернутую картину приоритетности входных данных. Этот метод, скорее всего, не самый оптимальный (вспомним неопределенное время обучения!), зато наиболее доступный в смысле затрат усилий.
Во-вторых, существуют методы кластерного, корреляционного анализа и анализа временных рядов (time series analysis), которые позволяют сгруппировать данные, выявить степень взаимосвязи разных групп (отдельных элементов) в численном виде, а также определить в том же численном виде степень цикличности в диапазонах значений как групп, так и отдельных элементов. Это также дает аналитику некоторую пищу для размышлений о выборе данных и задании их глубины.
В-третьих, существует целое направление в финансовом анализе, технология Data Maining (буквально - "заготовка данных"), которое пытается ответить на вопрос: "как извлечь интуитивно понятные и полезные для применения знания из больших информационных объемов, причем достаточно быстрым и эффективным способом?". И существуют различные программные инструменты, которые такую технологию используют. Они в результате работы порождают систему явных правил, описывающих взаимосвязь между полями вашей базы данных с указанием степени достоверности и возможностью обработки исключительных и противоречивых ситуаций. Также существуют системы на основе нечеткой логики, которые либо извлекают множество нечетких правил из предоставляемых вами данных, либо аппроксимируют сложные функции на основе тех же данных. И в том, и в другом случае в качестве "двигателя" (rule engine) используются нейронные сети, работающие в режиме классификации.
Наконец, в-четвертых, проблема противоречивости данных. Излишне говорить, что плохое качество исходных данных может "свести на нет" все ваши усилия по их подбору. Эта проблема актуальна на всех мировых рынках, на российском - особо.