Hy ,

У меня следующая проблема. У меня есть 2 набора данных, один из которых содержит данные следующей структуры:

A1 B2 C1 D1
A1 B2 C1 D3
A3 B1 C2 D2
etc

А другой содержит значения для этих объектов:

A1=x
B2=y
C1=z
D1=q
etc

Как я могу сгруппировать данные так, чтобы я мог иметь A1 = x B2 = y C1 = z D1 = q в одном месте, чтобы вычислить их?

Спасибо!

1
sergiuz 26 Июн 2013 в 19:01
Достаточно ли мал второй набор данных, чтобы поместиться в памяти на узле данных?
 – 
Mike Park
26 Июн 2013 в 20:24
Скажем да. вы говорите, чтобы сохранить это в списке?
 – 
sergiuz
26 Июн 2013 в 21:09
1
Скорее карта какая-то, но да. Вы можете распространять файл через DistributedCache и читать его с помощью картографов.
 – 
Mike Park
26 Июн 2013 в 21:20

1 ответ

Лучший ответ

Если второй набор данных невелик, вы можете поместить его в распределенный кэш.

Вы можете построчно прочитать 1-й набор данных в преобразователе, а затем использовать ввод из распределенного кеша для получения значений, а затем выдать пару «ключ-значение», например: <"A1 = x B2 = y C1 = z D1 = q" , 1>

1
Chaos 26 Июн 2013 в 22:13
Спасибо вам, ребята! Мой фактический набор данных содержит ~ 1 200 000 строк значений: 30-40 символов по строкам. Не знаю, слишком ли оно велико или не помещается в памяти.
 – 
sergiuz
27 Июн 2013 в 00:19
Это не должно быть слишком большим, вы можете попробовать
 – 
Chaos
27 Июн 2013 в 00:21