uflow_pytorch/dataset.py at master · jgdo/uflow_pytorch · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
import pickle
from torch.utils.data import DataLoader, TensorDataset
import uflow_utils
import torch
import gpu_utils

import cv2
import numpy as np
import random


def create_minecraft_loader(training, batch_size=64, shuffle=True, use_camera_actions=False):
    """Create a dataloader which returns minecraft image pair batches and self-actions

    Dataset needs to be located at dataset/UFlow_data/ep1_pickle_doc.pkl

    :param training: If True, training data will be selected, if False testing data
    :param batch_size: batch size
    :param shuffle: whether to shuffle data
    :param use_camera_actions: If True, self.action batch will have size [Bx2], otherwise [Bx0]
    :return: dataloader which returns 3 tensors per batch: [BCHW] img1, [BCHW] img2, [B2] or [B0] self-actions
    """

    p = pickle.load(open('dataset/UFlow_data/ep1_pickle_doc.pkl', 'rb'))

    trainratio = 0.8
    train_len = int(len(p) * trainratio)
    if training:
        p = p[0:train_len]
    else:
        p = p[train_len:]

    img1 = []
    img2 = []
    actions = []

    for i in range(1, len(p)):
        img1.append(torch.from_numpy(p[i - 1][0]).permute(2, 0, 1) / 255.0)
        img2.append(torch.from_numpy(p[i][0]).permute(2, 0, 1) / 255.0)
        cam_actions = torch.FloatTensor(p[i - 1][1]['camera'] / 10.0) if use_camera_actions else torch.tensor([])
        actions.append(cam_actions)

    print('Loaded {} image pairs'.format(len(img1)))

    img1 = uflow_utils.upsample(torch.stack(img1).to(gpu_utils.device), is_flow=False, scale_factor=1)
    img2 = uflow_utils.upsample(torch.stack(img2).to(gpu_utils.device), is_flow=False, scale_factor=1)
    actions = torch.stack(actions).to(gpu_utils.device)

    if False and training:
        img1 = uflow_utils.upsample(img1, is_flow=False, scale_factor=0.5)
        img2 = uflow_utils.upsample(img2, is_flow=False, scale_factor=0.5)
        img1 = uflow_utils.upsample(img1, is_flow=False, scale_factor=2)
        img2 = uflow_utils.upsample(img2, is_flow=False, scale_factor=2)

    # img1 = img1 * 2 - 1
    # img2 = img2 * 2 - 1

    dataset = TensorDataset(img1, img2, actions)
    loader = DataLoader(
        dataset,
        batch_size=batch_size,
        shuffle=shuffle
    )

    return loader


def set_frame_point(frame, pos, type):
    try:
        if type:
            y, x = tuple(np.round(pos).astype(int))
            frame[y - 2:y + 3, x - 2:x + 3] = 1
            frame[y + 1, x - 2:x + 1] = 0
            frame[y - 1, x - 2:x + 1] = 0

        else:
            frame[tuple(np.round(pos).astype(int))] = 1
            # frame[:] = cv2.GaussianBlur(frame, (5, 5), 0)
            # frame[:] *= 1.0 / frame[:].max()

            frame[:] = cv2.dilate(frame, np.ones((3, 3)), iterations=1)

    except IndexError:
        pass


def generate_frame_seq(seq_len, H, W):
    type = random.choice([True, False])
    seq = np.zeros((seq_len, H, 64), dtype=np.float32)
    pose = [random.randint(5, H - 6), random.randint(45, 55)]

    for i in range(seq_len):
        pose = [random.randint(7, H - 8), random.randint(5, 59)]
        set_frame_point(seq[i], pose, type)
        # pose[1] += -3

    return seq


def generate_v(t, do_train, S):
    if t >= generate_moving_seq.num_objects:
        v = 0
    elif do_train:
        v = random.randrange(-4, 5)
        # v = generate_moving_seq.v
    else:
        v = generate_moving_seq.v
        generate_moving_seq.v += 1
        print('v = {}'.format(v))

    if v > 0:
        r = (5, 15)
    elif v < 0:
        r = (S - 15, S - 5)
    else:
        r = (5, S - 5)

    return v, r


def generate_moving_seq(seq_len, H, W, do_train):
    generate_moving_seq.num_total_objects = 10

    if do_train:
        bg_type = random.choice([True, False])
    else:
        bg_type = (generate_moving_seq.v & 2 == 0)

    orig_seq = None

    for t in range(generate_moving_seq.num_total_objects):
        this_seq = np.zeros((seq_len, H, W), dtype=np.float32)

        if do_train:
            type = random.choice([True, False])
        else:
            type = (generate_moving_seq.v & 1 == 0)

        v_x, r_x = generate_v(t, do_train, W)
        if True:
            v_y, r_y = generate_v(t, do_train, H)
        else:
            v_y = 0
            r_y = (5, H - 5)

        pose = [random.randrange(*r_y), random.randrange(*r_x)]

        for i in range(seq_len):
            set_frame_point(this_seq[i], pose, type)
            pose[0] += v_y
            pose[1] += v_x

        if orig_seq is None:
            orig_seq = this_seq
        else:
            orig_seq = (orig_seq + this_seq).clip(0, 1)

    # if v < 0:
    #    seq = np.flip(seq, 2)

    background = np.zeros_like(orig_seq) + 0.1
    for bg in background:
        bg[5::(5 if bg_type else 10), :] = 0.5
        bg[:, 5::(10 if bg_type else 20)] = 0.5

    return orig_seq, background, None


generate_moving_seq.v = 0
generate_moving_seq.num_objects = 10


def gen_seq(seq_len, batch_size, H, W, do_train):
    obj = np.zeros((seq_len, batch_size, 1, H, W), dtype=np.float32)
    bg = np.zeros_like(obj)
    v = np.zeros((batch_size), dtype=np.float32)
    for b in range(batch_size):
        obj[:, b, 0], bg[:, b, 0], v[b] = generate_moving_seq(seq_len, H, W, do_train)

    obj = torch.from_numpy(obj).to(gpu_utils.device)
    bg = torch.from_numpy(bg).to(gpu_utils.device)
    combined = torch.clamp(obj + bg, 0, 1)
    return bg, obj, combined, v


def get_simple_moving_object_dataset(batch_size=64):
    seq_len = 15
    num_seq = 64
    _, _, data, _ = gen_seq(seq_len, num_seq, 64, 64, True)

    img1 = []
    img2 = []

    for seq_i in range(num_seq):
        for frame_i in range(1, seq_len):
            img1.append(data[frame_i - 1, seq_i])
            img2.append(data[frame_i, seq_i])

    img1 = torch.stack(img1).to(gpu_utils.device)
    img2 = torch.stack(img2).to(gpu_utils.device)

    dataset = TensorDataset(img1, img2)
    loader = DataLoader(
        dataset,
        batch_size=batch_size,
        shuffle=True
    )

    return loader