automatic-annotator/data_manager.py at master · masiiie/automatic-annotator · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
import utils, os
import pandas as pd

def merge(features1, features2, max = 0, features3 = 0):
    data = features1.merge(features2, on = 'wav')
    if type(features3) == type(pd.DataFrame()):
        data = data.merge(features3, on = 'wav')

    if not 'entonema' in data.columns:
        data['entonema'] = data['entonema_x']

    if max != 0:
        data = utils.same_entonema(data, max)

    data.drop(data.filter(regex='_y$').columns.tolist(),axis=1, inplace=True)
    data.drop(data.filter(regex='_x$').columns.tolist(),axis=1, inplace=True)

    return data

def get(dataset, transform, cd_wavelet = None,\
    statistics_features = ['entr_pitch','entr_cA3','conv0'], spectrum_features = []):
    super_dict = {
            'test':
                {
                    'tf':
                    {
                        'db53': 11,
                        'statistics': 9,
                        'spectrum': 10,
                        'entropys': 12,
                        'frecuency_features': 13,
                        'haar3_ca': 14
                    },
                    True:
                    {
                        'haar3': None,
                        'db53': 5,
                        'statistics': 7,
                        'spectrum': 6
                    },
                    False:
                    {
                        'haar3': 4,
                        'db53': 1,
                        'db54': 8,
                        'statistics': 3,
                        'spectrum': 2
                    }
                },
            'definite':
                {
                    'tf':
                    {
                        'db53': 12,
                        'statistics': 14,
                        'spectrum': 13,
                        'entropys': 12,
                        'frecuency_features': 16,
                        'haar3_ca': 17
                    },
                    True:
                    {
                        'haar3': None,
                        'db53': 8,
                        'statistics': 9,
                        'spectrum': 10
                    },
                    False:
                    {
                        'haar3': 6,
                        'db53': 7,
                        'db54': 11,
                        'statistics': 4,
                        'spectrum': 5
                    }
                },

            'definite augmentation 1 samples from 2 samples':
                {
                    'tf':
                    {
                        'db53': 10,
                        'statistics': 12,
                        'spectrum': 11
                    },
                    True:
                    {
                        'haar3': None,
                        'db53': 5,
                        'statistics': 7,
                        'spectrum': 8
                    },
                    False:
                    {
                        'haar3': 2,
                        'haar4': 1,
                        'db53': 6,
                        'db54': 9,
                        'statistics': 3,
                        'spectrum': 4
                    }
                },
            'definite augmentation 5 samples':
            {
                'tf':
                    {
                        'db53': 3,
                        'statistics': 1,
                        'spectrum': 2,
                        'entropys': 4,
                        'frecuency_features': 5
                    }
            }
        }

    dsb = os.path.basename(dataset)

    cD = None
    if cd_wavelet == 'haar3':
        cD = utils.get_data('{}/features{}.xlsx'.format(dataset, super_dict[dsb][transform]['haar3']))
    elif cd_wavelet == 'db53':
        cD = utils.get_data('{}/features{}.xlsx'.format(dataset, super_dict[dsb][transform]['db53']))
    elif cd_wavelet == 'db54':
        cD = utils.get_data('{}/features{}.xlsx'.format(dataset, super_dict[dsb][transform]['db54']))
    elif cd_wavelet == 'haar3_ca':
        cD = utils.get_data('{}/features{}.xlsx'.format(dataset, super_dict[dsb][transform]['haar3_ca']))


    ff = utils.get_data('{}/features{}.xlsx'.format(dataset, super_dict[dsb][transform]['frecuency_features']))
    entropys = utils.get_data('{}/features{}.xlsx'.format(dataset, super_dict[dsb][transform]['entropys']))
    spectrum = utils.get_data('{}/features{}.xlsx'.format(dataset, super_dict[dsb][transform]['spectrum']))
    statistic = utils.get_data('{}/features{}.xlsx'.format(dataset, super_dict[dsb][transform]['statistics']))
    statistic = statistic.loc[:, statistics_features + ['wav', 'entonema']]
    if len(spectrum_features) > 0:
        spectrum = spectrum.loc[:, spectrum_features + ['wav', 'entonema']]

    '''
    print('dataset: {}'.format(dataset))
    print('cD:\n{}'.format(cD))
    print('sttistics:\n{}'.format(statistic))
    print('spectrum:\n{}'.format(spectrum))
    input(':)')
    '''

    return cD, spectrum, statistic, entropys, ff