ToolBox-MachineLearning/learning_curve.py at master · apegan/ToolBox-MachineLearning · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
""" Exploring learning curves for classification of handwritten digits """

import matplotlib.pyplot as plt
import numpy
from sklearn.datasets import *
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LogisticRegression


def display_digits():
    digits = load_digits()
    print(digits.DESCR)
    fig = plt.figure()
    for i in range(10):
        subplot = fig.add_subplot(5, 2, i+1)
        subplot.matshow(numpy.reshape(digits.data[i], (8, 8)), cmap='gray')

    plt.show()


def train_model():
    data = load_digits()
    num_trials = 90
    train_percentages = range(5, 95, 5)
    test_accuracies = numpy.zeros(len(train_percentages))
    for i in range(len(train_percentages)):
        accuracies = []
        for j in range(num_trials):
            size = train_percentages[i] / 100
            X_train, X_test, y_train, y_test = train_test_split(data.data,
                                                                data.target,
                                                                train_size=size)
            model = LogisticRegression(C=10**-1)
            model.fit(X_train, y_train)
            accuracies.append(model.score(X_test, y_test))
            # print("Train accuracy %f" % model.score(X_train, y_train))
            # print("Test accuracy %f" % model.score(X_test, y_test))
        test_accuracies[i] = numpy.mean(accuracies)

    fig = plt.figure()
    plt.plot(train_percentages, test_accuracies)
    plt.xlabel('Percentage of Data Used for Training')
    plt.ylabel('Accuracy on Test Set')
    plt.show()


if __name__ == "__main__":
    display_digits()
    train_model()