Python sklearn.metrics.pairwise 模块，pairwise_distances() 实例源码

我们从Python开源项目中，提取了以下50个代码示例，用于说明如何使用sklearn.metrics.pairwise.pairwise_distances()。

项目：FreeDiscovery 作者：FreeDiscovery | 项目源码 | 文件源码

def decision_function(self, X):
        """Compute the distances to the nearest centroid for
        an array of test vectors X.

        Parameters
        ----------
        X : array-like, shape = [n_samples, n_features]
        Returns
        -------
        C : array, shape = [n_samples]
        """
        from sklearn.metrics.pairwise import pairwise_distances
        from sklearn.utils.validation import check_array, check_is_fitted

        check_is_fitted(self, 'centroids_')

        X = check_array(X, accept_sparse='csr')

        return pairwise_distances(X, self.centroids_,
                                  metric=self.metric).min(axis=1)

项目：sef 作者：passalis | 项目源码 | 文件源码

def test_similarity_calculations():
    """
    Tests the implementation of fast similarity calculations with the PyTorch
    :return:
    """
    np.random.seed(1)

    # Create random data vectors
    for sigma in [0.01, 0.1, 0.5, 1]:
        A = np.random.randn(10, 23)
        sef_sim = fast_heat_similarity_matrix(A, sigma)

        assert sef_sim.shape[0] == 10
        assert sef_sim.shape[1] == 10

        sim = np.exp(-pairwise_distances(A, A)**2/sigma**2)
        assert np.sum((sef_sim-sim)*2) < 1e-3

项目：FreeDiscovery 作者：FreeDiscovery | 项目源码 | 文件源码

def test_cosine2jaccard():
    from sklearn.metrics.pairwise import pairwise_distances
    from freediscovery.metrics import (cosine2jaccard_similarity,
                                       jaccard2cosine_similarity)

    x = np.array([[0, 0, 1., 1.]])
    y = np.array([[0, 1., 1., 0]])

    S_cos = 1 - pairwise_distances(x, y, metric='cosine')
    S_jac = cosine2jaccard_similarity(S_cos)
    S_jac_ref = 1 - pairwise_distances(x.astype('bool'), y.astype('bool'), metric='jaccard')

    assert_allclose(S_jac, S_jac_ref)

    S_cos2 = jaccard2cosine_similarity(S_jac)
    assert_allclose(S_cos2, S_cos)

项目：FreeDiscovery 作者：FreeDiscovery | 项目源码 | 文件源码

def centroid_similarity(X, internal_ids, nn_metric='cosine'):
    """ Given a list of documents in a cluster, compute the cluster centroid,
    intertia and individual distances

    Parameters
    ----------
    internal_ids : list
      a list of internal ids
    nn_metric : str
      a rescaling of the metric if needed
    """
    from ..metrics import _scale_cosine_similarity
    from sklearn.metrics.pairwise import pairwise_distances

    X_sl = X[internal_ids, :]
    centroid = X_sl.mean(axis=0)

    if centroid.ndim == 1:
        centroid = centroid[None, :]

    S_cos = 1 - pairwise_distances(X_sl, centroid, metric='cosine')
    S_sim = _scale_cosine_similarity(S_cos, metric=nn_metric)
    S_sim_mean = np.mean(S_sim)
    return float(S_sim_mean), S_sim[:, 0]

项目：newsgraph 作者：exchez | 项目源码 | 文件源码

def query(vec, model, k, max_search_radius):

    data = model['data']
    table = model['table']
    random_vectors = model['random_vectors']
    num_vector = random_vectors.shape[1]

    # Compute bin index for the query vector, in bit representation.
    bin_index_bits = (vec.dot(random_vectors) >= 0).flatten()

    # Search nearby bins and collect candidates
    candidate_set = set()
    for search_radius in range(max_search_radius+1):
        candidate_set = search_nearby_bins(bin_index_bits, table, search_radius, initial_candidates=candidate_set)

    # Sort candidates by their true distances from the query
    nearest_neighbors = pd.DataFrame({'id':list(candidate_set)})
    candidates = data[np.array(list(candidate_set)),:]
    nearest_neighbors['distance'] = pairwise_distances(candidates, vec, metric='cosine').flatten()

    return nearest_neighbors.sort_values(by='distance').head(k), len(candidate_set)

项目：CIKM_AnalytiCup_2017 作者：zxth93 | 项目源码 | 文件源码

def pre_train(train_df, test_df, train_add, test_add):

    train = train_df.values[:,1:-1]
    t = train_add.values[:,1:-1]
    train = np.hstack((train, t))

    dtest = test_df.values[:,1:]
    tA = test_add.values[:,1:]
    dtest = np.hstack((dtest, tA))

    cor_distance = pairwise.pairwise_distances(dtest, train)

    resultset = set()
    for tmp in cor_distance:
        index = np.argsort(tmp)
        for i in range(10):
            resultset.add(index[i])

    index = []
    for i in resultset:
        index.append(i)

    return index

项目：Default-Credit-Card-Prediction 作者：AlexPnt | 项目源码 | 文件源码

def predict(self, X):
        """
        Classify the input data assigning the label of the nearest prototype

        Keyword arguments:
        X -- The feature vectors
        """
        classification=np.zeros(len(X))

        if self.distance_metric=="euclidean":
            distances=pairwise_distances(X, self.M_,self.distance_metric)                                   #compute distances to the prototypes (template matching)
        if self.distance_metric=="minkowski":
            distances=pairwise_distances(X, self.M_,self.distance_metric)   
        elif self.distance_metric=="manhattan":
            distances=pairwise_distances(X, self.M_,self.distance_metric)
        elif self.distance_metric=="mahalanobis":
            distances=pairwise_distances(X, self.M_,self.distance_metric)
        else:
            distances=pairwise_distances(X, self.M_,"euclidean")

        for i in xrange(len(X)):
            classification[i]=self.outcomes[distances[i].tolist().index(min(distances[i]))]                 #choose the class belonging to nearest prototype distance

        return classification

项目：sef 作者：passalis | 项目源码 | 文件源码

def test_distance_calculations():
    """
    Tests the implementation of fast distance calculations with the PyTorch
    :return:
    """
    np.random.seed(1)

    # Create random data vectors
    A = np.random.randn(10, 23)
    B = np.random.randn(5, 23)

    sef_dists = fast_distance_matrix(A, B)

    assert sef_dists.shape[0] == 10
    assert sef_dists.shape[1] == 5

    dists = pairwise_distances(A, B)

    assert np.sum((sef_dists-dists)*2) < 1e-3

项目：sef 作者：passalis | 项目源码 | 文件源码

def mean_data_distance(data):
    """
    Calculates the mean distance between a set of data points
    :param data:
    :return:
    """
    mean_distance = np.mean(pairwise_distances(data))
    return mean_distance