文章列表

TFIDF结果含义

分类: scala
 TTyb   2019-01-28  798

import org.apache.spark.ml.feature.{HashingTF, IDF}库中,TFIDF结果的字段含义

阅读全文»

spark读写CSV

分类: scala
 TTyb   2019-01-15  96

spark读CSV为Dataframe和spark将Dataframe写入CSV

阅读全文»

pyspark列合并为一行

分类: python
 TTyb   2018-12-29  468

将dataframe利用pyspark列合并为一行,类似于sql的GROUP_CONCAT函数。spark和pyspark的方式不能共用

阅读全文»

链家二手房楼盘爬虫

分类: python
 TTyb   2018-12-21  1834

想看下最近房价是否能入手,抓取链家二手房、新房的信息,发现广州有些精装修88平米的3房2厅首付只要 29 万,平均 1.1万/平,果然钱不够信息来凑,总能发现便宜的房子!

阅读全文»

hive新建分区表

分类: hive
 TTyb   2018-12-14  62

hive新建分区表

阅读全文»

hive删除表和表中的数据

分类: hive
 TTyb   2018-12-14  51

hive删除表和表中的数据,以及按分区删除数据

阅读全文»

csdn阅读更多需要注册登录csdn

分类: html
 TTyb   2018-12-04  36

csdn目前设置每日使用5次后必须登录才能看到阅读更多的内容,异常恶心。因此搜罗了方法去解决这个问题

阅读全文»

pandas和spark的dataframe互转

分类: python
 TTyb   2018-11-21  191

pandas和spark的dataframe互转

阅读全文»

代码转换为html显示

分类: html
 TTyb   2018-11-06  5

需要将代码转换为html使其显示好看一些,可以在这里进行装换

阅读全文»

subprocess实时获取结果和捕获错误

分类: python
 TTyb   2018-11-01  347

需要调用命令行来执行某些命令,主要是用subprocess实时获取结果和捕获错误,发现subprocess的很多坑

阅读全文»

ubuntu的vim取消缩进

分类: Linux
 TTyb   2018-10-30  10

ubuntu的vim取消缩进

阅读全文»

python3的socket使用

分类: python
 TTyb   2018-10-29  412

需要实现两台机器的信息交互,使用 `socket` 进行调度

阅读全文»

centos7开放端口和防火墙设置

分类: Linux
 TTyb   2018-10-29  177

centos7开放端口和防火墙设置

阅读全文»

python获取set-cookies

分类: python
 TTyb   2018-10-28  71

python获取set-cookies

阅读全文»

TensorFlow使用GPU

分类: python
 TTyb   2018-09-29  160

记录在TensorFlow中使用GPU的一些操作

阅读全文»

pandas的apply操作

分类: python
 TTyb   2018-09-21  380

pandas的apply操作类似于Scala的udf一样方便

阅读全文»

pandas列合并为一行

分类: python
 TTyb   2018-09-19  321

将dataframe利用pandas列合并为一行,类似于sql的GROUP_CONCAT函数

阅读全文»

python将字符串类型list转换成list

分类: python
 TTyb   2018-09-14  95

python读取了一个list是字符串形式的[11.23,23.34],想转换成list类型

阅读全文»

pandas操作

分类: python
 TTyb   2018-09-12  1237

python中使用了pandas的一些操作,特此记录下来。

阅读全文»

numpy操作

分类: python
 TTyb   2018-09-10  969

python中使用了numpy的一些操作,特此记录下来。

阅读全文»

Python3+Flask+uwsgi部署

分类: Linux
 TTyb   2018-08-29  332

Python3+Flask+uwsgi部署web服务,实现在新的IP下打开网址

阅读全文»

python将整数均分成N等分

分类: python
 TTyb   2018-08-27  192

在python中,需要将整数均分成N等分。python divide integers N equal parts sum

阅读全文»

Windows7下安装pyspark

分类: python
 TTyb   2018-08-27  205

在Windows7下需要安装pyspark,写下教程步骤

阅读全文»

python的append insert extend pop del remove使用

分类: python
 TTyb   2018-07-20  475

对于python数组的操作有点混乱,所以特此记录下来

阅读全文»

马尔科夫链

分类: ML
 TTyb   2018-07-03  464

马尔科夫链转移矩阵计算方式

阅读全文»

dataframe行变换为列

分类: scala
 TTyb   2018-06-27  355

需要将dataframe中的某一行变换为列

阅读全文»

scala获取某个时间间隔的时间

分类: scala
 TTyb   2018-06-25  128

scala获取某个时间间隔的时间

阅读全文»

Linux查看文件夹大小

分类: Linux
 TTyb   2018-04-20  20

Linux查看文件夹大小

阅读全文»

scala之reduceByKey操作

分类: scala
 TTyb   2018-03-16  565

需要对dataframe按照某几列为key,对另外几列进行计算,考虑到scala的reduceByKey比groupByKey快速很多,所以使用了这个操作

阅读全文»

将Spark Dataframe转换为Scala Map集合

分类: scala
 TTyb   2018-03-06  374

需要将Spark Dataframe转换为Scala Map集合

阅读全文»

spark Could not write all entries

分类: elasticsearch
 TTyb   2018-03-01  319

Caused by: org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [1/1] (Maybe ES was overloaded?). Error sample...

阅读全文»

spark按某几列删除dataframe重复行

分类: scala
 TTyb   2018-02-27  410

spark调用distinct只能删除完全相同的行,而需要一种方法按照某几列作为唯一ID来删除重复,利用dropDuplicates可以完美解决这个问题

阅读全文»

spark对elasticsearch增删查改

分类: elasticsearch
 TTyb   2018-02-27  442

spark调用elsticsearch的API对elasticsearch进行增删查改

阅读全文»

hdfs创建删除文件和文件夹

分类: hadoop
 TTyb   2018-02-02  76

在 hadoop中,基于Linux命令可以给hdfs创建文件和文件夹,或者删除文件和文件夹

阅读全文»

spark调用hdfsAPI

分类: scala
 TTyb   2018-01-24  195

spark调用hdfsAPI查询文件名字、删除文件

阅读全文»

hadoop退出安全模式Name node is in safe mode

分类: hadoop
 TTyb   2018-01-12  118

hadoop使用出现安全模式错误Name node is in safe mode,退出安全模式

阅读全文»

dataframe的select传入不定参数

分类: scala
 TTyb   2018-01-10  113

在提取dataframe里面的列时,需要传入不定参数,即dataframe.select(args)

阅读全文»

github pages代码高亮highlighter

分类: git
 TTyb   2017-12-27  901

github pages一直想添加代码高亮highlighter,基于jekyll 3.0的rouge终于搞定了

阅读全文»

spark System memory must be at least

分类: scala
 TTyb   2017-12-26  122

System memory * must be at least *.Please increase heap size using the --driver--memory option or spark.driver.memory

阅读全文»

python万能库

分类: pythontools
 TTyb   2017-12-22  103

python万能库

阅读全文»

spark计算两个DataFrame的差集、交集、合集

分类: scala
 TTyb   2017-12-06  464

spark计算两个DataFrame的差集、交集、合集

阅读全文»

Linux查看系统、核数、CPU、位数

分类: Linux
 TTyb   2017-11-22  63

记录Linux查看的系统的命令,Linux查看系统、核数、CPU、位数

阅读全文»

淘宝天猫商品抓取

分类: python
 TTyb   2017-11-11  858

任何一个电子商务公司想要存活下去,必须要时时掌控市场的动态,淘宝天猫上面的商品数据刚好能满足这样子的需求,所以写下这篇抓取教程

阅读全文»

Linux suse 11 sp1 安装教程

分类: Linux
 TTyb   2017-11-09  278

特定环境下需要安装Linux suse 11 sp1,走过太多的坑,所以记录下安装的过程方便以后再使用

阅读全文»

CSDN文章抓取

分类: python
 TTyb   2017-10-27  668

在抓取网页的时候只想抓取主要的文本框,所以用了一个比较暴力的方法去识别

阅读全文»

python识别html主要文本框

分类: python
 TTyb   2017-10-24  668

在抓取网页的时候只想抓取主要的文本框,所以用了一个比较暴力的方法去识别

阅读全文»

python之BeautifulSoup

分类: python
 TTyb   2017-10-16  341

python之BeautifulSoup使用

阅读全文»

selenium下拉到页面最底端

分类: selenium
 TTyb   2017-10-13  151

selenium操控浏览器下拉到页面最底端

阅读全文»

dataframe去除null、NaN和空字符串

分类: scala
 TTyb   2017-10-12  437

一种去除dataframe中null、NaN和空字符串的方法,基于scala下

阅读全文»

python之chardet库识别编码

分类: python
 TTyb   2017-08-24  137

chardet库是python的字符编码检测器,能够检测出各种编码的类型

阅读全文»

python读写excel

分类: python
 TTyb   2017-08-21  410

记录python读写2003和2007版本的excel的一些方式

阅读全文»

scala时间和时间戳互转

分类: scala
 TTyb   2017-08-08  244

scala时间和时间戳互转

阅读全文»

spark No FileSystem for scheme file 解决方法

分类: scala
 TTyb   2017-08-04  720

在给代码带包成jar后,放到环境中运行出现No FileSystem for scheme file错误,找到解决办法

阅读全文»

spark使用udf给dataFrame新增列

分类: scala
 TTyb   2017-07-14  901

在spark中给dataframe增加一列的方法一般使用withColumn,但是个人感觉少了很多功能,不如使用udf

阅读全文»

Scala查询dataFrame结构

分类: scala
 TTyb   2017-07-11  23

Scala查询dataFrame结构

阅读全文»

Spark中SQL列合并为一行

分类: scala
 TTyb   2017-06-28  317

在使用数据库的时候,需要将查询出来的一列按照逗号合并成一行

阅读全文»

Linux清空文件内容

分类: Linux
 TTyb   2017-06-27  16

日志文件太多,需要清空

阅读全文»

xshell连接ubuntu

分类: Linux
 TTyb   2017-06-13  232

安装了 `ubuntu-14` ,为了连接 `xshell` ,做出的一些配置

阅读全文»

scala调用Linux命令行

分类: scala
 TTyb   2017-05-22  114

在scala里面存在 调用Linux命令行的函数,得到返回的结果

阅读全文»

scala用ssh2连接Linux

分类: scala
 TTyb   2017-05-22  668

在scala中远程连接Linux,并发送相关命令到Linux上,得到返回的结果

阅读全文»

scala的reduce

分类: scala
 TTyb   2017-05-17  403

`spark` 中的 `reduce` 非常的好用,`reduce` 可以对 `dataframe` 中的元素进行计算、拼接等等

阅读全文»

多说关闭选用网易云跟帖

分类: git
 TTyb   2017-05-06  68

很多人的个人博客用的是多说评论,但是最近多说突然说要关闭了...

阅读全文»

github pages绑定域名

分类: git
 TTyb   2017-05-06  178

网上很多人问绑定域名要不要备案,很多人的回答是...

阅读全文»

scala转换date提取年月日时分秒

分类: scala
 TTyb   2017-04-25  182

从数据库提取出来的时间为 `String` 格式,现在需要转换为 `date` 并提取出里面的 *小时* 时间段

阅读全文»

python编译、运行、反编译pyc文件

分类: python
 TTyb   2017-04-21  182

为了加密 `.py` 文件,以前一般使用打包成exe ,但是最近发现可以将其编译成二进制文件pyc,虽然反编译难度不大,但是也需要一些水平

阅读全文»

python批量启动多线程

分类: python
 TTyb   2017-04-19  347

python批量启动多线程

阅读全文»

Linux中断程序命令

分类: Linux
 TTyb   2017-04-19  55

Linux发现ctrl+c无法中断程序

阅读全文»

scala中spark运行内存不足

分类: scala
 TTyb   2017-04-18  140

scala中spark运行内存不足

阅读全文»

scala打包jar并在Linux下运行

分类: scala
 TTyb   2017-04-17  266

scala打包jar并在Linux下运行

阅读全文»

scala的input

分类: scala
 TTyb   2017-04-13  29

scala的input

阅读全文»

scala的break和continue

分类: scala
 TTyb   2017-04-13  297

scala的break和continue

阅读全文»

scala合并Array

分类: scala
 TTyb   2017-04-07  50

scala合并Array

阅读全文»

scala读取配置文件

分类: scala
 TTyb   2017-04-05  491

scala读取配置文件

阅读全文»

scala读取解析json文件

分类: scala
 TTyb   2017-04-01  134

scala读取解析json文件

阅读全文»

scala判断数据类型

分类: scala
 TTyb   2017-04-01  54

scala判断数据类型

阅读全文»

IntelliJ的Scala配置

分类: IDE
 TTyb   2017-04-01  147

IntelliJ的Scala配置

阅读全文»

scala的map操作

分类: scala
 TTyb   2017-03-31  94

scala的map操作

阅读全文»

python获取当前路径

分类: pythontools
 TTyb   2017-03-30  135

python获取当前路径

阅读全文»

python的StringIO

分类: python
 TTyb   2017-03-28  93

python的StringIO

阅读全文»

python判断两个文件是否相同

分类: python
 TTyb   2017-03-27  171

此方法相当于 `Linux` 系统下的`diff`,或者是 `git` 下的 `checkout`

阅读全文»

Linux查找文件内容

分类: Linux
 TTyb   2017-03-23  27

Linux查找文件内容

阅读全文»

python日志syslog运用

分类: python
 TTyb   2017-03-22  625

python日志syslog运用

阅读全文»

python连接Linux命令行

分类: python
 TTyb   2017-03-21  647

python连接Linux命令行

阅读全文»

python日志模块

分类: python
 TTyb   2017-03-20  141

由于 `python` 频繁打印会导致IDE或者系统奔溃,因此将其打印信息写入日志文件中

阅读全文»

scala安装教程

分类: scala
 TTyb   2017-03-09  111

scala安装教程图文解说

阅读全文»

python获取当前运行程序的名字

分类: pythontools
 TTyb   2017-03-09  40

python获取当前运行程序的名字

阅读全文»

python获取文件夹名字

分类: pythontools
 TTyb   2017-03-09  119

python获取文件夹名字

阅读全文»

python时间和时间戳互转

分类: pythontools
 TTyb   2017-03-09  80

python时间和时间戳互转

阅读全文»

python判断文件是否存在

分类: pythontools
 TTyb   2017-03-09  29

python判断文件是否存在

阅读全文»

python创建递归文件夹

分类: pythontools
 TTyb   2017-03-09  54

python创建递归文件夹

阅读全文»

sklearn的kmeans测试

分类: ML
 TTyb   2017-03-07  607

sklearn的kmeans测试代码

阅读全文»

python传入不确定个数参数

分类: python
 TTyb   2017-02-25  176

当使用库的时候,需要传递不确定个数的参数,那么写法是怎样的?

阅读全文»

python安装whl文件

分类: python
 TTyb   2017-02-24  92

python安装万能仓库的whl文件出错,原来是文件名弄错了

阅读全文»

python3安装sklearn机器学习库

分类: python
 TTyb   2017-02-24  510

安装sklearn库需要很多前提条件,而且不能pip3 install sklearn,因此写下教程

阅读全文»

Oracle绝对秒数转为时间戳

分类: python
 TTyb   2017-02-23  155

Oracle查询得到的时间都是1970...,在python下将其转为时间戳

阅读全文»

微信红包算法

分类: python
 TTyb   2017-01-30  245

过年很多人会发微信的红包,但是为毛很多人说自己得不到最佳,因此作者写了一个微信红包发送的算法

阅读全文»

Linux下python2和python3共存

分类: Linux
 TTyb   2017-01-18  265

在Linux下安装python3且不影响系统的python2

阅读全文»

hadoop分布式搭建

分类: hadoop
 TTyb   2017-01-17  1740

hadoop完全分布式搭建

阅读全文»

NaiveBayes朴素贝叶斯算法

分类: ML
 TTyb   2017-01-16  1299

最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM),本文讲解朴素贝叶斯

阅读全文»

ID3决策树算法

分类: ML
 TTyb   2017-01-13  2812

数据挖掘中的ID3决策树算法,再次进行一个初步的学习

阅读全文»

VMwareWorkstation下安装Linux

分类: Linux
 TTyb   2017-01-13  252

虚拟机VMwareWorkstation下安装Linux系统centOS

阅读全文»

微信小程序开发测试

分类: wechat
 TTyb   2017-01-10  414

微信小程序在2017-01-09正式上线,本着跟上时代潮流的精神,写一份教程来看看

阅读全文»

筛法求素数质数

分类: python
 TTyb   2017-01-10  349

埃拉托斯特尼筛法,简称埃氏筛或爱氏筛,是一种由希腊数学家埃拉托斯特尼所提出的一种简单检定素数的算法。要得到自然数n以内的全部素数,必须把不大于根号n的所有素数的倍数剔除,剩下的就是素数

阅读全文»

Agens层次聚类

分类: ML
 TTyb   2017-01-09  2169

层次聚类是另一种主要的聚类方法,它具有一些十分必要的特性使得它成为广泛应用的聚类方法

阅读全文»

KNN近邻算法

分类: ML
 TTyb   2017-01-05  1020

K近邻(KNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一

阅读全文»

K-means聚类算法

分类: ML
 TTyb   2017-01-04  1878

以前使用聚类是用spss,现在用python自己写了一次

阅读全文»

FP-tree推荐算法

分类: ML
 TTyb   2017-01-03  1446

大数据时代开始流行推荐算法,所以作者写了一篇教程来介绍FP-tree推荐算法

阅读全文»

ChromeCrx

分类: html
 TTyb   2017-01-02  361

学习了一些chrome插件的基本用法

阅读全文»

apriori推荐算法

分类: ML
 TTyb   2016-12-28  1501

大数据时代开始流行推荐算法,所以作者写了一篇教程来介绍apriori推荐算法

阅读全文»

python海龟图制作

分类: python
 TTyb   2016-12-26  218

海龟画图很好看,试着玩了一下

阅读全文»

window安装jekyll

分类: git
 TTyb   2016-12-20  46

做github静态博客,学习安装jekyll

阅读全文»

Amazonz验证码机器算法识别

分类: ML
 TTyb   2016-12-10  2775

在破解Amazon的验证码的时候,利用机器学习得到验证码破解精度超过70%,主要是训练样本不够,如果在足够的样本下达到90%是非常有可能的。

阅读全文»

selenium智联搜索

分类: selenium
 TTyb   2016-12-05  432

妹子要去招聘会工作,奈何网上仅仅提供招聘会的公司名字,没有提供招聘的职位,SO我写了个小代码给妹子在智联上面搜索职位,由于时间紧迫,前程的就不写了

阅读全文»

selenium设置Chrome

分类: selenium
 TTyb   2016-12-03  380

selenium设置浏览器属性

阅读全文»

javascript获取浏览器属性

分类: javascript
 TTyb   2016-12-02  407

javascript获取浏览器属性

阅读全文»

javascript操控浏览器

分类: javascript
 TTyb   2016-12-02  447

javascript操控浏览器

阅读全文»

selenium加载时间过长

分类: selenium
 TTyb   2016-11-24  121

为了获取网站js渲染后的html,需要利用selenium加载网站,但是会出现加载时间过长的现象,因此可以限制其加载时间以及强制关掉加载

阅读全文»

win10Golang环境变量设置

分类: golang
 TTyb   2016-11-17  113

win10安装配置golang

阅读全文»

pycharm基本设置

分类: IDE
 TTyb   2016-11-16  204

pycharm基本设置,省得每次都要去网上找

阅读全文»

python3百度指数抓取

分类: python
 TTyb   2016-11-12  1809

百度指数抓取,再用图像识别得到指数

阅读全文»

selenium之xpath定位和input文本

分类: selenium
 TTyb   2016-11-11  44

selenium之xpath定位和input文本

阅读全文»

selenium多个窗口切换

分类: selenium
 TTyb   2016-11-09  110

selenium在同一浏览器下多个窗口切换

阅读全文»

selenium下拉框选择

分类: selenium
 TTyb   2016-11-09  169

selenium识别下拉框

阅读全文»

git下载自己项目到本地

分类: git
 TTyb   2016-11-07  201

假如外出工作,需要在另一台电脑上面pull自己的某个git远程项目到本地

阅读全文»

selenium下载电子书

分类: selenium
 TTyb   2016-10-23  232

妹纸推荐书籍《御伽草纸》,网上找了很久都找不到下载,估计是被Amazon版权了,但是在网易云阅读看到有书,所以就写个代码下载下来。

阅读全文»

python3生成标签云

分类: python
 TTyb   2016-09-07  1059

标签云是现在大数据里面最喜欢使用的一种展现方式,其中在python3下也能实现标签云的效果

阅读全文»

RGB颜色对照图

分类: html
 TTyb   2016-09-07  11

RGB颜色对照图

阅读全文»

python多线程趣味详解

分类: python
 TTyb   2016-09-06  2637

python3的多线程很多人无法理解是怎么运行的,因此本文从程序猿的日常生活出发,写了一个由浅入深的多线程教程,这样子大家就不会觉得陌生了,多线程真的很简单很简单!

阅读全文»

python之selenium

分类: selenium
 TTyb   2016-09-05  188

selenium是处理异步加载的一种方法

阅读全文»

python数据库操作pymysql

分类: python
 TTyb   2016-08-30  310

python数据库操作pymysql

阅读全文»

python3抓取异步百度瀑布流动态图片(二)get、json下载代码讲解

分类: python
 TTyb   2016-08-28  933

详解如何搞定瀑布流

阅读全文»

python3抓取异步百度瀑布流动态图片(一)查找post并伪装头方法

分类: python
 TTyb   2016-08-28  1329

详解如何搞定瀑布流

阅读全文»

java从零到变身爬虫大神(一)

分类: java
 TTyb   2016-08-18  2059

java从零到变身爬虫大神

阅读全文»

github上传本地项目

分类: git
 TTyb   2016-08-16  281

github上传本地项目

阅读全文»

matlab批量灰色预测

分类: matlab
 TTyb   2016-08-15  210

没事玩了一下matlab

阅读全文»

mysql复习

分类: mysql
 TTyb   2016-08-09  210

mysql在大学学了,现在忘记得差不多了,复习复习一下

阅读全文»

css初学

分类: html
 TTyb   2016-08-06  335

css初学

阅读全文»

html初学(三)

分类: html
 TTyb   2016-08-02  275

学习了一些html的基本用法

阅读全文»

html初学(二)

分类: html
 TTyb   2016-08-01  650

学习了一些html的基本用法

阅读全文»

html初学(一)

分类: html
 TTyb   2016-08-01  221

学习了一些html的基本用法

阅读全文»

EDM营销算法

分类: dataanalysis
 TTyb   2016-07-25  1686

EDM营销:全称Email Direct Marketing,即电子邮件营销

阅读全文»

python批量制作雷达图

分类: dataanalysis
 TTyb   2016-07-25  2431

老板要画雷达图,但是数据好多组怎么办?不能一个一个点excel去画吧,那么可以利用python进行批量制作

阅读全文»

markdown初学

分类: markdown
 TTyb   2016-07-23  179

markdown初学

阅读全文»

博客作者

巴甫洛夫条件反射试验中:给定一条狗,每次摇铃后喂食,足够次数后,狗则听到铃声将会习惯性的分泌唾液,由此引发对铃声的依恋。延伸到实际,给定一个喜欢的妹子,每次见面赠与巴甫洛夫式的礼品或者零食,由此引发妹子的依恋。引入薛定谔的猫理论,在未表白前,妹子与自己一直处于一种“概率云”的状态,一旦表白则“概率云”将..更多

微信公众号

欢迎关注作者微信公众号
实时获取最新文章资讯!

博客标签

markdown(1) dataanalysis(2) html(8) mysql(1) matlab(1) git(6) java(1) python(41) selenium(9) IDE(2) golang(1) javascript(2) ML(10) wechat(1) Linux(12) hadoop(3) pythontools(7) scala(31) elasticsearch(2) hive(2)

博客热点

  • import org.apache.spark.ml.feature.{HashingTF, IDF}库中,TFIDF结果的字段含义 阅读全文 »
  • spark读CSV为Dataframe和spark将Dataframe写入CSV 阅读全文 »
  • 将dataframe利用pyspark列合并为一行,类似于sql的GROUP_CONCAT函数。spark和pyspark的方式不能共用 阅读全文 »
  • 想看下最近房价是否能入手,抓取链家二手房、新房的信息,发现广州有些精装修88平米的3房2厅首付只要 29 万,平均 1.1万/平,果然钱不够信息来凑,总能发现便宜的房子! 阅读全文 »
  • hive新建分区表 阅读全文 »
  • hive删除表和表中的数据,以及按分区删除数据 阅读全文 »
  • csdn目前设置每日使用5次后必须登录才能看到阅读更多的内容,异常恶心。因此搜罗了方法去解决这个问题 阅读全文 »
  • pandas和spark的dataframe互转 阅读全文 »
  • 需要将代码转换为html使其显示好看一些,可以在这里进行装换 阅读全文 »
  • 需要调用命令行来执行某些命令,主要是用subprocess实时获取结果和捕获错误,发现subprocess的很多坑 阅读全文 »
  • ubuntu的vim取消缩进 阅读全文 »
  • 需要实现两台机器的信息交互,使用 `socket` 进行调度 阅读全文 »
  • centos7开放端口和防火墙设置 阅读全文 »
  • python获取set-cookies 阅读全文 »
  • 记录在TensorFlow中使用GPU的一些操作 阅读全文 »
  • pandas的apply操作类似于Scala的udf一样方便 阅读全文 »
  • 将dataframe利用pandas列合并为一行,类似于sql的GROUP_CONCAT函数 阅读全文 »
  • python读取了一个list是字符串形式的[11.23,23.34],想转换成list类型 阅读全文 »
  • python中使用了pandas的一些操作,特此记录下来。 阅读全文 »
  • python中使用了numpy的一些操作,特此记录下来。 阅读全文 »
  • Python3+Flask+uwsgi部署web服务,实现在新的IP下打开网址 阅读全文 »
  • 在python中,需要将整数均分成N等分。python divide integers N equal parts sum 阅读全文 »
  • 在Windows7下需要安装pyspark,写下教程步骤 阅读全文 »
  • 对于python数组的操作有点混乱,所以特此记录下来 阅读全文 »
  • 马尔科夫链转移矩阵计算方式 阅读全文 »
  • 需要将dataframe中的某一行变换为列 阅读全文 »
  • scala获取某个时间间隔的时间 阅读全文 »
  • Linux查看文件夹大小 阅读全文 »
  • 需要对dataframe按照某几列为key,对另外几列进行计算,考虑到scala的reduceByKey比groupByKey快速很多,所以使用了这个操作 阅读全文 »
  • 需要将Spark Dataframe转换为Scala Map集合 阅读全文 »
  • Caused by: org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [1/1] (Maybe ES was overloaded?). Error sample... 阅读全文 »
  • spark调用distinct只能删除完全相同的行,而需要一种方法按照某几列作为唯一ID来删除重复,利用dropDuplicates可以完美解决这个问题 阅读全文 »
  • spark调用elsticsearch的API对elasticsearch进行增删查改 阅读全文 »
  • 在 hadoop中,基于Linux命令可以给hdfs创建文件和文件夹,或者删除文件和文件夹 阅读全文 »
  • spark调用hdfsAPI查询文件名字、删除文件 阅读全文 »
  • hadoop使用出现安全模式错误Name node is in safe mode,退出安全模式 阅读全文 »
  • 在提取dataframe里面的列时,需要传入不定参数,即dataframe.select(args) 阅读全文 »
  • github pages一直想添加代码高亮highlighter,基于jekyll 3.0的rouge终于搞定了 阅读全文 »
  • System memory * must be at least *.Please increase heap size using the --driver--memory option or spark.driver.memory 阅读全文 »
  • python万能库 阅读全文 »
  • spark计算两个DataFrame的差集、交集、合集 阅读全文 »
  • 记录Linux查看的系统的命令,Linux查看系统、核数、CPU、位数 阅读全文 »
  • 任何一个电子商务公司想要存活下去,必须要时时掌控市场的动态,淘宝天猫上面的商品数据刚好能满足这样子的需求,所以写下这篇抓取教程 阅读全文 »
  • 特定环境下需要安装Linux suse 11 sp1,走过太多的坑,所以记录下安装的过程方便以后再使用 阅读全文 »
  • 在抓取网页的时候只想抓取主要的文本框,所以用了一个比较暴力的方法去识别 阅读全文 »
  • 在抓取网页的时候只想抓取主要的文本框,所以用了一个比较暴力的方法去识别 阅读全文 »
  • python之BeautifulSoup使用 阅读全文 »
  • selenium操控浏览器下拉到页面最底端 阅读全文 »
  • 一种去除dataframe中null、NaN和空字符串的方法,基于scala下 阅读全文 »
  • chardet库是python的字符编码检测器,能够检测出各种编码的类型 阅读全文 »
  • 记录python读写2003和2007版本的excel的一些方式 阅读全文 »
  • scala时间和时间戳互转 阅读全文 »
  • 在给代码带包成jar后,放到环境中运行出现No FileSystem for scheme file错误,找到解决办法 阅读全文 »
  • 在spark中给dataframe增加一列的方法一般使用withColumn,但是个人感觉少了很多功能,不如使用udf 阅读全文 »
  • Scala查询dataFrame结构 阅读全文 »
  • 在使用数据库的时候,需要将查询出来的一列按照逗号合并成一行 阅读全文 »
  • 日志文件太多,需要清空 阅读全文 »
  • 安装了 `ubuntu-14` ,为了连接 `xshell` ,做出的一些配置 阅读全文 »
  • 在scala里面存在 调用Linux命令行的函数,得到返回的结果 阅读全文 »
  • 在scala中远程连接Linux,并发送相关命令到Linux上,得到返回的结果 阅读全文 »
  • `spark` 中的 `reduce` 非常的好用,`reduce` 可以对 `dataframe` 中的元素进行计算、拼接等等 阅读全文 »
  • 很多人的个人博客用的是多说评论,但是最近多说突然说要关闭了... 阅读全文 »
  • 网上很多人问绑定域名要不要备案,很多人的回答是... 阅读全文 »
  • 从数据库提取出来的时间为 `String` 格式,现在需要转换为 `date` 并提取出里面的 *小时* 时间段 阅读全文 »
  • 为了加密 `.py` 文件,以前一般使用打包成exe ,但是最近发现可以将其编译成二进制文件pyc,虽然反编译难度不大,但是也需要一些水平 阅读全文 »
  • python批量启动多线程 阅读全文 »
  • Linux发现ctrl+c无法中断程序 阅读全文 »
  • scala中spark运行内存不足 阅读全文 »
  • scala打包jar并在Linux下运行 阅读全文 »
  • scala的input 阅读全文 »
  • scala的break和continue 阅读全文 »
  • scala合并Array 阅读全文 »
  • scala读取配置文件 阅读全文 »
  • scala读取解析json文件 阅读全文 »
  • scala判断数据类型 阅读全文 »
  • IntelliJ的Scala配置 阅读全文 »
  • scala的map操作 阅读全文 »
  • python获取当前路径 阅读全文 »
  • python的StringIO 阅读全文 »
  • 此方法相当于 `Linux` 系统下的`diff`,或者是 `git` 下的 `checkout` 阅读全文 »
  • Linux查找文件内容 阅读全文 »
  • python日志syslog运用 阅读全文 »
  • python连接Linux命令行 阅读全文 »
  • 由于 `python` 频繁打印会导致IDE或者系统奔溃,因此将其打印信息写入日志文件中 阅读全文 »
  • scala安装教程图文解说 阅读全文 »
  • python获取当前运行程序的名字 阅读全文 »
  • python获取文件夹名字 阅读全文 »
  • python时间和时间戳互转 阅读全文 »
  • python判断文件是否存在 阅读全文 »
  • python创建递归文件夹 阅读全文 »
  • sklearn的kmeans测试代码 阅读全文 »
  • 当使用库的时候,需要传递不确定个数的参数,那么写法是怎样的? 阅读全文 »
  • python安装万能仓库的whl文件出错,原来是文件名弄错了 阅读全文 »
  • 安装sklearn库需要很多前提条件,而且不能pip3 install sklearn,因此写下教程 阅读全文 »
  • Oracle查询得到的时间都是1970...,在python下将其转为时间戳 阅读全文 »
  • 过年很多人会发微信的红包,但是为毛很多人说自己得不到最佳,因此作者写了一个微信红包发送的算法 阅读全文 »
  • 在Linux下安装python3且不影响系统的python2 阅读全文 »
  • hadoop完全分布式搭建 阅读全文 »
  • 最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM),本文讲解朴素贝叶斯 阅读全文 »
  • 数据挖掘中的ID3决策树算法,再次进行一个初步的学习 阅读全文 »
  • 虚拟机VMwareWorkstation下安装Linux系统centOS 阅读全文 »
  • 微信小程序在2017-01-09正式上线,本着跟上时代潮流的精神,写一份教程来看看 阅读全文 »
  • 埃拉托斯特尼筛法,简称埃氏筛或爱氏筛,是一种由希腊数学家埃拉托斯特尼所提出的一种简单检定素数的算法。要得到自然数n以内的全部素数,必须把不大于根号n的所有素数的倍数剔除,剩下的就是素数 阅读全文 »
  • 层次聚类是另一种主要的聚类方法,它具有一些十分必要的特性使得它成为广泛应用的聚类方法 阅读全文 »
  • K近邻(KNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一 阅读全文 »
  • 以前使用聚类是用spss,现在用python自己写了一次 阅读全文 »
  • 大数据时代开始流行推荐算法,所以作者写了一篇教程来介绍FP-tree推荐算法 阅读全文 »
  • 学习了一些chrome插件的基本用法 阅读全文 »
  • 大数据时代开始流行推荐算法,所以作者写了一篇教程来介绍apriori推荐算法 阅读全文 »
  • 海龟画图很好看,试着玩了一下 阅读全文 »
  • 做github静态博客,学习安装jekyll 阅读全文 »
  • 在破解Amazon的验证码的时候,利用机器学习得到验证码破解精度超过70%,主要是训练样本不够,如果在足够的样本下达到90%是非常有可能的。 阅读全文 »
  • 妹子要去招聘会工作,奈何网上仅仅提供招聘会的公司名字,没有提供招聘的职位,SO我写了个小代码给妹子在智联上面搜索职位,由于时间紧迫,前程的就不写了 阅读全文 »
  • selenium设置浏览器属性 阅读全文 »
  • javascript获取浏览器属性 阅读全文 »
  • javascript操控浏览器 阅读全文 »
  • 为了获取网站js渲染后的html,需要利用selenium加载网站,但是会出现加载时间过长的现象,因此可以限制其加载时间以及强制关掉加载 阅读全文 »
  • win10安装配置golang 阅读全文 »
  • pycharm基本设置,省得每次都要去网上找 阅读全文 »
  • 百度指数抓取,再用图像识别得到指数 阅读全文 »
  • selenium之xpath定位和input文本 阅读全文 »
  • selenium在同一浏览器下多个窗口切换 阅读全文 »
  • selenium识别下拉框 阅读全文 »
  • 假如外出工作,需要在另一台电脑上面pull自己的某个git远程项目到本地 阅读全文 »
  • 妹纸推荐书籍《御伽草纸》,网上找了很久都找不到下载,估计是被Amazon版权了,但是在网易云阅读看到有书,所以就写个代码下载下来。 阅读全文 »
  • 标签云是现在大数据里面最喜欢使用的一种展现方式,其中在python3下也能实现标签云的效果 阅读全文 »
  • RGB颜色对照图 阅读全文 »
  • python3的多线程很多人无法理解是怎么运行的,因此本文从程序猿的日常生活出发,写了一个由浅入深的多线程教程,这样子大家就不会觉得陌生了,多线程真的很简单很简单! 阅读全文 »
  • selenium是处理异步加载的一种方法 阅读全文 »
  • python数据库操作pymysql 阅读全文 »
  • 详解如何搞定瀑布流 阅读全文 »
  • 详解如何搞定瀑布流 阅读全文 »
  • java从零到变身爬虫大神 阅读全文 »
  • github上传本地项目 阅读全文 »
  • 没事玩了一下matlab 阅读全文 »
  • mysql在大学学了,现在忘记得差不多了,复习复习一下 阅读全文 »
  • css初学 阅读全文 »
  • 学习了一些html的基本用法 阅读全文 »
  • 学习了一些html的基本用法 阅读全文 »
  • 学习了一些html的基本用法 阅读全文 »
  • EDM营销:全称Email Direct Marketing,即电子邮件营销 阅读全文 »
  • 老板要画雷达图,但是数据好多组怎么办?不能一个一个点excel去画吧,那么可以利用python进行批量制作 阅读全文 »
  • markdown初学 阅读全文 »

博客归档

2 January 2019
5 December 2018
3 November 2018
4 October 2018
6 September 2018
3 August 2018
2 July 2018
2 June 2018
1 April 2018
3 March 2018
3 February 2018
3 January 2018
4 December 2017
3 November 2017
5 October 2017
4 August 2017
2 July 2017
3 June 2017
5 May 2017
13 April 2017
15 March 2017
4 February 2017
13 January 2017
8 December 2016
8 November 2016
1 October 2016
4 September 2016
11 August 2016
3 July 2016
1 February 2009
4 January 2009
3 July 2007
4 June 2007
9 May 2007

博主梦想

博客日历

公元月 农历
取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦