【Notes4】前后端/大数据/IC，pip换源/ffmpeg/环境变量，visio/office/SVM/LSTM

文章目录

1.前端：jquary是js
2.后端：中间件，分布式
3.大数据：DFS即分布式文件系统也是文件系统（使用这文件系统的用户，他不用关心文件是如何分布的），像windows右击磁盘属性，可以看到是NTFS文件系统格式
- 3.1 hadoop文件系统：df -h ，free -h，whereis
- 3.2 hive数据库：jps，netstat -antp，hive和mysql像，支持大多sql（hive的sql也叫做hql），hive不支持事务但hive可自定义函数
4.IC：模拟电路设计（三极管，mos开关，运放电路）。数字电路设计（spi，以太网）。电源设计（dsp，pcb，单片机，arm）
5.嵌入式：工控，仪器仪表，消费电子，IoT
- 5.1 裸机
- 5.2 应用层
- 5.3 底层
6.pip换源：win和linux
7.ffmpeg压缩并拼接音频：.wav到.mp3
8.Win将路径添加到环境变量：从快捷方式找到.exe应用程序路径，将其添加到环境变量
9.visio：KMspico
10.office：win10关闭更新，cmd以管理员身份运行
11.shapely：/etc/bashrc
12.数据挖掘/SVM/LSTM：箱图

1.前端：jquary是js

第二阶段：SCSS/LESS是对CSS加强和扩展，NPM安装包工具，WEBPACK打包工具。

第三阶段：REDUX/VUEX是对REACT/VUE两个框架状态管理工具（X表示状态管理），ANTD/ELEMENT是基于REACT/VUE的两个前端框架。

FLUTTER是谷歌出品，针对移动端也可做出桌面端的网页框架，RX.JS是针对前端异步状态管理的框架。

EXPRESS是轻量级后端框架（nodejs写的），NEST.JS是企业级web后端框架（nodejs写的）。

2.后端：中间件，分布式

1.编程基础

2.应用框架

3.工具运维

3.大数据：DFS即分布式文件系统也是文件系统（使用这文件系统的用户，他不用关心文件是如何分布的），像windows右击磁盘属性，可以看到是NTFS文件系统格式

1.访问dfs这个文件系统只需读1.txt这个文件就行了，读的方式是dfs:/1.txt，就能读到1.txt全部内容，他是如何获取这个全部内容的呢？比如读前1/3内容，他就会去看是一号文件块，然后在原数据信息里会记录一号文件块在a和c这两台机器上，它就会到a或c上去获取文件内容，但是对于开发者即使用这个文件的人，我们只需要去输入这样的一个文件路径就能进行文件读取了，而不用关心底层文件是怎么分片和是怎么存储到每台机器上，这就是分布式文件系统的一个基本思想了。谷歌收购了一大批性能很差的机器，我们知道一台性能非常高的机器可能要上千万元，一台性能差的机器100元（买多个）用于文件块备份容灾。

2.计算红楼梦书中林黛玉出现的数量，怎么做？一种方法一个字一个字去读，遇到林黛玉记一个1，把我们每个人想象成单核的cpu，这个cpu我们需要每个字进行遍历。对于这种计算，大数据框架中提出了一种新的计算方式叫MapReduce即MR：我们把红楼梦这10万个字分成10份（10个小学生），每个小学生就是一个mapper，他分的任务我们把这个过程叫做map。然后reduce就是我们将每个小学生数出来林黛玉的数量进行汇总，有一个reducer进行数量相加，这个reducer可以是这10个小学生中的任意1个，10个数相加很快，瞬间算完。

3.1 hadoop文件系统：df -h ，free -h，whereis

ssh能用crt登录，说明就有，如下安装pdsh。

如下安装java。

如下需输入密码，不能免密登录自己。

如下配置免密登录，再输入如上一行就不需要登录密码。如下-t参数指定要生成的密钥类型，这里指定的是rsa。-P密码’ '表示没有。-f是密钥的生成后的保存文件位置。

如下将pdsh（可以远程启很多机器）配置成使用ssh，如下在最后一行添加。

如下将hadoop和java目录添加成环境变量。

如下接着export PDSH_RC…后面写入，再source /ect/profile。

如下是改的第一个文件。

如下是改的第二个文件即两个xml文件。

如下第一行运行hdfs集群即hadoop文件系统，jps查看java进程看是否真的启动起来。bin/hadoop fs -XXX：对hdfs文件系统的文件进行操作，XXX就是对应的文件操作。

如上一行是hadoop自带的demo示例，最后输出在output目录里。

如上把hdfs塔建完成（只是单机），如下介绍hdfs中几个概念：Data Node用来存数据的，1号块数据记在两台机器，原数据信息就是存在Name Node中，Name Node是总的调度司令官，se就是second。

自己写一下map reduce程序，创建maven项目，并导入依赖如下。

如下把WordCount类打成jar包。

如下的jar包和如上的jar包重复了。

如下编译生成jar包。

如下在文件夹中显示。

如下安装后可直接把win下wcdemo.jar拖到linux中。

如下开始map reduce。

3.2 hive数据库：jps，netstat -antp，hive和mysql像，支持大多sql（hive的sql也叫做hql），hive不支持事务但hive可自定义函数

1.下载

2.添加环境变量

3.创建目录

4.启动：hive有一个点就是在记录原数据信息时需要有一个第三方的这样的数据库来记录原数据信息，推荐mysql，但是再去安装mysql麻烦，这里直接用了一个集成的数据库derby，不需要额外安装。

如上一行查看有一个10000端口在监听。如下连接hive和mysql数据库相似。

1. hive和mysql最本质的区别是mysql它的数据是存在文件里，其实hive也是。但是mysql是存在本机正常的文件系统，hive的数据是存到hdfs分布式文件系统，这个分布式文件系统，我们知道它的文件是放到很多台机器的，所以说它在执行sql时也是要跟普通关系型数据库有很大不同。hive的每句sql都可以说它在运行一个map reduce (MR)任务。

2.大数据框架Hadoop家族：Hive（关系型），Hbase（列存储KV）。Spark家族快的原因是将中间结果用内存进行了存储（不是文件）。快查Presto像hive，hive每次执行sql时都要提交一个map reduce任务，是冷状态，Presto是热状态，等着sql输入。

4.IC：模拟电路设计（三极管，mos开关，运放电路）。数字电路设计（spi，以太网）。电源设计（dsp，pcb，单片机，arm）

5.嵌入式：工控，仪器仪表，消费电子，IoT

5.1 裸机

5.2 应用层

5.3 底层

如下中断等属于如上Linux内核开发。

6.pip换源：win和linux

pip install速度慢，用pip换源：进入python，看os在哪个py脚本里，os.getcwd()返回当前的目录，即python工作路径在1下，所以在1下建pip文件夹可以执行。

在1文件夹下新建pip文件夹与anaconda3和桌面等文件夹同目录，也可以在桌面新建pip文件夹再拖进1，在pip里新建.txt,再改为.ini文件,点击打开输入下面代码保存。

三个源：https://pypi.tuna.tsinghua.edu.cn/simple
https://pypi.douban.com/simple
https://mirrors.aliyun.com/pypi/simple
upgrade升级下numpy，看下载速度：pip install numpy -U
以上为windows换源，下面为ubuntu换源同理：
1.cd ~进入当前用户的主目录。
2.mkdir .pip创建文件夹.pip
3.cd .pip进入文件夹.pip
4.gedit pip.conf编辑pip配置文件pip.conf
将以下内容复制到pip配置文件pip.conf中，保存退出即可。

[global]
index-url = http://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host = mirrors.aliyun.com

7.ffmpeg压缩并拼接音频：.wav到.mp3

ffmpeg压缩软件链接为：链接：https://pan.baidu.com/s/1Pn1y76_HQULm9c7xaTrMXw 提取码：uvg4
压缩：将解压后的ffpeg软件和录音文件放在同一文件夹下，并在当前文件夹cmd，在cmd中输入命令并运行：ffmpeg -i "1.wav" -b:a 64k -acodec mp3 -ar 44100 -ac 1 "1.mp3"。
命令参数解释：
-i "1.wav"表示输入，后面的文件名必须要用双引号
-b:a 64k表示音频的码率为64kb/s，即8kB/s
-acodec mp3表示设定声音编解码器为mp3
-ar 44100表示设定采样率为44100
"1.mp3"表示输出保存的文件名

拼接：新建文本list.txt，复制下内容到其中

file '1.mp3'
file '2.mp3'
file '3.mp3'

cmd输入：ffmpeg -f concat -i list.txt -c copy "all.mp3"，产生all.mp3即拼接好了。

8.Win将路径添加到环境变量：从快捷方式找到.exe应用程序路径，将其添加到环境变量

有时候会遇到如下问题，w+r输入cmd跳出命令行或在文件夹下shift+鼠标右键运行“在此打开powershell窗口”。

遇到此情况是没有把路径添加到环境变量中，搜索jupy…，右击打开文件位置如下图。

以上为找到要打开的应用程序.exe而不是快捷方式，搜索框搜索环境变量进行编辑

如下图将jupyter-notebook.exe所在路径添加进去，结束后所有页面点确定命令行再次运行成功。

9.visio：KMspico

下载visio：http://www.itellyou.cn/ 用迅雷复制链接下载

安装到了D盘里：D/office/Office15/VISIO.EXE。KMspico工具安装成功后，Visio同时也正常使用了，不需要任何操作。链接：https://pan.baidu.com/s/1hRGadTjU7cPqMTqaghVFSQ 提取码：e49y

10.office：win10关闭更新，cmd以管理员身份运行

如下关于office2013，mathtype，Axmath：链接：https://pan.baidu.com/s/1XJ9KBQeKxPqjIA692f1J9Q 提取码：tyi5 ，点下图红框标出进行安装：

复制下图文件到上图文件夹位置进行替换。

win10关闭更新：此电脑-管理-服务-双击windows update。

11.shapely：/etc/bashrc

/etc/profile，/etc/bashrc是系统全局环境变量设定。~/.profile， ~/.bashrc用户家目录下的私有环境变量设定。shapely包：https://www.lfd.uci.edu/~gohlke/pythonlibs/ 或pypi网。

到所在文件夹：pip install Shapely-1.6.4.post1-cp37-cp37m-win_amd64.whl，将python：conda install python==3.7
No module named ‘numpy.core._multiarray_umath’：pip install numpy -U -i https://pypi.tuna.tsinghua.edu.cn/simple/
No module named 'cv2.cv2：pip install opencv-python出错：如上面下载对应版本再pip install，python -V，pip -V

Anaconda3/envs。查看linux系统32位还是64位：getconf LONG_BIT。查看linux系统版本信息：lsb_release -a。

12.数据挖掘/SVM/LSTM：箱图

泰坦尼克号获救：

【Notes4】前后端/大数据/IC，pip换源/ffmpeg/环境变量，visio/office/SVM/LSTM

大数据系统相关栏目本月热门文章